
La herramienta AI predice la agregación de proteínas de la secuencia y permite a los científicos comprender el proceso de toma de decisiones
hace 3 semanas

Los investigadores, dirigidos por un equipo del Centro de Regulación Genómica, Instituto de Ciencia y Tecnología de Barcelona y el Instituto Welcom Sanger, han desarrollado un equipo de IA, que dice que dan un paso adelante para traducir proteínas del lenguaje que se utilizan para decidir que se utilizan para decidir que se les hace hacer que un grupo pegajoso como las personas asociadas con las enfermedades de Alzheimer y otras enfermedades humanas. En una desviación del típico modelo de IA de "caja negra", la nueva herramienta, Canya (red de confisos para la accion amiloide), fue diseñado para poder explicar sus decisiones, revelando patrones químicos específicos que ejecutan o detienen el plegamiento de proteínas dañinas.
Desarrollo del equipo, reportado en Progreso de la cienciaGracias por lo que se sugirieron que el mayor conjunto de datos sobre la agregación de proteínas realizadas hasta la fecha es el mayor conjunto de datos. El equipo determinó experimentalmente la agregación de más de 100,000 secuencias de proteínas, y utilizó este conjunto de datos para capacitar a nuevas herramientas de IA para predecir la secuencia. Sus resultados proporcionan una nueva visión sobre los mecanismos moleculares que reducen las proteínas pegajosas, que están asociadas con enfermedades que afectan a medio billón de personas en todo el mundo.
El profesor de investigación de ICREA, Ben Lehner, líder del grupo del Centro de Regulación Genómica (CRG) y el Instituto Welcom Sanger, dijo: "El proyecto es un gran ejemplo de cómo se puede combinar una generación de datos a gran escala con IA.
Lehner y Beneedta Bolognesi, PhD, Cataluña (IBEC) en el Instituto de Bioingeniería tienen líderes grupales, informes de equipo co-relaciones, titulados "Título", Título ",La cantidad experimental a gran escala detiene el aprendizaje intenso interpretable de la agregación de proteínas."En el que los investigadores concluyeron," en general, nuestros resultados proporcionan un conjunto de datos muy grande y bien calibrado para entrenar y evaluar el modelo más allá de Canya, y demuestran la utilidad del análisis experimental masivo de secuencias de proteínas aleatorias. "Bolognes y Lehner Labs colaboraron en el proyecto con investigadores en el Laboratorio de Harbor de Cold Spring y la Bienvenida al Instituto Sanger.
El grupo de proteínas, o la agregación amiloide, es una amenaza para la salud que interrumpe la función celular normal. Cuando algunos parches en proteínas se adhieren entre sí, las proteínas crecen en masas fibrosas densas que tienen consecuencias patológicas. Los autores escribieron: "Se recopilan proteínas insolubles específicas en forma de fibrill amiloide, que se caracteriza por más de 50 afecciones clínicas que afectan a más de medio mil millones de personas". "Estas incluyen las formas más frecuentes de trastornos neurodinativos normales y demencia".
Si bien el estudio tiene algunas implicaciones para acelerar los esfuerzos de investigación para enfermedades neurodenativas, su efecto más inmediato será en biotecnología, sugirió el equipo. Muchos medicamentos también son proteínas, y a menudo el aglomeración no deseada también se puede obstruir. "La agregación de proteínas también es un problema importante en biotecnología, por ejemplo, en la producción de enzimas, anticuerpos y otras ciencias médicas de proteínas", continuó el equipo.
"La agregación de proteínas es un gran dolor de cabeza para las compañías farmacéuticas", dijo Bologensi. "Si una proteína terapéutica comienza a recolectarse, el lote de fabricación puede fallar, gastar tiempo y dinero".
Un grupo de proteínas se forma usando un lenguaje deficiente. Las proteínas están hechas de veinte tipos diferentes de aminoácidos, de los cuales diferentes combinaciones forman "palabras" o "motivos". Los investigadores han exigido durante mucho tiempo comprender que las combinaciones de motivos causan aglomeración y que permiten que otras proteínas se doblen sin error. Las herramientas de inteligencia artificial que tratan aminoácidos como los alfabetos lingüísticos pueden ayudar a identificar palabras o motivos precisos responsables, pero la calidad y cantidad de datos sobre la agregación de proteínas requeridas para alimentar el modelo está históricamente limitado o restringido a piezas de proteínas muy pequeñas.
Los investigadores dijeron: "La importancia de los amiloides en las funciones y enfermedades biológicas ha inspirado esfuerzos de investigación masiva, sin embargo, los determinantes y mecanismos de su formación se consideran muy pobres", dijeron los investigadores. "Se han propuesto métodos para predecir la agregación de la secuencia, pero han sido entrenados y evaluados en conjuntos de datos experimentales pequeños y sesgados".
Los nuevos estudios informados abordaron este desafío realizando experimentos masivos. Los autores hicieron más de 100,000 piezas de proteínas completamente aleatorias, de cada 20 aminoácidos de largo, rasguño. Se probó la capacidad del grupo de cada pieza sintética en las células de levadura vivas. Si una pieza especial desencadena la formación de grupos, las células de levadura crecerán de cierta manera que los investigadores pueden medir para determinar la causa y el efecto.
El equipo descubrió que una de cada cinco piezas de proteínas (21,936/100,000) causó agitación, mientras que el resto no. Si bien los estudios anteriores pueden haber rastreado un puñado de secuencias, el nuevo conjunto de datos captura un catálogo muy grande de varias variantes de proteínas que pueden conducir a la agregación amiloide.
"En realidad hicimos piezas de proteína aleatoria, que no incluyen varias versiones en la naturaleza", explicó el primer autor Mike Thompson, PhD, un investigador postdotoral del Centro de Regulación Genómica (CRG). "La evolución ha descubierto solo una fracción de todas las secuencias de proteínas posibles, mientras que nuestro enfoque nos ayuda en una galaxia de posibilidades muy grande, proporcionando muchos puntos de datos para ayudar a comprender las leyes más comunes del comportamiento de la agregación".
Las grandes cantidades de datos generados a partir de experimentos se usaron para entrenar a Canya, que los investigadores crearon utilizando los principios de "IA explicable", lo que hace que sus procesos de decisión sean transparentes y comprensivos para los humanos. Esto significaba que un pequeño sacrificio de su poder futuro, que generalmente está más en la AIS "Black-Box". A pesar de esto, Canya demostró ser aproximadamente un 15% más preciso que los modelos actuales. "Usando secuencias aleatorias utilizando secuencias aleatorias, nos permitimos probar las secuencias de secuencias para un pequeño número de amylaids conocidos y nos permiten proporcionar una evaluación real de los profetas amiloides existentes en nuestros conjuntos de datos propios y existentes, que sirven como guía para la comunidad", dijeron los investigadores. "Una evaluación independiente adicional en 7,000 secuencias confirmó el rendimiento de Canya cuando la agregación predicha de la secuencia".
En particular, Canya es un modelo de actitud de determinación, una herramienta híbrida tomada de dos esquinas diferentes de IA. Los modelos confucanos, como se usan en el reconocimiento de imágenes, escanean fotos para características como oído o nariz para identificar una cara, excepto por este caso, Skims para encontrar características significativas como SKIMS o "Palabra" a través de la cadena de proteínas Canya.
El modelo de IA de meditación se usa para identificar frases clave en una oración antes de decidir sobre la mejor traducción por herramienta de traducción de idiomas. Los investigadores incluyeron esta técnica para ayudar a Canya a descubrir qué cosas son más importantes en el gran esquema de toda la proteína.
Juntos, ambos enfoques ayudan a Canya a mirar de cerca los motivos locales, mientras que sus grandes imágenes también ven la importancia. Los investigadores pueden usar esta información, no solo para adivinar qué motivos en la cadena de proteínas fomentan el aglomerado, bloquearla o algo en el medio, sino también comprender por qué. Él dijo: "Su estabilidad en las tareas de realización y evaluación de Canya sugiere que la secuencia de cánya-acatialización aprende una estimación precisa del escenario, solo después de entrenar en péptidos sintéticos aleatorios", comentó.
Por ejemplo, CANYA mostró que los pequeños bolsillos de aminoácidos que se extienden por el agua tienen más probabilidades de agruparse, mientras que algunos motivos tienen un gran impacto en el aglomeración si están cerca del inicio de una secuencia de proteínas en lugar del final. Descripción general La alineación con hallazgos anteriores se ha visto bajo el microscopio en la fibrilla amiloide conocida.
Pero Canya también recibió nuevas reglas que ejecutan la agregación de proteínas. Por ejemplo, generalmente se cree que algunos aminoácidos cargados evitan el agrupamiento. Pero resulta que en el contexto de otros bloques de construcción específicos, en realidad pueden promover el grupo.
En su forma actual, Canya explica principalmente la agregación de proteínas en sí o no, es decir, sirve como un "clasificador" llamado SO. Los investigadores quieren refinar el siguiente sistema para que pueda predecir y comparar la velocidad de la agregación en lugar de solo la posibilidad de agregación. Puede ayudar a predecir qué variantes de proteínas crean rápidamente grupos y cuáles hacen más lentamente, un factor importante en las enfermedades neurodogenativas donde el tiempo de formación de amiloide importa tanto como es el hecho de que es en absoluto.
"Hay 1.024 métodos quintalianos para crear una pieza de proteína que tiene 20 minoácidos de altura", dijo Boli. "Hasta ahora, hemos entrenado IA con solo 100,000 piezas. Queremos mejorarla haciéndola más y grandes piezas. Este es solo el primer paso, pero nuestro trabajo muestra que es posible comprender el lenguaje de la agregación de proteínas. El proceso".
"Usando la síntesis y secuenciación del ADN, podemos demostrar cientos de miles de experimentos en el mismo tubo, lo que nos genera los datos necesarios para entrenar modelos AI. Este es un enfoque que estamos aplicando para muchos problemas difíciles en biología. El objetivo es aproximar y programar biología".
Deja una respuesta