SandboxAq hizo una base de datos pública de estructuras de ligando proteína y prosperidad de unión

hace 11 horas


Crédito: Diseño de Laguna/Getty Images

Recientemente, Sandboxer lanzó que afirma que el Anotet Experimental Unking es el conjunto de datos más grande disponible públicamente de la pareja de ligando proteína con datos de potencia. Según la compañía, un repositorio IC50 promocionado (SAIR) promovido estructuralmente incluye aproximadamente 5,2 millones de estructuras moleculares tridimensionales sintéticas en un sistema de ligando proteína durante más de un millón.

Los detalles completos sobre los recursos y su desarrollo han sido proporcionados por un "título" de preimpresiónSAIR: Habilite el aprendizaje profundo para la interacción proteína-ligando con un conjunto de datos estructural sintéticoAdemás de aprovechar las grandes capacidades de modelo cuantitativo (LQM) de SanboxAQ, los desarrolladores de la nube DGX ™ de Sair Sair-Sair real, también utilizaron una plataforma de crecimiento para el entrenamiento de modelos de IA y el ajuste fino.

Junto con muchas empresas en el descubrimiento de drogas y el espacio de desarrollo, Sandboxer está apostando a que la IA puede reducir significativamente la fecha límite y los bajos costos. El descubrimiento de drogas es una de las pocas industrias en las que una parte importante: el 70%gastan para la investigación y el desarrollo. Adam Lewis, AI y Quantum lidera en Sandboxes, dijeron: "Todo siempre avanza (y) cada medicamento es diferente". "Como hemos perseguido este lugar, nos hemos enfrentado a nosotros mismos".

Un contribuyente importante al costo de búsqueda de fármacos son los experimentos requeridos para determinar si los candidatos se unen efectivamente para la proteína de interés. El dispositivo AI puede ser de gran ayuda a este respecto, pero el costo prohibitorio de ejecutar experimentos en el laboratorio significa que hay una falta de conjunto de datos requerido para entrenar modelos para el trabajo.

Louis dijo: "Queremos invertir nuestra I + D en la creación de modelos de IA que son muy específicos para los problemas de descubrimiento de fármacos. Uno de los problemas que identificamos es solo la falta de datos", dijo Louis. General en una entrevista. Él dijo: "Quieres hacer LQM en busca de medicina, que los experimentos son lentos, caros y, en algunos casos, incluso inseguros", dijo. Con el acceso correcto de entrenamiento al conjunto de datos, "AI puede hacer estos experimentos en información en lugar de algo físico", y "abre algunas nuevas oportunidades" que "son" experimentalmente posibles. "Pero" porque estos experimentos son lentos, caros y potencialmente peligrosos, solo hay una cantidad finita de datos disponibles ".

Ayuda a AI mejores predicciones

Los programas como Alphafold, Openfold y Boltz generan efectivamente datos sobre estructuras de proteínas y interacciones de proteínas-Drag, pero tienen limitaciones. Además, un complejo de ligando proteico muy bajo consiste en una estructura 3D de arado y una medición de potencia, por lo que la mayoría de los algoritmos de IA están entrenados en datos indirectos como secuencias o estructuras químicas 2D. Además, los nuevos modelos coincidentes solo pueden hacer predicciones sobre proteínas y ligandos que son similares a las personas utilizadas en el entrenamiento y pueden ser un momento difícil con nuevas proteínas o compuestos químicamente diversos, dijo Lewis.

Una alternativa para ayudar al algoritmo de IA a hacer mejores predicciones es "tratar de producir datos de estructura más experimentales". Encuentre otras "formas de explotar diferentes tipos de datos", y esto es lo que hicimos con el padre ", dijo.

Para desarrollar datos de SAIR, los científicos usaron recursos disponibles públicamente como BindingDB y ChemBL y un modelo co-tocado: Boltz-1-para predecir estructuras tridimensionales para las parejas. En severa, no confiaron en una sola predicción, sino que eligieron en lugar de generar múltiples estructuras con diferentes poses para capturar las mejores áreas de incertidumbre.

Lewis explicó: "¿Qué obtienes () hay muchas predicciones diferentes que están dentro del rango de capacidad del modelo que están vinculados a estos pares de intimidad", explicó Lewis. Posteriormente, el equipo utilizó algoritmos de predicción de intimidad para analizar estructuras, elegir a aquellos que tuvieron el mejor compromiso con datos de afinidad experimental y luego abandonar a aquellos que no estaban en forma en el proyecto de ley. "De hecho, esta es una forma de tomar datos muy baratos ... y usarlos para mejorar los datos estructurales sin hacer estructuras de cristal experimentales directas".

Para Arman Zaribafian, el jefe del producto, la IA y la plataforma de simulación en el sandboxer, los puentes de caminata, que habían descrito como una diferencia más larga entre las estructuras de proteínas, la afinidad de unión y el poder del fármaco. Se hizo eco de los costos inhibitorios de generar datos de entrenamiento para los sentimientos de levisuras, así como las limitaciones de usar información de secuencia para estructuras químicas bidimensionales y entrenamiento de algoritmos. "El lanzamiento de SAIR demuestra que tenemos que conocer estas simulaciones en una escala para saber que es producir estructuras 3D para los datos que están presentes allí y luego los conecta con afinidad vinculante".

Destacó la importancia de la contribución de Nvidia al proyecto, dado que el equipo SAIR colaboró ​​estrechamente con una empresa informática para lograr 2X mejoras en el uso de GPU para el proyecto. Solo usar más GPU no es suficiente, señaló Zaribafian. "Tienes que optimizar tu flujo de trabajo" y "Asegúrese de aumentar el uso de GPU".

Los datos de Sair son más útiles para capacitar o ajustar el nuevo modelo de inteligencia artificial (AI) para el modelo de biofundación de evaluación comparativa o para predecir la intimidad de unión. Los datos están disponibles de forma gratuita para uso no comercial bajo la licencia CC BY-NC-SA 4.0. "¿Cómo imaginaremos que puede usarse ampliamente? Ya sea el nuevo modelo de afinidad o el modelo estructural de afinidad de entrenamiento deben calibrarse, pero, por supuesto, estamos abiertos a la creatividad de la comunidad científica", dijo Louis.

Mientras tanto, los usuarios comerciales pueden usar datos en cualquier tarifa después de enviar el formulario a Sandboxer. Aprovechando los datos de SAIR para la capacitación, sus desarrolladores creen que los modelos de IA podrán distribuir al menos 1000 veces más rápido que los métodos tradicionales basados ​​en la física.

La compañía también se pregunta cómo es mejor mantener recursos a largo plazo. Hasta cierto punto, "esto dependerá de la comunidad y nuestro propio desarrollo", dijo Louis. Una opción solo tendrá que expandir el conjunto de datos. Otro "crear un nuevo conjunto de datos paralelos" que solo puede cubrir más que pequeñas moléculas. "Tenemos una visión de expandirnos en todo el modelado de la celda, y lo veremos como un bloque de construcción en esa dirección", dijo.



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir