La investigación de Basecamp revela datos de secuencia de especies novedosas
hace 3 semanas
En el último paso para tratar la ley de escala de datos de la biología, Basecamp Research ha compuesto la base de datos más grande para el entrenamiento modelo basado en secuencias, 9.800 millones de secuencias de proteínas nuevas y un millón de especies recién descubiertas.
El conjunto de datos basado en la compañía proporciona conjuntamente 10 veces la variedad de proteínas detectadas en comparación con todas las bases de datos públicas. El trabajo fue publicado en el sitio web de la compañía como una preimpresión, que aún no ha sido revisado por el colega.
"El surgimiento de la biología liberal,Diseñar, generar y enotte proteínas, vías y terapéticas utilizando el modelo de base de IA, crea una demanda sin precedentes de una gran base de datos de secuencia biológica diversa "," Cofundador en Glenn Goverrs, PhD, CEO e Basekamp Research.
Según las leyes de escala de AI, el rendimiento del modelo implica escalar tres cosas en paralelo: parámetros del modelo, potencia de calcular y datos. A diferencia de los dominios de AI, como el procesamiento del lenguaje natural, que pueden aprovechar las fuentes de expansión de texto e imágenes, los modelos de base biológica dependen mucho más de la base de datos de secuencia pública que crece lentamente que depende de entornos clínicos o de laboratorio. Según la preimpresión de Basecamp Research, El 70% de los datos de secuencia pública que se alimentan de la investigación biológica de hoy se prepara a partir de solo 10 especies.
"Una razón es que la tasa de crecimiento de los datos públicos es tan lenta, ya que no hay incentivos de alineación para muestras globales", dijo el Gobierno en una entrevista. Edad del gen"Con la estructura económica correcta con países de todo el mundo, podemos intensificar la cantidad de datos que se recopilan a gran escala".

Basecamp Research es una empresa con sede en el Reino Unido que se estableció en 2019, que ha participado con más de 125 comunidades en 26 países. Un modelo basado en la asociación económica Fomenta la recolección de muestras en los entornos más extremos y diversos del planeta.
En colaboración con compañías de biofermas e institutos de investigación educativa, los datos de fabricación objetiva resultante se utilizan para alimentar el modelo de IA que diseña secuencias de proteínas novedosas y sistemas biológicos para aplicaciones amplias en terapéutica, estabilidad, ingeniería química y más.
Uno de los nuevos hallazgos que se muestran en Basodata es una nueva especie Candidus Eremobacterota, Una bacteria que se encuentra en el suelo antártico que sobrevive al producir su agua usando hidrógeno como fuente de energía. Esta novela de búsqueda puede informar el sistema de administración de fármacos basado en gas o el enfoque terapéutico.
En el barco de la Segunda Guerra Mundial, el equipo expuso una nueva especie BurkolderiaUn tipo de bacterias que se conoce por la capacidad de eliminar los metales pesados del medio ambiente, lo que puede mejorar el control de la contaminación y profundizar la comprensión de la resistencia a los antibióticos.
En aguas termales ácidas cerca de un volcán activo, un nuevo miembro Malévolo La familia tiene un sistema estabilizador de la respuesta al estrés y la estabilidad cerca del punto de ebullición, la forma de abrir la forma de preservar los materiales biológicos en condiciones duras.
Para garantizar colecciones de datos similares de diversos entornos, el equipo desarrolló un traje de equipos y protocolos de biología molecular móvil que permite la extracción y el análisis de ADN en tiempo real en tiempo sin necesidad de infraestructura de laboratorio a gran escala. La red de muestreo global está respaldada por más de 150 permisos de acceso comercial activo y colaboración con parques nacionales, propietarios privados y funcionarios reglamentarios.
Los gobernadores dicen que el propósito de la compañía no es solo lidiar con el entorno extremo, sino también lidiar con muchas situaciones para atrapar el mundo natural. Las métricas como la temperatura y los niveles de pH se encuentran entre cientos de parámetros medidos, que contribuirán al ancho diverso de las secuencias de la base basada.
Referirme
Desde el establecimiento de la compañía en 2019, la investigación de Basecamp aumentó a más de 40 personas y recibió un total de fondos de $ 85 millones. En enero, la compañía estableció un laboratorio y una oficina de Cambridge en Kendall Square, de modo que el descubrimiento de drogas genéticas programables se aceleró, incluido el pionero de la edición del genoma David Liu, PhD, MIT y el Instituto Core del Instituto Broad del Instituto de Harvard y Houses Investigador del Instituto Médico.
De manera concurrente, Basecamp Research designó a John Finn, PhD como OSC de la Compañía. Finn fue el OSC de la primera biochiedad del tomo, donde desarrolló nuevas formas para grandes genes para aplicaciones médicas, antes de que la compañía se cerrara el año pasado.
Goverrs dijo que la compañía tiene como objetivo agregar el modelo de metagenoma que es consciente del contexto evolutivo para la lista de rendimientos crecientes del modelo de Fundación Biológica.
"Si pensamos en el modelo Genome Foundation, no solo quiere ver una proteína en un gen. Desea ver el genoma circundante de la misma manera que el chat lee una palabra en una oración y da significado y referencias", dijo Govers. Borde general.
Los conjuntos de datos públicos luchan con pequeñas referencias que a menudo miran un gen a la vez. Por el contrario, Basedata puede verse más largo en una longitud de referencia de 10,000 pares de bases y también en 9 billones de escala de nucleótidos.
Govers dice que el equipo está dando prioridad al posicionamiento de Bandata para el impacto de la comunidad. Actualmente, la compañía es compatible con un puñado de las principales compañías farmacéuticas para dar acceso a datos, dado que los modelos de fundación base basados pueden emparejarse con conjuntos de datos a pequeña escala de compañías individuales para aplicaciones ajustadas.
Además, Basecamp Research proporcionará un acceso rápido a la base para los investigadores que expresan interés a través del sitio web de su empresa. El equipo está trabajando en un estudio de seguimiento, que determina el impacto de la variedad extendida de la ubicada en el rendimiento de los modelos de biología.
Deja una respuesta Cancelar la respuesta