Evo 2 es el modelo de inteligencia artificial (IA) más grande y de código abierto en biología. Un sistema que abarca la diversidad genética del árbol de la vida y que puede ser útil para predecir mutaciones que causan enfermedades o para diseñar secuencias de ADN.

Thank you for reading this post, don't forget to subscribe!

El nuevo sistema de IA generativa, que puede leer y escribir código genético, ha sido entrenado con el ADN de más de 100.000 especies de todo tipo.

Publicidad

Desarrollado por científicos del Instituto Arc y la empresa NVIDIA, junto a colaboradores de la Universidad de Stanford, la de California en Berkeley y la de California en San Francisco, se trata de una versión mejorada de Evo, que fue presentada en 2024.

El nuevo modelo se hizo público hace un año en un repositorio, es decir, sin la necesaria revisión por pares para llegar a una revista científica, y ahora se publica en Nature.

La información genética esencial para la vida se escribe con un vocabulario de solo cuatro nucleótidos, que pueden describirse como los bloques de construcción que forman el ADN o el ARN. Evo 2 es capaz de leer y escribir en ese ‘lenguaje’.

El desarrollo de Evo 2 y su antecesor “representa un momento clave en el campo emergente de la biología generativa, ya que los modelos han permitido a las máquinas leer, escribir y pensar en el lenguaje de los nucleótidos”, indicó Patrick Hsu, autor del estudio y cofundador del Instituto Arc.

Evo 2 tiene “una comprensión generalista del árbol de la vida que resulta útil para multitud de tareas, desde predecir mutaciones causantes de enfermedades hasta diseñar código potencial para la vida artificial. Estamos deseando ver qué construye la comunidad investigadora a partir de estos modelos fundamentales”, destacó Hsu en un comunicado.

Evo puede, según el equipo, identificar con precisión mutaciones causantes de enfermedades en genes humanos y es capaz de diseñar nuevos genomas tan largos como los que tienen las bacterias simples.

Ante los posibles riesgos éticos y de seguridad, los científicos excluyeron de su base de datos los patógenos que infectan a los seres humanos y otros organismos complejos, y se aseguraron de que el modelo no diera respuestas productivas a esas consultas, resaltó el Instituto Arc.

En el año transcurrido desde su publicación preliminar, los investigadores han aplicado el modelo a una serie de problemas científicos, desde la predicción del riesgo de enfermedades genéticas en pacientes con alzhéimer, hasta la evaluación de los efectos de las variantes en especies animales domesticadas.

El modelo ya muestra suficiente versatilidad para identificar cambios genéticos que afectan a la función de las proteínas y a la aptitud física de los organismos.

En pruebas con variantes del gen BRCA1 asociado al cáncer de mama, alcanzó una precisión superior al 90 % en la predicción de qué mutaciones son benignas y cuáles potencialmente patógenas.

Además, Evo 2 se ha usado para diseñar bacteriófagos sintéticos funcionales, lo que demuestra sus posibles aplicaciones para el tratamiento de bacterias resistentes a los antibióticos, y el equipo considera que podría ser útil para diseñar nuevas herramientas o tratamientos biológicos.

“Si se dispone de una terapia génica que se desea activar solo en las neuronas para evitar efectos secundarios, o solo en las células del hígado, se podría diseñar un elemento genético que únicamente sea accesible en esas células específicas”, apuntó otro de los autores Hani Goodarzi.

Basándose en Evo 1, que se entrenó con genomas unicelulares, la nueva versión es el modelo de IA más grande en biología hasta la fecha, entrenado con más de 9,3 billones de nucleótidos, de más de 128.000 genomas completos, así como datos metagenómicos.

Además de una colección ampliada de genomas bacterianos, arqueanos y fágicos, incluye información de seres humanos, plantas y otras especies unicelulares y multicelulares del dominio eucariota de la vida.

Para lograr esa complicada tarea, el equipo tuvo que replantearse cómo un modelo de IA podía asimilar rápidamente y hacer inferencias sobre datos de esta magnitud.

La arquitectura de IA resultante, denominada StripedHyena 2, permitió entrenar a Evo 2 con 30 veces más datos que su antecesor y razonar sobre 8 veces más nucleótidos a la vez. EFE