Como la IA está detectando mutaciones del coronavirus

Los algoritmos de PNL diseñados para palabras y oraciones también se pueden utilizar para interpretar cambios genéticos del virus, acelerando el trabajo de laboratorio para detectar nuevas variantes.

Galileo observó una vez que la naturaleza está escrita en matemáticas. La biología puede escribirse con palabras. Los algoritmos de procesamiento del lenguaje natural (NLP) ahora pueden generar secuencias de proteínas y predecir mutaciones de virus, incluidos cambios clave que ayudan al coronavirus a evadir el sistema inmunológico.

La idea clave que hace que esto sea posible es que muchas propiedades de los sistemas biológicos pueden interpretarse en términos de palabras y oraciones. «Estamos aprendiendo el lenguaje de la evolución», dice Bonnie Berger, bióloga computacional del Instituto de Tecnología de Massachusetts.

En los últimos años, un puñado de investigadores, incluidos equipos del laboratorio del genetista George Church y Salesforce, han demostrado que las secuencias de proteínas y los códigos genéticos se pueden modelar utilizando técnicas de PNL.

En un estudio publicado en Science , Berger y sus colegas unen varias de estas hebras y usan la PNL para predecir mutaciones que permiten que los virus eviten ser detectados por anticuerpos en el sistema inmunológico humano, un proceso conocido como escape inmunológico viral. La idea básica es que la interpretación de un virus por un sistema inmunológico es análoga a la interpretación de una oración por un humano.

“Es un documento impecable que se basa en el impulso del trabajo anterior”, dice Ali Madani, científico de Salesforce, que utiliza la PNL para predecir secuencias de proteínas .

El equipo de Berger utiliza dos conceptos lingüísticos diferentes: gramática y semántica (o significado). La aptitud genética o evolutiva de un virus —características tales como lo bueno que es para infectar a un huésped— se puede interpretar en términos de corrección gramatical. Un virus infeccioso exitoso es gramaticalmente correcto; uno que no tiene éxito no lo es.

De manera similar, las mutaciones de un virus se pueden interpretar en términos de semántica. Las mutaciones que hacen que un virus parezca diferente a las cosas de su entorno, como los cambios en las proteínas de su superficie que lo hacen invisible para ciertos anticuerpos, han alterado su significado. Los virus con diferentes mutaciones pueden tener diferentes significados, y un virus con un significado diferente puede necesitar diferentes anticuerpos para leerlo.

Para modelar estas propiedades, los investigadores utilizaron un LSTM, un tipo de red neuronal que es anterior a las basadas en transformadores utilizadas por modelos de lenguaje grandes como GPT-3. Estas redes más antiguas se pueden entrenar con muchos menos datos que los transformadores y aún funcionan bien para muchas aplicaciones.

Leer virus

En lugar de millones de oraciones, entrenaron el modelo de PNL en miles de secuencias genéticas tomadas de tres virus diferentes: 45,000 secuencias únicas para una cepa de influenza, 60,000 para una cepa de VIH y entre 3,000 y 4,000 para una cepa de Sars-Cov. -2, el virus que causa el covid-19. «Hay menos datos sobre el coronavirus porque ha habido menos vigilancia», dice Brian Hie, un estudiante graduado del MIT, que construyó los modelos. 

Los modelos de PNL funcionan codificando palabras en un espacio matemático de tal manera que las palabras con significados similares están más juntas que las palabras con significados diferentes. Esto se conoce como incrustación. En el caso de los virus, la incrustación de las secuencias genéticas agrupaba los virus según la similitud de sus mutaciones.      

El objetivo general del enfoque es identificar mutaciones que podrían permitir que un virus escape de un sistema inmunológico sin hacerlo menos infeccioso, es decir, mutaciones que cambian el significado de un virus sin hacerlo gramaticalmente incorrecto.

Tome un ejemplo de lenguaje. Cambiar solo una palabra en la frase «los viticultores se deleitan en la buena temporada» puede producir las frases «los viticultores se deleitan en la temporada fuerte» o «los viticultores se deleitan en la temporada de la gripe». Ambos comparten la misma estructura gramatical, pero uno ha cambiado su significado más que el otro. La herramienta busca cambios similares en un virus y marca los que más cambian de significado.

Para probar su enfoque, el equipo utilizó una métrica común para evaluar las predicciones realizadas por modelos de aprendizaje automático que puntúan la precisión en una escala entre 0,5 (nada mejor que la casualidad) y 1 (perfecto). En este caso, tomaron las principales mutaciones identificadas por la herramienta y, utilizando virus reales en un laboratorio, comprobaron cuántas de ellas eran mutaciones de escape reales. Sus resultados oscilaron entre 0,69 para el VIH y 0,85 para una cepa de coronavirus. Esto es mejor que los resultados de otros modelos de vanguardia, dicen. 

Mirando hacia el futuro

Saber qué mutaciones podrían estar llegando podría facilitar que los hospitales y las autoridades de salud pública planifiquen con anticipación. Por ejemplo, pedirle al modelo que le diga cuánto ha cambiado de significado una cepa de gripe desde el año pasado le daría una idea de qué tan bien van a funcionar los anticuerpos que la gente ya ha desarrollado este año.

Aún así, este trabajo se trata más de abrir nuevos caminos que de tener un impacto real en la salud pública, por ahora. Desde que realizó el trabajo publicado en Science, el equipo ha estado ejecutando modelos en nuevas variantes del coronavirus, incluida la llamada mutación del Reino Unido, la mutación del visón de Dinamarca y variantes tomadas de Sudáfrica, Singapur y Malasia.

Han encontrado un alto potencial de escape inmunológico en todos ellos, aunque esto aún no se ha probado en la naturaleza. Pero el modelo pasó por alto otro cambio en la variante de Sudáfrica que ha generado preocupación porque puede permitirle escapar de las vacunas. Están tratando de entender por qué es así. «Consiste en múltiples mutaciones y creemos que está entrando en juego un efecto combinatorio», dice Berger.

El uso de PNL acelera un proceso lento. Anteriormente, el genoma del virus tomado de un paciente con covid-19 en el hospital podía secuenciarse y sus mutaciones recreadas y estudiadas en un laboratorio. Pero eso puede llevar semanas, dice Bryan Bryson, biólogo del MIT, que también trabaja en el proyecto. El modelo de PNL predice mutaciones potenciales de inmediato, lo que enfoca el trabajo de laboratorio y lo acelera.

«Es un momento alucinante para trabajar en esto», dice Bryson. Cada semana salen nuevas secuencias de virus. “Es increíble actualizar simultáneamente su modelo y luego correr al laboratorio para probarlo en experimentos. Esto es lo mejor de la biología computacional ”, dice.

Pero también es solo el comienzo. El tratamiento de las mutaciones genéticas como cambios de significado podría aplicarse de diferentes formas en la biología. «Una buena analogía puede ser muy útil», dice Bryson.

Por ejemplo, Hie piensa que su enfoque se puede aplicar a la resistencia a los medicamentos. “Piense en una proteína del cáncer que adquiere resistencia a la quimioterapia o una proteína bacteriana que adquiere resistencia a un antibiótico”, dice. Estas mutaciones pueden volver a considerarse como cambios de significado: «Hay muchas formas creativas en las que podemos comenzar a interpretar los modelos del lenguaje».

«Creo que la biología está en la cúspide de una revolución», dice Madani. «Ahora estamos pasando de simplemente recopilar una gran cantidad de datos a aprender a comprenderlos en profundidad».

Los investigadores están observando los avances en la PNL y están ideando nuevas analogías entre el lenguaje y la biología para aprovecharlos. Pero Bryson, Berger y Hie creen que este cruce podría ir en ambos sentidos, con nuevos algoritmos de PNL inspirados en conceptos de biología. «La biología tiene su propio lenguaje», dice Berger.

Esta es una nota publicada en MIT Tech Review y traducida por @edegenaro. Puedes leer la original en el siguiente enlace.

Front-End Developer. I am an enterprising person, passionate about new technologies and emerging trends. I have more than 12 years of study and dedication applied to learning new technologies, continuous innovation and the management of technological projects.

Leave a reply:

Your email address will not be published.