Una inteligencia artificial de Meta similar al ChatGPT supera a Google al descifrar los ladrillos de la vida

La nueva era de la biología basada en la inteligencia artificial ha comenzado, y con ella una inesperada rivalidad entre los gigantes de la tecnología por ver quién es capaz de descifrar los componentes básicos de la vida. La compañía Meta ha aplicado modelos de lenguaje similares al famoso ChatGPT para predecir con éxito la estructura de 738 millones de proteínas del mundo metagenómico, microbios que viven en el suelo, en las profundidades del océano e incluso en nuestras entrañas y en nuestra piel. El número de esas proteínas supera con creces las que se encuentran en la vida animal y vegetal. Aunque son las menos comprendidas, tienen un gran potencial biotecnológico, por ejemplo para crear enzimas con nuevos usos o adaptadas a entornos hostiles. Meta reconoce que su inteligencia artificial, llamada ESMFold, no es tan precisa como otras con el mismo objetivo basadas en redes neuronales, como AlphaFold, desarrollada por DeepMind de Google, pero sí es sesenta veces más rápida. Las nuevas secuencias descifradas —más de un tercio predichas con un alto grado de confianza— han sido publicadas en el Atlas Metagenómico de ESM , gratuito y de libre acceso. La información que contiene podría acelerar descubrimientos para ayudar a curar enfermedades, limpiar el medio ambiente y producir energía más limpia.  Las proteínas son moléculas complejas, codificadas por nuestros genes, responsables de muchos de los procesos de la vida, desde los bastones y conos que nos permiten ver, la fotosíntesis de las plantas, las enzimas que descomponen el plástico o los anticuerpos que nos protegen de las enfermedades. Formadas por cadenas de aminoácidos, las proteínas se pliegan en formas complejas como si fueran un juego de origami, formando estructuras 3D que determinan en gran medida su función. Conocer cómo lo hacen ha supuesto uno de los grandes desafíos de la biología desde hace más de cincuenta años. Noticia Relacionada estandar No Una inteligencia artificial de Google predice la estructura de casi todas las proteínas conocidas y cambia la ciencia Judith de Jorge Los datos, de acceso público, pueden arrojar luz sobre diferentes enfermedades y ayudar a solucionar desde la contaminación plástica hasta la resistencia a los antibióticos En 2021, DeepMind sorprendió a la comunidad científica al lanzar el código de AlphaFold , que descifraba las estructuras de un millón de proteínas, incluidas casi todas las del cuerpo humano. El hallazgo supuso una auténtica revolución, ya que, en cuestión de minutos y con gran precisión, los investigadores podían obtener información muy relevante sobre, por ejemplo, las proteínas involucradas en distintas enfermedades. Antes, hacer lo mismo con técnicas de laboratorio podía llevar semanas o años para una sola proteína. El pasado julio , una nueva actualización subió el número de proteínas a la increíble cifra de 200 millones, casi todas las de los seres vivos conocidos del planeta. A esta carrera se ha sumado el equipo de Meta AI. Su nuevo enfoque, publicado este jueves en la revista ‘Science’ ( se adelantó un archivo en línea para las prepublicaciones de artículos científicos el pasado noviembre), predice las estructuras tridimensionales a nivel atómico con una fiabilidad cercana a la de Alpha Fold, pero hasta 60 veces más rápido. Según explican, esto permitirá comprender la estructura de miles de millones de proteínas. Ya van 738 millones, según la última actualización de la base de datos. Este ‘mapa’ de estructuras predichas en alta resolución es tres veces más grande que cualquiera existente y el primero en cubrir las proteínas metagenómicas de manera integral y a escala. Más de 225 millones de esas predicciones se consideran de alta confianza. En estos casos, los investigadores suponen que la forma de la proteína es correcta y pueden discernir detalles más finos a nivel atómico. Un campo de entrenamiento para Zuckerberg «Dos compañías enormes compitiendo por esto es una locura», se asombra Alfonso Valencia. Por qué lo hacen puede tener varias explicaciones. Por un lado, «es un campo de batalla para saber quién tiene la mejor tecnología, hay razones comerciales y de visibilidad», pero el investigador sospecha que puede haber una «razón técnica» detrás. «Entrenar a ChatGPT con lenguaje es complicado. Los textos son muy largos, no está claro su significado… En comparación, las secuencias de las proteínas, aunque son millones, resultan cortas -Una proteína estándar tiene 300 aminoácidos- y su significado está implícito, por lo que es un campo estupendo para poner a prueba este tipo de tecnología», afirma. Identificar mutaciones ESMFold y AlphaFold funcionan de forma diferente. «El programa de AlphaFold utiliza una tecnología de redes neuronales. Recoge información no solo de una proteína en concreto, sino de todas las que son parecidas. Por ejemplo, todas la variaciones de la hemoglobina en humanos, ratones… El programa calcula las probabilidades de la estructura de la proteína sobre ese conjunto de frecuencias», explica a este periódico Alfonso Valencia, profesor ICREA y director de Ciencias de la Vida en el Centro Nacional de Supercomputación de Barcelona (BSC). Sin embargo, la tecnología de la firma de Zuckerberg es similar a la del ChatGPT. El popular modelo de lenguaje «recurre a un gran número de textos y aprende las probabilidades de que detrás de una palabra vaya otra. Esta misma idea se traslada a las proteínas, de forma que ESMFold aprende que detrás de un aminoácido (que es una letra) suele venir otro, y detrás otro… hasta reproducir la secuencia de una proteína. Lo interesante es que esto implica conocer su estructura tridimensional», indica el investigador. A su juicio, esta es una ventaja fundamental, ya que solo se necesita una proteína, y no otras parecidas de la misma familia, para lograr el mismo objetivo. De igual manera, ESMFod facilita identificar las mutaciones que alteran los aminoácidos, lo que resulta fundamental en medicina. «Podremos analizar el genoma de un niño con una enfermedad rara y ver qué proteínas han sufrido mutaciones. Esto Deep Mind no lo hacía», dice. Eso sí, a diferencia de DeepMind, el código de Meta no está disponible y los detalles sobre el entrenamiento en la publicación son muy pocos. MÁS INFORMACIÓN noticia No El efecto de la contaminación del aire en las moscas: las hembras pierden interés por el sexo y los machos se cortejan entre sí noticia Si La resurrección de la era del Concorde Para Valencia, estas tecnologías serán especialmente útiles en todas las áreas de la medicina en las que la información genómica sea importante, como el cáncer o las enfermedades raras, en las que el diagnóstico rápido es fundamental para poder tratarlas y que, en muchas ocasiones, están determinadas por la mutación en un solo gen. Meta estudia ahora cómo se pueden usar modelos de lenguaje para diseñar nuevas proteínas y contribuir a resolver desafíos en salud, enfermedades y medio ambiente.