Estudio explora el escalado de modelos de aprendizaje profundo para la investigación en química.
11 de noviembre de 2023 característica
Este artículo ha sido revisado de acuerdo con el proceso editorial y las políticas de Science X. Los editores han destacado los siguientes atributos al tiempo que garantizan la credibilidad del contenido:
- verificación de hechos
- publicación con revisión por pares
- fuente confiable
- corrección de pruebas
por Ingrid Fadelli, Tech Xplore
Las redes neuronales profundas (DNN, por sus siglas en inglés) han demostrado ser herramientas muy prometedoras para analizar grandes cantidades de datos, lo que podría acelerar la investigación en varios campos científicos. Por ejemplo, en los últimos años, algunos científicos informáticos han entrenado modelos basados en estas redes para analizar datos químicos e identificar sustancias químicas prometedoras para diversas aplicaciones.
Investigadores del Instituto de Tecnología de Massachusetts (MIT) llevaron a cabo recientemente un estudio que investiga el comportamiento de escalabilidad neuronal de modelos grandes basados en DNN entrenados para generar composiciones químicas ventajosas y aprender potenciales interatómicos. Su artículo, publicado en Nature Machine Intelligence, muestra cuán rápido puede mejorar el rendimiento de estos modelos a medida que aumenta su tamaño y la cantidad de datos en los que se entrenan.
"El artículo 'Escalas de ley para modelos de lenguaje neural' de Kaplan et al., fue la principal inspiración para nuestra investigación", dijo Nathan Frey, uno de los investigadores que realizó el estudio, a Tech Xplore. "Ese artículo mostró que aumentar el tamaño de una red neural y la cantidad de datos en los que se entrena conduce a mejoras predecibles en el entrenamiento del modelo. Queríamos ver cómo se aplica la 'escalabilidad neural' a modelos entrenados con datos de química, para aplicaciones como el descubrimiento de medicamentos".
Frey y sus colegas comenzaron a trabajar en este proyecto de investigación en 2021, antes del lanzamiento de las reconocidas plataformas basadas en IA ChatGPT y Dall-E 2. En ese momento, la futura ampliación de las DNN se percibía como particularmente relevante para algunos campos y los estudios que exploraban su escalabilidad en las ciencias físicas o de la vida eran escasos.
El estudio de los investigadores explora la escalabilidad neural de dos tipos distintos de modelos para el análisis de datos químicos: un modelo de lenguaje grande (LLM) y un modelo basado en redes neuronales de grafos (GNN). Estos dos tipos diferentes de modelos se pueden utilizar para generar composiciones químicas y aprender los potenciales entre diferentes átomos en sustancias químicas, respectivamente.
"Estudiamos dos tipos de modelos muy diferentes: un modelo de lenguaje de estilo autoregresivo similar a GPT que creamos llamado 'ChemGPT' y una familia de GNN", explicó Frey. "ChemGPT se entrenó de la misma manera que ChatGPT, pero en nuestro caso ChemGPT intenta predecir el siguiente token en una cadena que representa una molécula. Las GNN se entrenan para predecir la energía y las fuerzas de una molécula".
Para explorar la escalabilidad del modelo ChemGPT y de las GNN, Frey y sus colegas exploraron los efectos del tamaño del modelo y el tamaño del conjunto de datos utilizado para entrenarlo en varias métricas relevantes. Esto les permitió obtener una tasa a la que estos modelos mejoran a medida que se hacen más grandes y se les proporciona más datos.
"Encontramos un 'comportamiento de escalabilidad neural' para modelos químicos, similar al comportamiento de escalabilidad observado en LLM y modelos de visión para diversas aplicaciones", dijo Frey.
"También mostramos que no estamos cerca de ningún tipo de límite fundamental para escalar modelos químicos, por lo que todavía hay mucho espacio para investigar más con más computación y conjuntos de datos más grandes. La incorporación de la física en las GNN a través de una propiedad llamada 'equivarianza' tiene un efecto dramático en la mejora de la eficiencia de escalabilidad, lo cual es un resultado emocionante porque en realidad es bastante difícil encontrar algoritmos que cambien el comportamiento de escalabilidad".
En general, los hallazgos reunidos por este equipo de investigadores arrojan nueva luz sobre el potencial de dos tipos de modelos de IA para llevar a cabo investigaciones en química, mostrando hasta qué punto puede mejorar su rendimiento al aumentar su escala. Este trabajo pronto podría informar nuevos estudios que exploren la promesa y el margen de mejora de estos modelos, así como de otras técnicas basadas en DNN para aplicaciones científicas específicas.
"Desde que se publicó nuestro trabajo original, ya se han realizado emocionantes trabajos de seguimiento que investigan las capacidades y limitaciones de la escalabilidad de los modelos químicos", agregó Frey. "Más recientemente, también he estado trabajando en modelos generativos para el diseño de proteínas y pensando en cómo la escala afecta a los modelos para datos biológicos".
© 2023 Science X Network