Une étude explore la mise à l'échelle des modèles d'apprentissage profond pour la recherche en chimie.

13 Novembre 2023 2057

11 novembre 2023 nouveauté

Cet article a été examiné selon le processus éditorial et les politiques de Science X. Les éditeurs ont souligné les attributs suivants tout en garantissant la crédibilité du contenu :

vérification des faits
publication avec examen par les pairs
source fiable
correction d'épreuve

by Ingrid Fadelli, Tech Xplore

Les réseaux neuronaux profonds (DNN) se sont révélés être des outils extrêmement prometteurs pour analyser de grandes quantités de données, ce qui pourrait accélérer la recherche dans divers domaines scientifiques. Par exemple, au cours des dernières années, certains informaticiens ont entraîné des modèles basés sur ces réseaux pour analyser des données chimiques et identifier des produits chimiques prometteurs pour diverses applications.

Des chercheurs du Massachusetts Institute of Technology (MIT) ont récemment réalisé une étude sur le comportement de mise à l'échelle neuronale de grands modèles basés sur les DNN, formés pour générer des compositions chimiques avantageuses et apprendre les potentiels interatomiques. Leur article, publié dans Nature Machine Intelligence, montre à quelle vitesse les performances de ces modèles peuvent s'améliorer à mesure que leur taille et le pool de données sur lesquelles ils sont formés augmentent.

"L'article 'Scaling Laws for Neural Language Models' de Kaplan et al. a été la principale source d'inspiration pour notre recherche", a déclaré Nathan Frey, l'un des chercheurs ayant réalisé l'étude, à Tech Xplore. "Cet article a montré que l'augmentation de la taille d'un réseau neuronal et de la quantité de données sur lesquelles il est formé conduit à des améliorations prévisibles dans la formation du modèle. Nous voulions voir comment la 'mise à l'échelle neuronale' s'applique aux modèles formés sur des données chimiques, pour des applications telles que la découverte de médicaments."

Frey et ses collègues ont commencé à travailler sur ce projet de recherche dès 2021, avant la sortie des célèbres plateformes basées sur l'IA ChatGPT et Dall-E 2. À l'époque, l'agrandissement futur des DNN était perçu comme particulièrement pertinent pour certains domaines, et les études explorant leur mise à l'échelle dans les sciences physiques ou sciences de la vie étaient rares.

L'étude des chercheurs explore la mise à l'échelle neuronale de deux types distincts de modèles pour l'analyse des données chimiques : un modèle de langage de grande taille (LLM) et un modèle basé sur un réseau neuronal graphique (GNN). Ces deux types de modèles différents peuvent être utilisés pour générer des compositions chimiques et apprendre les potentiels entre différents atomes dans les substances chimiques, respectivement.

"Nous avons étudié deux types de modèles très différents : un modèle de langage de type GPT basé sur l'autorégression que nous avons appelé 'ChemGPT' et une famille de GNN", explique Frey. "ChemGPT a été formé de la même manière que ChatGPT, mais dans notre cas, ChemGPT essaie de prédire le jeton suivant dans une chaîne qui représente une molécule. Les GNN sont formés pour prédire l'énergie et les forces d'une molécule."

Pour explorer la possibilité de mise à l'échelle du modèle ChemGPT et des GNN, Frey et ses collègues ont étudié les effets de la taille du modèle et de la taille de l'ensemble de données utilisé pour l'entraîner sur diverses mesures pertinentes. Cela leur a permis de déduire le taux d'amélioration de ces modèles à mesure qu'ils deviennent plus grands et reçoivent plus de données.

"Nous constatons un comportement de mise à l'échelle neuronale pour les modèles chimiques, rappelant le comportement de mise à l'échelle observé dans les modèles LLM et les modèles de vision pour différentes applications", déclare Frey.

"Nous avons également montré que nous ne sommes pas près d'atteindre une sorte de limite fondamentale pour la mise à l'échelle des modèles chimiques, il y a donc encore beaucoup à explorer avec davantage de calculs et de plus grands ensembles de données. L'incorporation de la physique dans les GNN via une propriété appelée 'équivariance' a un effet spectaculaire sur l'amélioration de l'efficacité de la mise à l'échelle, ce qui est un résultat passionnant car il est en réalité assez difficile de trouver des algorithmes qui modifient le comportement de mise à l'échelle."

En fin de compte, les résultats obtenus par cette équipe de chercheurs mettent en lumière le potentiel de deux types de modèles d'IA pour mener des recherches en chimie, montrant dans quelle mesure leurs performances peuvent s'améliorer lorsqu'ils sont agrandis. Ce travail pourrait bientôt informer d'autres études explorant la promesse et les possibilités d'amélioration de ces modèles, ainsi que de techniques basées sur les DNN pour des applications scientifiques spécifiques.

"Depuis que notre travail a été publié pour la première fois, il y a déjà eu des travaux passionnants qui explorent les capacités et les limites de la mise à l'échelle des modèles chimiques", ajoute Frey. "Plus récemment, j'ai également travaillé sur des modèles génératifs pour la conception de protéines et réfléchi à la manière dont la mise à l'échelle affecte les modèles pour les données biologiques."

PRÉC

Nouvelle étude contredit l'idée selon laquelle le noyau mystérieux de Jupiter aurait été formé par un impact géant...

Deux dragons aident à expliquer la détermination du sexe des reptiles...