Uno studio esplora la scalabilità dei modelli di deep learning per la ricerca in chimica.

13 Novembre 2023 2734
Share Tweet

11 novembre 2023

caratteristica

Questo articolo è stato revisionato secondo il processo editoriale e le politiche di Science X. Gli editori hanno evidenziato i seguenti attributi garantendo l'affidabilità dei contenuti:

  • verifica dei fatti
  • pubblicazione sottoposta a revisione tra pari
  • fonte affidabile
  • corretta bozza

di Ingrid Fadelli, Tech Xplore

Le reti neurali profonde (DNN) si sono dimostrate strumenti molto promettenti per l'analisi di grandi quantità di dati, il che potrebbe accelerare la ricerca in vari campi scientifici. Ad esempio, negli ultimi anni, alcuni informatici hanno addestrato modelli basati su queste reti per analizzare dati chimici e identificare sostanze chimiche promettenti per varie applicazioni.

Ricercatori del Massachusetts Institute of Technology (MIT) hanno recentemente condotto uno studio che indaga il comportamento di scaling neurale di modelli DNN di grandi dimensioni addestrati a generare composizioni chimiche vantaggiose e a imparare potenziali interatomici. Il loro articolo, pubblicato su Nature Machine Intelligence, illustra quanto velocemente le prestazioni di questi modelli possono migliorare aumentando la loro dimensione e il pool di dati su cui vengono addestrati.

"L'articolo 'Scaling Laws for Neural Language Models' di Kaplan et al. è stata la principale ispirazione per la nostra ricerca", ha detto Tech Xplore Nathan Frey, uno dei ricercatori che ha condotto lo studio. "Quel lavoro ha mostrato che aumentare le dimensioni di una rete neurale e la quantità di dati su cui viene addestrata porta a miglioramenti prevedibili nella formazione del modello. Volevamo vedere come 'scaling neurale' si applica ai modelli addestrati su dati chimici, per applicazioni come la scoperta di farmaci."

Frey e i suoi colleghi hanno iniziato a lavorare su questo progetto di ricerca nel 2021, quindi prima del rilascio delle rinomate piattaforme basate sull'IA ChatGPT e Dall-E 2. All'epoca, l'incremento futuro delle DNN era considerato particolarmente rilevante per alcuni settori e gli studi che ne esploravano il scaling nelle scienze fisiche o biologiche erano scarsi.

Lo studio dei ricercatori esplora il scaling neurale di due diversi tipi di modelli per l'analisi dei dati chimici: un grande modello di linguaggio (LLM) e un modello basato su reti neurali a grafo (GNN). Questi due diversi tipi di modelli possono essere utilizzati per generare composizioni chimiche e imparare i potenziali tra diversi atomi nelle sostanze chimiche, rispettivamente.

"Abbiamo studiato due tipi di modelli molto diversi: un modello di linguaggio di tipo autoregressivo chiamato 'ChemGPT' e una famiglia di GNN", ha spiegato Frey. "ChemGPT è stato addestrato allo stesso modo in cui lo è ChatGPT, ma nel nostro caso ChemGPT cerca di prevedere il prossimo token in una stringa che rappresenta una molecola. Le GNN vengono addestrate per prevedere l'energia e le forze di una molecola."

Per esplorare la scalabilità del modello ChemGPT e delle GNN, Frey e i suoi colleghi hanno esplorato gli effetti delle dimensioni del modello e delle dimensioni del set di dati utilizzato per addestrarlo su varie metriche rilevanti. Ciò ha permesso loro di ottenere un tasso di miglioramento di questi modelli man mano che diventano più grandi e vengono alimentati con più dati.

"Abbiamo effettivamente riscontrato un 'comportamento di scaling neurale' per i modelli chimici, simile al comportamento di scaling visto nei modelli di linguaggio e di visione per varie applicazioni", ha detto Frey.

"Abbiamo anche dimostrato che non siamo vicini a nessun tipo di limite fondamentale per lo scaling dei modelli chimici, quindi c'è ancora molto spazio per investigare ulteriormente con maggiori risorse di calcolo e set di dati più grandi. L'incorporazione della fisica nelle GNN attraverso una proprietà chiamata 'equivarianza' ha un effetto significativo sull'efficienza del scaling, il che è un risultato interessante perché è effettivamente molto difficile trovare algoritmi che cambiano il comportamento di scaling."

Nel complesso, i risultati raccolti da questo team di ricercatori gettano nuova luce sul potenziale di due tipi di modelli AI per condurre ricerche chimiche, mostrando fino a che punto le loro prestazioni possono migliorare quando vengono aumentate di dimensioni. Questo lavoro potrebbe presto informare ulteriori studi che esplorano le promesse e le possibilità di miglioramento di questi modelli, così come di altre tecniche basate su DNN per specifiche applicazioni scientifiche.

"Da quando il nostro lavoro è stato pubblicato per la prima volta, sono stati già condotti interessanti ulteriori studi che indagano le capacità e i limiti dello scaling dei modelli chimici", ha aggiunto Frey. "Più di recente, ho anche lavorato su modelli generativi per la progettazione proteica e ho riflettuto su come lo scaling influisce sui modelli per i dati biologici."

© 2023 Science X Network


ARTICOLI CORRELATI