Studie untersucht das Skalieren von Deep-Learning-Modellen für die chemische Forschung.

13 November 2023 2416
Share Tweet

11. November 2023 Merkmal

Dieser Artikel wurde gemäß dem redaktionellen Prozess und den Richtlinien von Science X überprüft. Die Redakteure haben während der Sicherstellung der Glaubwürdigkeit folgende Eigenschaften hervorgehoben:

  • überprüfte Fakten
  • peer-reviewed Veröffentlichung
  • vertrauenswürdige Quelle
  • korrekturgelesen

von Ingrid Fadelli, Tech Xplore

Tiefe neuronale Netze (DNNs) haben sich als äußerst vielversprechende Werkzeuge zur Analyse großer Datenmengen erwiesen, was die Forschung in verschiedenen wissenschaftlichen Bereichen beschleunigen könnte. In den letzten Jahren haben beispielsweise einige Informatiker Modelle auf Basis dieser Netzwerke trainiert, um chemische Daten zu analysieren und vielversprechende Chemikalien für verschiedene Anwendungen zu identifizieren.

Forscher des Massachusetts Institute of Technology (MIT) haben kürzlich eine Studie durchgeführt, in der das neuronale Skalierungsverhalten großer DNN-basierter Modelle untersucht wurde, die darauf trainiert wurden, vorteilhafte chemische Zusammensetzungen zu generieren und interatomare Potentiale zu erlernen. Ihre Arbeit, veröffentlicht in Nature Machine Intelligence, zeigt, wie schnell sich die Leistung dieser Modelle verbessern kann, wenn ihre Größe und die Datenmenge, auf der sie trainiert werden, erhöht wird.

"Die Arbeit 'Scaling Laws for Neural Language Models' von Kaplan et al. war die Hauptinspiration für unsere Forschung", erklärte Nathan Frey, einer der Forscher, die die Studie durchgeführt haben, gegenüber Tech Xplore. "In dieser Arbeit wurde gezeigt, dass eine Erhöhung der Größe eines neuronalen Netzwerks und der Menge an Daten, auf denen es trainiert wird, zu vorhersehbaren Verbesserungen beim Modelltraining führt. Wir wollten sehen, wie sich 'neuronales Scaling' auf Modelle auswirkt, die auf chemischen Daten basieren, beispielsweise für die Arzneimittelforschung."

Frey und seine Kollegen begannen bereits 2021 mit diesem Forschungsprojekt, also bevor die renommierten KI-basierten Plattformen ChatGPT und Dall-E 2 veröffentlicht wurden. Zu diesem Zeitpunkt wurde die zukünftige Hochskalierung von DNNs insbesondere in einigen Bereichen als relevant angesehen, und Studien, die ihre Skalierung in den Natur- oder Lebenswissenschaften untersuchten, waren rar.

In der Studie der Forscher wird das neuronale Skalieren von zwei verschiedenen Arten von Modellen für die Analyse chemischer Daten untersucht: ein großes Sprachmodell (LLM) und ein Modell auf Basis neuronaler Netze mit Graphen (GNN). Diese beiden unterschiedlichen Modelltypen können verwendet werden, um chemische Zusammensetzungen zu generieren bzw. die Potentiale zwischen verschiedenen Atomen in chemischen Substanzen zu erlernen.

"Wir haben zwei sehr unterschiedliche Modelltypen untersucht: ein autoregressives Sprachmodell im Stil von GPT, das wir 'ChemGPT' genannt haben, und eine Familie von GNNs", erklärte Frey. "ChemGPT wurde auf die gleiche Weise trainiert wie ChatGPT, jedoch versucht ChemGPT in unserem Fall, das nächste Token in einer Zeichenkette vorherzusagen, die ein Molekül repräsentiert. Die GNNs werden trainiert, um die Energie und Kräfte eines Moleküls vorherzusagen."

Um die Skalierbarkeit des ChemGPT-Modells und der GNNs zu untersuchen, haben Frey und seine Kollegen die Auswirkungen der Größe eines Modells und der Größe des zur Schulung verwendeten Datensatzes auf verschiedene relevante Metriken untersucht. Dadurch konnten sie eine Rate ableiten, mit der sich diese Modelle verbessern, wenn sie größer werden und mehr Daten erhalten.

"Wir finden 'neuronales Skalierungsverhalten' für chemische Modelle, das an das Skalierungsverhalten von LLM- und Vision-Modellen für verschiedene Anwendungen erinnert", sagte Frey.

"Wir haben auch gezeigt, dass wir noch nicht an einer Art grundlegender Grenze für die Skalierung chemischer Modelle angekommen sind, sodass noch viel Raum für weitere Untersuchungen mit mehr Rechenleistung und größeren Datensätzen besteht. Die Einbeziehung von Physik in GNNs über eine Eigenschaft namens 'Equivarianz' hat einen dramatischen Effekt auf die Verbesserung der Skalierungseffizienz, was ein aufregendes Ergebnis ist, da es tatsächlich ziemlich schwierig ist, Algorithmen zu finden, die das Skalierungsverhalten verändern."

Insgesamt liefern die Ergebnisse, die von diesem Forscherteam gesammelt wurden, neue Erkenntnisse über das Potenzial von zwei Arten von KI-Modellen für die Durchführung chemischer Forschung. Sie zeigen, inwieweit sich die Leistung dieser Modelle verbessern kann, wenn sie hochskaliert werden. Diese Arbeit könnte bald weitere Studien informieren, die das Potenzial und die Möglichkeiten der Verbesserung dieser Modelle sowie anderer DNN-basierter Techniken für spezifische wissenschaftliche Anwendungen untersuchen.

"Seitdem unsere Arbeit veröffentlicht wurde, gab es bereits aufregende Folgearbeiten, die die Fähigkeiten und Grenzen der Skalierung chemischer Modelle untersuchen", fügte Frey hinzu. "In letzter Zeit habe ich auch an generativen Modellen für Protein-Design gearbeitet und darüber nachgedacht, wie die Skalierung Modelle für biologische Daten beeinflusst."

© 2023 Science X Network


ZUGEHÖRIGE ARTIKEL