Können wir KI trainieren, kreativ zu sein? Ein Labor testet Ideen.
Ein Teil des menschlichen Fachwissens stammt zum Teil aus unserer Nase für Neuheit - wir sind neugierige Wesen, ob wir nun um Ecken schauen oder wissenschaftliche Hypothesen testen. Damit künstliche Intelligenz ein breites und nuanciertes Verständnis von der Welt hat - damit sie den Alltags Hindernissen entgegentreten kann, mit Fremden interagieren oder neue Medikamente erfinden kann - muss sie auch neue Ideen und Erfahrungen selbst erkunden. Doch bei unendlichen Möglichkeiten, was als nächstes zu tun ist, wie kann KI entscheiden, welche Richtungen die neuartigsten und nützlichsten sind?
Eine Idee ist, menschliche Intuition automatisch zu nutzen, um durch große Sprachmodelle, die auf großen Mengen menschlichen Textes trainiert sind, zu entscheiden, was interessant ist - die Art von Software, die Chatbots antreibt. Zwei neue Arbeiten verfolgen diesen Ansatz und deuten auf einen Weg hin zu schlaueren selbstfahrenden Autos oder automatisierten wissenschaftlichen Entdeckungen.
"Beide Arbeiten sind bedeutende Fortschritte bei der Entwicklung von offenen Lernsystemen", sagt Tim Rocktäschel, ein Informatiker bei Google DeepMind und University College London, der nicht an der Arbeit beteiligt war. Die Sprachmodelle bieten einen Weg, um zu priorisieren, welche Möglichkeiten verfolgt werden sollen. "Was früher ein unüberwindlich großer Suchraum war, wird plötzlich handhabbar", sagt Rocktäschel. Einige Experten befürchten jedoch, dass eine offene KI - eine KI mit relativ unbeschränkten explorativen Fähigkeiten - aus dem Ruder laufen könnte.
Beide neuen Arbeiten, die im Mai online auf arXiv.org veröffentlicht wurden und noch nicht begutachtet wurden, stammen aus dem Labor des Informatikers Jeff Clune an der Universität British Columbia in Vancouver und bauen direkt auf seinen früheren Projekten auf. Im Jahr 2018 entwickelte er zusammen mit Mitarbeitern ein System namens Go-Explore (berichtet in Nature im Jahr 2021), das lernt, beispielsweise Videospiele zu spielen, die Exploration erfordern. Go-Explore enthält einen Spiel-Agenten, der sich durch einen Trial-and-Error-Prozess namens Verstärkungslernen verbessert. Das System speichert regelmäßig den Fortschritt des Agenten in einem Archiv und wählt später interessante, gespeicherte Zustände aus und macht von dort aus Fortschritte. Die Auswahl interessanter Zustände beruht jedoch auf von Hand codierten Regeln, wie z.B. die Auswahl von Orten, die nicht oft besucht wurden. Es ist eine Verbesserung gegenüber der zufälligen Auswahl, aber auch starr.
Das Labor von Clune hat nun Intelligent Go-Explore geschaffen, das ein großes Sprachmodell, in diesem Fall GPT-4, anstelle der von Hand codierten Regeln verwendet, um "vielversprechende" Zustände aus dem Archiv auszuwählen. Das Sprachmodell wählt auch Aktionen aus diesen Zuständen aus, die dem System helfen, "intelligent" zu erkunden, und entscheidet, ob die resultierenden Zustände "interessant genug" sind, um archiviert zu werden.
Sprachmodelle können als eine Art "Intelligenzkleber" fungieren, der aufgrund ihrer allgemeinen Fähigkeiten verschiedene Rollen in einem KI-System spielt, sagt Julian Togelius, ein Informatiker an der New York University, der nicht an der Arbeit beteiligt war. "Du kannst es einfach in das Loch gießen, wenn du einen Neuigkeitsdetektor brauchst, und es funktioniert. Es ist irgendwie verrückt."
Die Forscher testeten Intelligent Go-Explore oder IGE an drei Arten von Aufgaben, die mehrstufige Lösungen erfordern und die Verarbeitung und Ausgabe von Text beinhalten. In einem Fall muss das System beispielsweise Zahlen und arithmetische Operationen anordnen, um die Zahl 24 zu erzeugen. In einem anderen vervollständigt es Aufgaben in einer 2D-Gitterwelt, z.B. das Bewegen von Objekten, basierend auf Textbeschreibungen und Anweisungen. In einem dritten Fall spielt es Solo-Spiele, die Kochen, Schatzsuche oder das Sammeln von Münzen in einem Labyrinth beinhalten, ebenfalls basierend auf Text. Nach jeder Aktion erhält das System eine neue Beobachtung - "Du kommst in eine Vorratskammer... Du siehst ein Regal. Das Regal ist aus Holz. Auf dem Regal siehst du Mehl..." ist ein Beispiel aus dem Kochspiel - und wählt eine neue Aktion.
Die Forscher verglichen IGE mit vier anderen Methoden. Eine Methode wählte Aktionen zufällig aus, und die anderen fütterten den aktuellen Spielzustand und die Geschichte in ein Sprachmodell und baten um eine Aktion. Sie verwendeten kein Archiv interessanter Spielzustände. IGE übertraf alle Vergleichsmethoden; beim Münzsammeln hat es 22 von 25 Spielen gewonnen, während keines der anderen gewonnen hat. Das System hat dies vermutlich erreicht, indem es iterativ und selektiv auf interessanten Zuständen und Aktionen aufgebaut hat, was den kreativen Prozess in Menschen widerspiegelt.
Intelligent Go-Explore übertraf zufällig ausgewählte Aktionen und drei andere Ansätze in Solo-Spielen, die die Verarbeitung und Ausgabe von Text beinhalten.
IE könnte helfen, neue Medikamente oder Materialien zu entdecken, sagen die Forscher, besonders wenn es Bilder oder andere Daten integriert. Studienmitautor Cong Lu von der Universität British Columbia sagt, dass das Finden interessanter Erforschungsrichtungen in vielerlei Hinsicht "das zentrale Problem" des Verstärkungslernens ist. Clune sagt, dass diese Systeme "KI ermöglichen, weiter zu sehen, indem sie auf den Schultern gigantischer menschlicher Datensätze stehen".