Pouvons-nous entraîner l'IA à être créative? Un laboratoire teste des idées
Le savoir-faire humain découle en partie de notre sens de la nouveauté : nous sommes des créatures curieuses, que ce soit pour regarder dans les recoins ou pour tester des hypothèses scientifiques. Pour que l’intelligence artificielle ait une compréhension large et nuancée du monde, afin de pouvoir surmonter les obstacles du quotidien, interagir avec des inconnus ou inventer de nouveaux médicaments, elle doit également explorer de nouvelles idées et expériences par elle-même. Mais avec des possibilités infinies de ce qu’il faut faire ensuite, comment l’IA peut-elle décider quelles directions sont les plus novatrices et les plus utiles ?
Une idée consiste à exploiter automatiquement l’intuition humaine pour décider de ce qui est intéressant grâce à de grands modèles linguistiques formés sur des quantités massives de texte humain, le type de logiciel qui alimente les chatbots. Deux nouveaux articles adoptent cette approche, suggérant une voie vers des voitures autonomes plus intelligentes, par exemple, ou vers la découverte scientifique automatisée.
« Ces deux travaux constituent des avancées significatives vers la création de systèmes d’apprentissage ouverts », déclare Tim Rocktäschel, informaticien chez Google DeepMind et University College London, qui n’a pas participé aux travaux. Les LLM offrent un moyen de prioriser les possibilités à poursuivre. « Ce qui était autrefois un espace de recherche prohibitif devient soudainement gérable », explique Rocktäschel. Certains experts craignent cependant que l’IA ouverte – une IA dotée de pouvoirs d’exploration relativement illimités – ne déraille.
Les deux nouveaux articles, publiés en ligne en mai sur arXiv.org et non encore évalués par des pairs, proviennent du laboratoire de l’informaticien Jeff Clune de l’Université de Colombie-Britannique à Vancouver et s’appuient directement sur ses projets antérieurs. En 2018, lui et ses collaborateurs ont créé un système appelé Go-Explore (rapporté dans Nature en 2021) qui apprend, par exemple, à jouer à des jeux vidéo nécessitant une exploration. Go-Explore intègre un agent de jeu qui s’améliore grâce à un processus d’essais et d’erreurs appelé apprentissage par renforcement (SN : 25/03/24). Le système enregistre périodiquement la progression de l’agent dans une archive, puis sélectionne plus tard des états intéressants et enregistrés et progresse à partir de là. Mais la sélection d’états intéressants repose sur des règles codées à la main, comme le choix d’emplacements qui n’ont pas été beaucoup visités. C’est une amélioration par rapport à la sélection aléatoire, mais c’est aussi rigide.
Le laboratoire de Clune a maintenant créé Intelligent Go-Explore, qui utilise un grand modèle de langage, dans ce cas GPT-4, au lieu des règles codées à la main pour sélectionner les états « prometteurs » dans les archives. Le modèle de langage sélectionne également les actions de ces états qui aideront le système à explorer « intelligemment » et décide si les états résultants sont suffisamment « intéressants » pour être archivés.
Les LLM peuvent agir comme une sorte de « colle d’intelligence » qui peut jouer divers rôles dans un système d’IA en raison de leurs capacités générales, explique Julian Togelius, informaticien à l’Université de New York qui n’a pas participé aux travaux. « Vous pouvez simplement le verser dans le trou, comme si vous aviez besoin d’un détecteur de nouveauté, et ça marche. C’est un peu fou. »
Les chercheurs ont testé Intelligent Go-Explore, ou IGE, sur trois types de tâches qui nécessitent des solutions en plusieurs étapes et impliquent le traitement et la sortie de texte. Dans l’une, le système doit organiser des nombres et des opérations arithmétiques pour produire le nombre 24. Dans une autre, il accomplit des tâches dans un monde en grille 2D, comme déplacer des objets, en se basant sur des descriptions et des instructions textuelles. Dans une troisième, il joue à des jeux solo qui impliquent de cuisiner, de chasser au trésor ou de collecter des pièces dans un labyrinthe, également basés sur du texte. Après chaque action, le système reçoit une nouvelle observation — « Vous arrivez dans un garde-manger… Vous voyez une étagère. L’étagère est en bois. Sur l’étagère, vous pouvez voir de la farine… » est un exemple du jeu de cuisine — et choisit une nouvelle action.
Les chercheurs ont comparé IGE à quatre autres méthodes. Une méthode échantillonnait des actions de manière aléatoire, et les autres alimentaient l’état actuel du jeu et l’historique dans un LLM et demandaient une action. Ils n’ont pas utilisé d’archive d’états de jeu intéressants. IGE a surpassé toutes les méthodes de comparaison ; lors de la collecte de pièces, il a gagné 22 des 25 parties, tandis qu’aucun des autres n’en a gagné. Le système a probablement bien fonctionné en s’appuyant de manière itérative et sélective sur des états et des actions intéressants, faisant ainsi écho au processus de créativité chez les humains.
Intelligent Go-Explore a surpassé les actions sélectionnées au hasard et trois autres approches dans les jeux en solo qui impliquent le traitement et la sortie de texte.
IGE pourrait aider à découvrir de nouveaux médicaments ou matériaux, disent les chercheurs, surtout s’il intègre des images ou d’autres données. Le co-auteur de l’étude, Cong Lu, de l’Université de Colombie-Britannique, affirme que trouver des directions intéressantes pour l’exploration est à bien des égards « le problème central » de l’apprentissage par renforcement. Clune affirme que ces systèmes « permettent à l’IA de voir plus loin en s’appuyant sur des ensembles de données humaines géants ».