Kunnen we AI trainen om creatief te zijn? Een laboratorium test ideeën

04 Augustus 2024 2361
Share Tweet

De menselijke knowhow komt deels voort uit onze neus voor nieuwigheid - we zijn nieuwsgierige wezens, of we nu om hoeken kijken of wetenschappelijke hypothesen testen. Om kunstmatige intelligentie een breed en genuanceerd begrip van de wereld te laten hebben - zodat het alledaagse obstakels kan navigeren, kan omgaan met vreemden of nieuwe geneesmiddelen kan uitvinden - moet het ook nieuwe ideeën en ervaringen op eigen houtje verkennen. Maar met oneindige mogelijkheden voor wat te doen, hoe kan AI beslissen welke richtingen het meest nieuw en nuttig zijn?

Één idee is om automatisch menselijke intuïtie te gebruiken om te beslissen wat interessant is door middel van grote taalmodellen die getraind zijn op grote hoeveelheden menselijke tekst - het soort software dat chatbots ondersteunt. Twee nieuwe papers volgen deze aanpak, en suggereren bijvoorbeeld een pad naar slimmere zelfrijdende auto's of geautomatiseerde wetenschappelijke ontdekkingen.

"Beide werken zijn significante vooruitgangen naar het creëren van open-eindige leersystemen," zegt Tim Rocktäschel, een informaticus bij Google DeepMind en University College London die niet betrokken was bij het werk. De grote taalmodellen bieden een manier om te bepalen welke mogelijkheden moeten worden nagestreefd. "Wat ooit een verbazingwekkend grote zoekruimte was, wordt plotseling beheersbaar," aldus Rocktäschel. Hoewel sommige experts zich zorgen maken dat open-eindige AI - AI met relatief onbeperkte verkenningsmogelijkheden - uit de hand kan lopen.

Beide nieuwe papers, online geplaatst in mei op arXiv.org en nog niet peer-reviewed, komen uit het laboratorium van informaticus Jeff Clune aan de Universiteit van British Columbia in Vancouver en bouwen rechtstreeks voort op zijn eerdere projecten. In 2018 creëerde hij samen met collega's een systeem genaamd Go-Explore (gerapporteerd in Nature in 2021) dat leert om bijvoorbeeld video games te spelen die exploratie vereisen. Go-Explore omvat een game-playing agent die verbetert via een proces van trial-and-error genaamd reinforcement learning (SN: 3/25/24). Het systeem slaat periodiek de voortgang van de agent op in een archief en kiest later interessante, opgeslagen toestanden en gaat van daaruit verder. Maar het selecteren van interessante staten stoelt op handmatige regels, zoals het kiezen van locaties die niet veel zijn bezocht. Het is een verbetering ten opzichte van willekeurige selectie, maar ook rigide.

Het laboratorium van Clune heeft nu Intelligent Go-Explore gecreëerd, dat een groot taalmodel, in dit geval GPT-4, gebruikt in plaats van handmatige regels om "veelbelovende" staten uit het archief te selecteren. Het taalmodel kiest ook acties uit die staten die het systeem helpen "intelligent" te verkennen, en beslist of resulterende toestanden "interessant nieuw" genoeg zijn om te archiveren.

Taalmodellen kunnen fungeren als een soort "intelligentiekleefstof" die verschillende rollen kan spelen in een AI-systeem vanwege hun algemene mogelijkheden, zegt Julian Togelius, een informaticus aan de New York University die niet betrokken was bij het werk. "Je kunt het gewoon gieten in het gat van, bijvoorbeeld, je hebt een nieuwheidsdetector nodig, en het werkt. Het is een beetje gek."

De onderzoekers testten Intelligent Go-Explore, of IGE, op drie soorten taken die meerstaps-oplossingen vereisen en betrekking hebben op het verwerken en uitvoeren van tekst. In één geval moet het systeem getallen en rekenoperaties rangschikken om het getal 24 te produceren. In een ander geval voltooit het taken in een 2D-gridwereld, zoals het verplaatsen van objecten, op basis van tekstbeschrijvingen en instructies. In een derde geval speelt het solo-spellen die koken, schatzoeken of het verzamelen van munten in een doolhof omvatten, ook gebaseerd op tekst. Na elke actie ontvangt het systeem een nieuwe observatie - "Je komt aan in een voorraadkast ... Je ziet een plank. De plank is van hout. Op de plank zie je bloem ..." is een voorbeeld uit het kookspel - en kiest vervolgens een nieuwe actie.

De onderzoekers vergeleken IGE met vier andere methoden. Eén methode monsterde acties willekeurig, en de anderen voerden de huidige gamesituatie en geschiedenis in bij een LLM en vroegen om een actie. Ze maakten geen gebruik van een archief van interessante gamesituaties. IGE presteerde beter dan alle vergelijkingsmethoden; bij het verzamelen van munten won het 22 van de 25 spellen, terwijl geen van de anderen won. Waarschijnlijk deed het systeem het zo goed door iteratief en selectief voort te bouwen op interessante staten en acties, waarmee het het proces van creativiteit bij mensen weerspiegelt.

Intelligent Go-Explore presteerde beter dan willekeurig geselecteerde acties en drie andere benaderingen in solo-spellen die de verwerking en uitvoer van tekst vereisen.

IGE kan helpen bij de ontdekking van nieuwe geneesmiddelen of materialen, zeggen de onderzoekers, vooral als het onder meer afbeeldingen of andere gegevens zou bevatten. Studiecoauteur Cong Lu van de Universiteit van British Columbia zegt dat het vinden van interessante richtingen voor exploratie op vele manieren "het centrale probleem" van reinforcement learning is. Clune zegt dat deze systemen "AI verder laten kijken door op de schouders van gigantische menselijke datasets te staan."

Het tweede nieuwe systeem onderzoekt niet alleen manieren om toegewezen taken op te lossen. Als kinderen die een spel bedenken, genereert het nieuwe taken om de vaardigheden van AI-agenten te verbeteren. Dit systeem bouwt voort op een ander systeem dat vorig jaar door het laboratorium van Clune is gemaakt en heet OMNI (voor Open-endedness via Models of human Notions of Interestingness). Binnen een gegeven virtuele omgeving, zoals een 2D-versie van Minecraft, stelde een LLM nieuwe taken voor een AI-agent voor om te proberen op basis van eerdere taken die hij goed of slecht had volbracht, waardoor automatisch een leerplan werd opgebouwd. Maar OMNI was beperkt tot handmatig gecreëerde virtuele omgevingen.

Dus de onderzoekers hebben OMNI-EPIC (OMNI met Environments Programmed In Code) gecreëerd. Voor hun experimenten gebruikten ze een natuurkundesimulator - een relatief blanco virtuele omgeving - en zaaide het archief met een paar voorbeeldtaken zoals het trappen tegen een bal door doelpalen, oversteken van een brug en beklimmen van een trap. Elke taak wordt vertegenwoordigd door een natuurlijke taalbeschrijving samen met computercode voor de taak.

OMNI-EPIC kiest een taak en gebruikt LLM's om een beschrijving en code te maken voor een nieuwe variatie, vervolgens een andere LLM om te beslissen of de nieuwe taak "interessant" is (nieuw, creatief, leuk, nuttig en niet te gemakkelijk of te moeilijk). Als het interessant is, traint de AI-agent op de taak via reinforcement learning, en de taak wordt opgeslagen in het archief, samen met de nieuw getrainde agent en of deze succesvol was. Het proces herhaalt zich, waarbij een vertakkende boom van nieuwe en complexere taken wordt gecreëerd, samen met AI-agenten die ze kunnen voltooien. Rocktäschel zegt dat OMNI-EPIC "een Achilleshiel van open-endedness-onderzoek aanpakt, namelijk hoe automatisch taken te vinden die zowel leerbaar als nieuw zijn."


AANVERWANTE ARTIKELEN