Kan vi träna AI att vara kreativ? Ett laboratorium testar idéer

04 Augusti 2024 2634

Mänskligt kunnande kommer delvis från vår näsa för nyhet - vi är nyfikna varelser, oavsett om vi tittar runt hörn eller testar vetenskapliga hypoteser. För att artificiell intelligens ska ha en bred och nyanserad förståelse av världen – så att den kan navigera i vardagliga hinder, interagera med främlingar eller uppfinna nya mediciner – måste den också utforska nya idéer och erfarenheter på egen hand. Men med oändliga möjligheter för vad man ska göra härnäst, hur kan AI avgöra vilka riktningar som är de mest nya och användbara?

En idé är att automatiskt utnyttja mänsklig intuition för att avgöra vad som är intressant genom stora språkmodeller som tränas på masskvantiteter mänsklig text - den typ av programvara som driver chatbots. Två nya artiklar tar detta tillvägagångssätt och föreslår en väg mot smartare självkörande bilar, till exempel, eller automatiserad vetenskaplig upptäckt.

"Båda verken är betydande framsteg mot att skapa öppna lärsystem", säger Tim Rocktäschel, en datavetare vid Google DeepMind och University College London som inte var involverad i arbetet. LLM:erna erbjuder ett sätt att prioritera vilka möjligheter som ska strävas efter. "Det som tidigare var ett oöverkomligt stort sökutrymme blir plötsligt hanterbart", säger Rocktäschel. Även om vissa experter oroar sig för att öppen AI - AI med relativt obegränsad utforskande kraft - kan gå av stapeln.

Båda nya tidningarna, som publicerades online i maj på arXiv.org och ännu inte granskats av experter, kommer från datavetaren Jeff Clunes labb vid University of British Columbia i Vancouver och bygger direkt på hans tidigare projekt. Under 2018 skapade han och medarbetare ett system som heter Go-Explore (rapporterat i Nature 2021) som lär sig att, säg, spela videospel som kräver utforskning. Go-Explore innehåller en spelagent som förbättras genom en trial-and-error-process som kallas förstärkningsinlärning (SN: 3/25/24). Systemet sparar med jämna mellanrum agentens framsteg i ett arkiv och väljer sedan intressanta, sparade tillstånd och fortsätter därifrån. Men att välja intressanta stater bygger på handkodade regler, som att välja platser som inte har besökts mycket. Det är en förbättring jämfört med slumpmässigt urval men är också stel.

Clunes labb har nu skapat Intelligent Go-Explore, som använder en stor språkmodell, i det här fallet GPT-4, istället för de handkodade reglerna för att välja "lovande" tillstånd från arkivet. Språkmodellen väljer också åtgärder från de tillstånd som hjälper systemet att utforska "intelligent" och avgör om resulterande tillstånd är tillräckligt "intressant nya" för att arkiveras.

LLM kan fungera som ett slags "intelligenslim" som kan spela olika roller i ett AI-system på grund av deras allmänna kapacitet, säger Julian Togelius, datavetare vid New York University som inte var inblandad i arbetet. "Du kan bara hälla den i hålet på, liksom, du behöver en nyhetsdetektor, och den fungerar. Det är typ galet."

Forskarna testade Intelligent Go-Explore, eller IGE, på tre typer av uppgifter som kräver flerstegslösningar och involverar bearbetning och utmatning av text. I ett måste systemet ordna siffror och aritmetiska operationer för att producera talet 24. I ett annat slutför det uppgifter i en 2-D rutnätsvärld, såsom rörliga objekt, baserat på textbeskrivningar och instruktioner. I ett tredje spelar den solospel som går ut på att laga mat, skattjakt eller samla mynt i en labyrint, också baserat på text. Efter varje åtgärd får systemet en ny observation - "Du anländer i ett skafferi .... Du ser en hylla. Hyllan är av trä. På hyllan kan du se mjöl...” är ett exempel från matlagningsspelet – och väljer en ny handling.

Forskarna jämförde IGE med fyra andra metoder. En metod samplade åtgärder slumpmässigt, och de andra matade in det aktuella spelläget och historiken till en LLM och bad om en åtgärd. De använde inte ett arkiv med intressanta speltillstånd. IGE överträffade alla jämförelsemetoder; när den samlade mynt vann den 22 av 25 spel, medan ingen av de andra vann några. Förmodligen lyckades systemet så bra genom att iterativt och selektivt bygga på intressanta tillstånd och handlingar, och på så sätt återspegla kreativitetsprocessen hos människor.

Intelligent Go-Explore överträffade slumpmässigt utvalda åtgärder och tre andra tillvägagångssätt i solospel som involverar bearbetning och utmatning av text.

IGE kan hjälpa till att upptäcka nya läkemedel eller material, säger forskarna, särskilt om det innehåller bilder eller annan data. Studiens medförfattare Cong Lu vid University of British Columbia säger att att hitta intressanta riktningar för utforskning på många sätt är "det centrala problemet" med förstärkningsinlärning. Clune säger att dessa system "låter AI se längre genom att stå på axlarna av gigantiska mänskliga datamängder."

Föregå

Nya fotoniska chips konverterar passivt laserljus till flera färger på begäran...

NÄSTA

Fossila bränslen CO₂-utsläpp når rekordhöga nivåer år 2025...