Possiamo addestrare l'IA a essere creativa? Un laboratorio sta testando idee

04 Agosto 2024 2222
Share Tweet

Il know-how umano deriva in parte dal nostro fiuto per la novità - siamo creature curiose, che si tratti di guardare intorno all'angolo o di testare ipotesi scientifiche. Perché l'intelligenza artificiale abbia una comprensione ampia e sfumata del mondo - in modo che possa superare gli ostacoli quotidiani, interagire con estranei o inventare nuovi medicinali - deve anche esplorare nuove idee ed esperienze da sola. Ma con infinite possibilità su cosa fare dopo, come può l'IA decidere quali sono le direzioni più originali e utili?

Un'idea è quella di sfruttare automaticamente l'intuizione umana per decidere cosa è interessante attraverso grandi modelli linguistici addestrati su grandi quantità di testi umani - il tipo di software che alimenta i chatbot. Due nuovi articoli seguono questo approccio, suggerendo una strada verso auto più intelligenti a guida autonoma, ad esempio, o verso la scoperta scientifica automatizzata.

"Entrambi i lavori sono significativi progressi verso la creazione di sistemi di apprendimento a ciclo aperto," dice Tim Rocktäschel, un informatico di Google DeepMind e University College London che non è stato coinvolto nel lavoro. I LLM offrono un modo per prioritizzare quali possibilità perseguire. "Quello che era prima uno spazio di ricerca proibitivamente grande diventa improvvisamente gestibile," dice Rocktäschel. Anche se alcuni esperti temono che l'IA a ciclo aperto - un'IA con poteri esplorativi relativamente non limitati - potrebbe uscire dai binari.

Entrambi i nuovi articoli, pubblicati online a maggio su arXiv.org e non ancora sottoposti a revisione paritaria, provengono dal laboratorio dell'informatico Jeff Clune presso l'Università della Columbia Britannica a Vancouver e si basano direttamente su progetti precedenti dello stesso. Nel 2018, lui e i collaboratori hanno creato un sistema chiamato Go-Explore (riportato su Nature nel 2021) che impara, ad esempio, a giocare a videogiochi che richiedono esplorazione. Go-Explore integra un agente di gioco che migliora attraverso un processo di prova ed errore chiamato apprendimento per rinforzo. Il sistema salva periodicamente i progressi dell'agente in un archivio, per poi scegliere stati salvati interessanti e progredire da lì. Ma la selezione di stati interessanti si basa su regole codificate a mano, come ad esempio scegliere posizioni poco visitate. È un miglioramento rispetto alla selezione casuale, ma è anche rigido.

Il laboratorio di Clune ha ora creato Intelligent Go-Explore, che utilizza un grande modello di linguaggio, in questo caso GPT-4, invece delle regole codificate a mano per selezionare stati "promettenti" dall'archivio. Il modello di linguaggio seleziona anche azioni da quegli stati che aiuteranno il sistema a esplorare in modo "intelligente" e decide se gli stati risultanti sono abbastanza "interessantemente nuovi" da essere archiviati.

I LLM possono agire come una sorta di "colla intelligente" che può svolgere diversi ruoli in un sistema di IA grazie alle loro capacità generali, dice Julian Togelius, un informatico dell'Università di New York che non è stato coinvolto nel lavoro. "Puoi semplicemente versarlo nel buco di, ad esempio, hai bisogno di un rilevatore di novità, e funziona. È un po' pazzesco."

I ricercatori hanno testato Intelligent Go-Explore, o IGE, su tre tipi di compiti che richiedono soluzioni multistep e coinvolgono l'elaborazione e l'output di testo. In uno, il sistema deve disporre numeri e operazioni aritmetiche per ottenere il numero 24. In un altro, completa compiti in un mondo a griglia 2D, come spostare oggetti, basandosi su descrizioni e istruzioni di testo. In un terzo, gioca a giochi in solitaria che coinvolgono la cucina, la ricerca di tesori o la raccolta di monete in un labirinto, sempre basati su testo. Dopo ogni azione, il sistema riceve una nuova osservazione - "Arrivi in una dispensa… Vedi uno scaffale. Lo scaffale è di legno. Sull'armadio puoi vedere farina…" è un esempio dal gioco di cucina - e sceglie una nuova azione.

I ricercatori hanno confrontato IGE con altre quattro metodologie. Un metodo campionava azioni in modo casuale, gli altri inserivano lo stato attuale del gioco e la storia in un LLM e chiedevano un'azione. Non utilizzavano un archivio di stati di gioco interessanti. IGE ha superato tutte le metodologie di confronto; nel raccogliere monete, ha vinto 22 su 25 partite, mentre nessuno degli altri ha vinto. Presumibilmente il sistema ha ottenuto tali risultati iterativamente e selettivamente costruendo su stati e azioni interessanti, facendo eco al processo di creatività negli esseri umani.

Intelligent Go-Explore ha superato le azioni selezionate casualmente e tre altri approcci in giochi in solitaria che coinvolgono l'elaborazione e l'output di testo.

IGE potrebbe aiutare a scoprire nuovi farmaci o materiali, dicono i ricercatori, specialmente se incorporasse immagini o altri dati. La coautrice dello studio Cong Lu dell'Università della Columbia Britannica dice che trovare direzioni interessanti per l'esplorazione è in molti modi "il problema centrale" dell'apprendimento per rinforzo. Clune dice che questi sistemi "permettono all'IA di vedere più lontano stando sulle spalle di giganteschi dataset umani."


ARTICOLI CORRELATI