Czy możemy szkolić sztuczną inteligencję w dziedzinie twórczości? Jedno laboratorium testuje pomysły.

04 Sierpień 2024 1962
Share Tweet

Człowiekowe know-how pochodzi częściowo z naszego nosa do nowości — jesteśmy ciekawskimi istotami, czy to zaglądając za rogi czy testując naukowe hipotezy. Aby sztuczna inteligencja miała szerokie i subtelne zrozumienie świata — aby mogła poruszać się w codziennych przeszkodach, prowadzić interakcje z obcymi czy wynajdywać nowe leki — również musi sama badać nowe pomysły i doświadczenia. Ale w nieskończonych możliwościach co zrobić dalej, jak AI może zdecydować, które kierunki są najbardziej nowatorskie i przydatne?

Jednym pomysłem jest automatyczne wykorzystanie ludzkiej intuicji do decydowania, co jest interesujące dzięki dużym modelom językowym szkolenym na masowych ilościach tekstu ludzkiego — tego rodzaju oprogramowania, które zasila chatbota. Dwa nowe artykuły przyjmują takie podejście, sugerując ścieżkę ku inteligentniejszym samochodom z autopilotem, na przykład, lub odkryciom naukowym automatyzowanym.

"Oba prace stanowią znaczące postępy w kierunku tworzenia systemów uczenia otwartego", mówi Tim Rocktäschel, informatyk z Google DeepMind i University College London, który nie brał udziału w pracy. Modele językowe oferują sposób na priorytetowanie, które możliwości warto podjąć. "To, co kiedyś było przesadnie duże pole poszukiwań, nagle staje się możliwe do zarządzania", mówi Rocktäschel. Choć niektórzy eksperci obawiają się, że otwarta sztuczna inteligencja — AI z relatywnie nieograniczonymi możliwościami eksploracji — może zejść na złą drogę.

Oba nowe artykuły, opublikowane w maju na arXiv.org i jeszcze nie poddane recenzji, pochodzą z laboratorium informatyka Jeffa Clune'a na Uniwersytecie British Columbia w Vancouver i bezpośrednio nawiązują do jego wcześniejszych projektów. W 2018 roku stworzył on wraz z współpracownikami system o nazwie Go-Explore (opublikowany w Nature w 2021 roku), który uczy się na przykład grać w gry wideo wymagające eksploracji. Go-Explore obejmuje agenta grającego w grę, który poprawia się poprzez proces prób i błędów zwany uczeniem przez wzmocnienie. System okresowo zapisuje postępy agenta w archiwum, a następnie później wybiera interesujące, zapisane stany i kontynuuje od nich. Wybór interesujących stanów opiera się jednak na regułach zaprogramowanych ręcznie, takich jak wybieranie lokalizacji, które nie były odwiedzane zbyt często. Jest to usprawnienie w porównaniu do losowego wyboru, ale jest również sztywne.

Laboratorium Clune'a stworzyło teraz Intelligent Go-Explore, który zamiast ręcznie zaprogramowanych reguł używa dużego modelu językowego, w tym przypadku GPT-4, do wyboru "obiecujących" stanów z archiwum. Model językowy również wybiera działania z tych stanów, które pomogą systemowi eksplorować "inteligentnie" oraz decyduje, czy wynikowe stany są wystarczająco "nowatorskie", aby zostać zarchiwizowane.

Modele językowe mogą pełnić rolę "kleju inteligencji", który może spełniać różne role w systemie AI ze względu na swoje ogólne możliwości, mówi Julian Togelius, informatyk z Uniwersytetu Nowojorskiego, który nie brał udziału w pracy. "Możesz po prostu wlać go w dziurę, jeśli potrzebujesz detektora nowości, i działa. To trochę szalone.".

Badacze przetestowali Intelligent Go-Explore, czyli IGE, na trzech rodzajach zadań wymagających rozwiązań wielokrokowych i polegających na przetwarzaniu i generowaniu tekstu. W jednym z nich system musi ułożyć liczby i operacje arytmetyczne, aby uzyskać liczbę 24. W drugim system wykonuje zadania w świecie 2-D, takie jak przemieszczanie obiektów, bazując na opisach tekstowych i instrukcjach. W trzecim system gra w gry solo polegające na gotowaniu, szukaniu skarbów czy zbieraniu monet w labiryncie, również bazując na tekście. Po każdym działaniu system otrzymuje nową obserwację — "Przybywasz do spiżarni.... Widzisz regał. Regał jest drewniany. Na regale widzisz mąkę..." to przykład z gry kuchennej — i podejmuje nowe działanie.

Badacze porównali IGE z czterema innymi metodami. Jedna metoda losowo próbowała działań, a pozostałe wprowadzały bieżący stan gry i historię do LLM i pytały o działanie. Nie używano archiwum interesujących stanów gry. IGE prześcignęło wszystkie metody porównawcze; podczas zbierania monet wygrało 22 z 25 gier, podczas gdy żaden z pozostałych nie wygrał. Przypuszczalnie system poradził sobie tak dobrze poprzez iteracyjne i selektywne budowanie na ciekawych stanach i działaniach, powtarzając tym samym proces kreatywności u ludzi.

Intelligent Go-Explore przewyższyło losowo wybrane działania i trzy inne podejścia w grach solo, które wymagają przetwarzania i generowania tekstu.

IGE może pomóc w odkrywaniu nowych leków lub materiałów, twierdzą badacze, zwłaszcza jeśli uwzględniłoby obrazy lub inne dane. Współautor badania, Cong Lu z Uniwersytetu British Columbia, twierdzi, że znalezienie interesujących kierunków do eksploracji jest w wielu aspektach "podstawowym problemem" uczenia przez wzmocnienie. Clune twierdzi, że te systemy "pozwalają AI zajrzeć dalej, stając na ramionach gigantycznych zbiorów danych ludzkich".


POWIĄZANE ARTYKUŁY