¿Podemos entrenar a la IA para ser creativa? Un laboratorio está probando ideas.

04 Agosto 2024 2295
Share Tweet

El conocimiento humano se deriva en parte de nuestro olfato para la novedad: somos criaturas curiosas, ya sea que miremos a la vuelta de la esquina o probemos hipótesis científicas. Para que la inteligencia artificial tenga una comprensión amplia y matizada del mundo (para poder sortear obstáculos cotidianos, interactuar con desconocidos o inventar nuevos medicamentos), también necesita explorar nuevas ideas y experiencias por sí sola. Pero con infinitas posibilidades de qué hacer a continuación, ¿cómo puede la IA decidir qué direcciones son las más novedosas y útiles?

Una idea es aprovechar automáticamente la intuición humana para decidir qué es interesante a través de grandes modelos de lenguaje entrenados en cantidades masivas de texto humano (el tipo de software que impulsa a los chatbots). Dos nuevos artículos adoptan este enfoque y sugieren un camino hacia los coches autónomos más inteligentes, por ejemplo, o el descubrimiento científico automatizado.

“Ambos trabajos son avances significativos hacia la creación de sistemas de aprendizaje abiertos”, dice Tim Rocktäschel, un científico informático de Google DeepMind y University College London que no participó en el trabajo. Los LLM ofrecen una forma de priorizar qué posibilidades perseguir. “Lo que solía ser un espacio de búsqueda prohibitivamente grande de repente se vuelve manejable”, dice Rocktäschel. Aunque algunos expertos temen que la IA abierta (IA con poderes exploratorios relativamente ilimitados) pueda descarrilarse.

Ambos nuevos artículos, publicados en línea en mayo en arXiv.org y aún no revisados ​​por pares, provienen del laboratorio del científico informático Jeff Clune en la Universidad de Columbia Británica en Vancouver y se basan directamente en proyectos anteriores suyos. En 2018, él y sus colaboradores crearon un sistema llamado Go-Explore (publicado en Nature en 2021) que aprende a, por ejemplo, jugar videojuegos que requieren exploración. Go-Explore incorpora un agente de juego que mejora a través de un proceso de prueba y error llamado aprendizaje de refuerzo (SN: 25/3/24). El sistema guarda periódicamente el progreso del agente en un archivo, luego elige estados interesantes guardados y progresa a partir de allí. Pero la selección de estados interesantes depende de reglas codificadas a mano, como elegir ubicaciones que no se han visitado mucho. Es una mejora con respecto a la selección aleatoria, pero también es rígida.

El laboratorio de Clune ha creado ahora Intelligent Go-Explore, que utiliza un modelo de lenguaje grande, en este caso GPT-4, en lugar de las reglas codificadas a mano para seleccionar estados "prometedores" del archivo. El modelo de lenguaje también selecciona acciones de esos estados que ayudarán al sistema a explorar "inteligentemente" y decide si los estados resultantes son lo suficientemente "interesantemente nuevos" como para ser archivados.

Los LLM pueden actuar como una especie de "pegamento de inteligencia" que puede desempeñar varias funciones en un sistema de IA debido a sus capacidades generales, dice Julian Togelius, un científico informático de la Universidad de Nueva York que no participó en el trabajo. "Puedes simplemente verterlo en el agujero de, por ejemplo, que necesitas un detector de novedades, y funciona. Es una locura".

Los investigadores probaron Intelligent Go-Explore, o IGE, en tres tipos de tareas que requieren soluciones de varios pasos e implican el procesamiento y la salida de texto. En uno, el sistema debe ordenar números y operaciones aritméticas para producir el número 24. En otro, completa tareas en un mundo de cuadrícula en 2-D, como mover objetos, basándose en descripciones de texto e instrucciones. En un tercero, juega juegos en solitario que implican cocinar, buscar tesoros o recolectar monedas en un laberinto, también basados ​​en texto. Después de cada acción, el sistema recibe una nueva observación —“Llegas a una despensa… Ves un estante. El estante es de madera. En el estante puedes ver harina…” es un ejemplo del juego de cocina— y elige una nueva acción.

Los investigadores compararon IGE con otros cuatro métodos. Un método muestreaba acciones aleatoriamente, y los otros introducían el estado actual del juego y el historial en un LLM y pedían una acción. No utilizaron un archivo de estados de juego interesantes. IGE superó a todos los métodos de comparación; al recolectar monedas, ganó 22 de 25 juegos, mientras que ninguno de los otros ganó ninguno. Se supone que el sistema funcionó tan bien al construir de manera iterativa y selectiva sobre estados y acciones interesantes, imitando así el proceso de creatividad en los humanos.

El Go-Explore inteligente superó las acciones seleccionadas al azar y otros tres enfoques en juegos en solitario que implican procesar y generar texto.

Los investigadores afirman que la IGE podría ayudar a descubrir nuevos medicamentos o materiales, especialmente si incorporara imágenes u otros datos. El coautor del estudio Cong Lu, de la Universidad de Columbia Británica, dice que encontrar direcciones interesantes para la exploración es en muchos sentidos "el problema central" del aprendizaje de refuerzo. Clune dice que estos sistemas "permiten a la IA ver más allá al apoyarse en los hombros de conjuntos de datos humanos gigantes".


ARTÍCULOS RELACIONADOSL