Creación de collages artísticos utilizando aprendizaje por refuerzo
26 de noviembre de 2023 característica
Este artículo ha sido revisado de acuerdo con el proceso y las políticas editoriales de Science X. Los editores han destacado los siguientes atributos al tiempo que garantizan la credibilidad del contenido:
- verificación de hechos
- preimpreso
- fuente confiable
- corrección de pruebas
por Ingrid Fadelli, Tech Xplore
Investigadores de la Universidad Nacional de Seúl han intentado recientemente entrenar a un agente de inteligencia artificial (IA) para crear collages (es decir, obras de arte creadas pegando varias piezas de materiales juntas), reproduciendo obras de arte famosas y otras imágenes. Su modelo propuesto fue presentado en un artículo preimpreso en arXiv y presentado en ICCV 2023 en octubre.
"El arte del collage requiere una gran habilidad artística humana y nos preguntamos cómo serían los collages creados por la IA", dijeron los autores a Tech Xplore por correo electrónico. "Herramientas de generación de imágenes de IA existentes como DALL-E o StableDiffusion ya pueden generar imágenes de collage, pero son simplemente 'imitaciones' de collage a partir de píxeles, no el collage real realizado siguiendo los pasos reales del arte del collage. Lo que queríamos hacer era entrenar a la IA para crear 'collages reales'".
En un estudio anterior enfocado en la generación de pinturas, los investigadores utilizaron el aprendizaje por refuerzo (RL) para enseñar a la IA a pintar siguiendo pasos similares a los seguidos por los humanos. Luego comenzaron a preguntarse si esto también podría lograrse para la creación de collages y comenzaron a trabajar en su generador de arte de collage autónomo basado en el aprendizaje por refuerzo.
El objetivo principal de su artículo reciente fue entrenar a un agente de IA para crear collages que sean lo más similares posible a las imágenes objetivo (por ejemplo, pinturas, fotografías, etc.) arrancando y pegando múltiples materiales, utilizando el aprendizaje por refuerzo. Estos collages se crearían utilizando un conjunto de materiales proporcionados por usuarios humanos.
"Nuestro modelo de RL necesita que un agente comprenda qué es un collage y cómo hacerlo bien", explicaron los autores. "Dado que el RL básicamente requiere muchas pruebas y errores, el modelo necesita adquirir experiencia interactuando con un lienzo y produciendo un collage real".
Dado que los collages están hechos de diversos trozos de materiales, para crear estas obras de arte de manera efectiva, un agente primero necesita probar diversas opciones de recorte y pegado para determinar en última instancia qué materiales producen un collage que se asemeja mejor a las imágenes objetivo. Los investigadores encontraron que inicialmente, su modelo tenía un rendimiento muy pobre, pero con el tiempo, sus habilidades mejoraron significativamente.
"El agente de RL aprende a aumentar la recompensa, donde la recompensa se define como una mejora en la similitud entre su lienzo y una imagen objetivo", dijeron los autores. "La función de recompensa también evoluciona con el tiempo, aprendiendo a evaluar mejor la similitud entre el collage hecho por el agente y la imagen objetivo".
Durante el entrenamiento, al modelo de los investigadores se le asignaba aleatoriamente una imagen aleatoria y trataba de crear un collage que reprodujera esta imagen en un lienzo blanco. En cada paso del collage, el agente selecciona un material aleatorio entre las opciones disponibles y elige cómo cortarlo, rasparlo y pegarlo en el lienzo.
"Dado que las imágenes y los materiales objetivo se dan de forma aleatoria en el entrenamiento, el agente puede manejar cualquier objetivo y material en una etapa posterior", dijeron los autores. "Todo este proceso es un poco complicado para usar RL sin modelo existente, por lo que desarrollamos un entorno diferenciable de creación de collages para permitir que el agente siga fácilmente la dinámica del collage. Esto nos permitió aplicar RL basado en modelos y mejorar el rendimiento".
El esquema de entrenamiento RL basado en modelos desarrollado por los investigadores se inspira en el trabajo anterior sobre pinturas basadas en RL. Sin embargo, el equipo desarrolló su propio algoritmo RL basado en modelos que abordó la dinámica asociada con la creación de collages, que es más compleja que la que subyace a la pintura.
"Mientras que la pintura utiliza una pincelada predefinida, un collage necesita observar cómo se ve el material dado y descubrir cómo manipularlo para crear un fragmento de imagen adecuado para el collage total, comprendiendo forma, textura, colores y coordenadas", dijeron los autores. "Dado que SAC permite que un agente experimente acciones diversas de manera más efectiva en el espacio de acciones continuas que DDPG, que se utilizó en las pinturas, SAC se adapta a nuestro caso".
Para generar collages de manera efectiva, los autores utilizaron su modelo entrenado como una unidad generadora de collages parcial. Se encontró que esta unidad produce collages de alta resolución que se asemejan estrechamente a varias imágenes objetivo.
'We also developed a module for analyzing target image complexity to assign more workload for partial collage generator to the place where the complexity is high,' Lee explained. 'This module can enhance the aesthetic quality of collages.'
A crucial advantage of the team's architecture is that it does not require any collage samples and demonstration data, as it was simply trained using examples of materials and target images. Notably, these materials and images are far easier to collect than original artworks.
'Without artistic data or knowledge, the agent independently learned how to make a collage,' the authors said. 'The final collaging ability was made by the agent's own exploration, which is the notable finding of this work; it shows the mighty ability of RL as a data-free learning domain.'
As the team's trained model gradually grasped the process of collage-making, it could generalize well across a wide range of images and scenarios. So far, it has only been tested in simulations. However, if applied to a humanoid robot or a robotic hand, the model could also provide 'blueprints' for the creation of physical collages.
'Building an environment in which the RL agent can learn properly was very challenging,' the authors said. 'We spent a lot of time developing and defining collage dynamics and actions that are legit for RL. Also, to save training time, we should keep them as compact and efficient as possible. Even more, we had to keep the dynamics differentiable for our model-based RL scheme as well.'
As art is highly subjective, evaluating the quality of collages produced by the model is challenging. The researchers initially carried out a user study, asking various human participants to share their opinions and feedback on the AI-created collages.
'We conducted a user study, but this may not be enough,' the authors said. 'After much consideration for more objective evaluation, we decided to use CLIP, a large vision-language pre-trained model. Because CLIP is trained with about 400M text-image pairs, we believe it has the ability to evaluate more objectively than user study. With user study and CLIP, we compared our model with other pixel-based generation models by evaluating generated images' collage-ness and content consistency.'
The user study and the CLIP-based evaluation carried out by the researchers yielded similar results. In both these tests, the new model was found to outperform other models for collage generation.
The model introduced in this recent paper could soon be developed further and tested to allow customized styles using a broader range of images and materials. In addition, the team's work could inspire the development of additional AI tools for generating various types of artwork.
'We are now interested in developing strategies that allow our models to cope with various style preferences,' the authors added said. 'As a future work, we consider developing a user-interactive interface, which can reflect user's preference during our model's creating collages.'
© 2023 Science X Network