Creazione di collage artistici utilizzando il reinforcement learning

27 Novembre 2023 1973
Share Tweet

26 novembre 2023

Questa articolo è stato sottoposto a revisione secondo il processo editoriale e le politiche di Science X. Gli editori hanno evidenziato i seguenti attributi garantendo l'attendibilità dei contenuti:

  • fatto il fact-checking
  • versione preliminare
  • fonte affidabile
  • corretto la bozza

di Ingrid Fadelli, Tech Xplore

Ricercatori dell'Università Nazionale di Seoul hanno recentemente cercato di addestrare un agente di intelligenza artificiale (IA) per creare collage (cioè opere realizzate attaccando insieme vari pezzi di materiale), riproducendo opere d'arte celebri e altre immagini. Il loro modello proposto è stato presentato in un articolo pre-stampato su arXiv e presentato a ICCV 2023 in ottobre.

'L'arte del collage richiede un'alta abilità artistica umana e ci siamo chiesti a cosa assomiglierebbero le opere d'arte del collage create dall'IA,' hanno detto gli autori a Tech Xplore via email, 'Gli strumenti esistenti di generazione di immagini dell'IA come DALL-E o StableDiffusion possono già generare immagini di collage, ma sono solo "imitazioni di collage" fatte di pixel, non sono un collage reale ottenuto seguendo i passi reali dell'arte del collage. Quello che volevamo fare era addestrare l'IA a creare un "vero collage".'

In uno studio precedente incentrato sulla generazione di dipinti, i ricercatori hanno utilizzato l'apprendimento per rinforzo (RL) per insegnare all'IA a dipingere seguendo passi simili a quelli seguiti dagli esseri umani. Si sono poi chiesti se questo potesse essere ottenuto anche per la creazione di collage e hanno iniziato a lavorare sul loro generatore di opere d'arte autonome per collage basato sull'apprendimento per rinforzo.

L'obiettivo principale del loro recente articolo è stato quindi quello di addestrare un agente AI a creare collage il più simili possibile alle immagini di destinazione (ad esempio dipinti, fotografie, ecc.) strappando e incollando materiali multipli, utilizzando l'apprendimento per rinforzo. Questi collage sarebbero creati utilizzando un set di materiali forniti dagli utenti umani.

'Il nostro modello RL ha bisogno di far capire all'agente cosa sia un collage e come farlo bene,' hanno spiegato gli autori. 'Poiché l'apprendimento per rinforzo richiede essenzialmente numerosi tentativi ed errori, il modello ha bisogno di acquisire esperienza interagendo con una tela e realizzando un collage effettivo.'

Poiché i collage sono composti da vari frammenti di materiali, per creare efficacemente queste opere, un agente deve prima testare diverse opzioni di taglio e incollaggio per determinare infine quali materiali producono un collage che assomiglia maggiormente alle immagini di destinazione. I ricercatori hanno scoperto che inizialmente il loro modello aveva prestazioni molto scarse, ma nel tempo le sue abilità sono notevolmente migliorate.

'L'agente RL impara a rendere la ricompensa maggiore, dove la ricompensa è definita come un miglioramento nella somiglianza tra la tela creata dall'agente e un'immagine di destinazione,' hanno detto gli autori. 'La funzione di ricompensa evolve anche nel tempo, imparando a valutare meglio la somiglianza tra il collage creato dall'agente e l'immagine di destinazione.'

Durante l'addestramento, il modello dei ricercatori ha ricevuto un'immagine casuale assegnata casualmente e ha cercato di creare un collage che riproducesse questa immagine su una tela bianca. Ad ogni passo del collage, l'agente seleziona un materiale casuale tra le opzioni disponibili e sceglie come tagliarlo, frammentarlo e incollarlo sulla tela.

'Poiché le immagini di destinazione e i materiali vengono dati in modo casuale durante l'addestramento, l'agente sarà in grado di gestire qualsiasi destinazione e materiale in una fase successiva,' hanno detto gli autori. 'Tutto questo processo è un po' complicato per utilizzare il RL gratuito esistente, quindi abbiamo sviluppato un ambiente di collage differenziabile che consente all'agente di seguire facilmente le dinamiche del collage. Questo ci ha permesso di applicare il RL basato sul modello e migliorarne le prestazioni.'

Lo schema di addestramento basato sul modello RL sviluppato dai ricercatori trae ispirazione dal precedente lavoro sull'apprendimento per rinforzo basato su dipinti. Tuttavia, il team ha sviluppato il proprio algoritmo basato sul modello RL che ha affrontato le dinamiche associate alla creazione di collage, che sono più complesse rispetto a quelle che sottostanno ai dipinti.

'Mentre la pittura utilizza un tratto di pennello predefinito, un collage deve osservare come appare il materiale dato e capire come manipolarlo per creare un frammento d'immagine adeguato per il collage totale, comprendendo forma, texture, colori e coordinate,' hanno detto gli autori. 'Poiché SAC consente a un agente di sperimentare azioni diverse in modo più efficace nello spazio di azione continuo rispetto a DDPG, che è stato utilizzato nei dipinti, SAC si adatta al nostro caso.'

Per generare efficacemente i collage, gli autori hanno utilizzato il loro modello addestrato come unità generatrice di collage parziale. Si è scoperto che questa unità ha prodotto collage ad alta risoluzione che assomigliavano molto a varie immagini di destinazione.

'We also developed a module for analyzing target image complexity to assign more workload for partial collage generator to the place where the complexity is high,' Lee explained. 'This module can enhance the aesthetic quality of collages.'

A crucial advantage of the team's architecture is that it does not require any collage samples and demonstration data, as it was simply trained using examples of materials and target images. Notably, these materials and images are far easier to collect than original artworks.

'Without artistic data or knowledge, the agent independently learned how to make a collage,' the authors said. 'The final collaging ability was made by the agent's own exploration, which is the notable finding of this work; it shows the mighty ability of RL as a data-free learning domain.'

As the team's trained model gradually grasped the process of collage-making, it could generalize well across a wide range of images and scenarios. So far, it has only been tested in simulations. However, if applied to a humanoid robot or a robotic hand, the model could also provide 'blueprints' for the creation of physical collages.

'Building an environment in which the RL agent can learn properly was very challenging,' the authors said. 'We spent a lot of time developing and defining collage dynamics and actions that are legit for RL. Also, to save training time, we should keep them as compact and efficient as possible. Even more, we had to keep the dynamics differentiable for our model-based RL scheme as well.'

As art is highly subjective, evaluating the quality of collages produced by the model is challenging. The researchers initially carried out a user study, asking various human participants to share their opinions and feedback on the AI-created collages.

'We conducted a user study, but this may not be enough,' the authors said. 'After much consideration for more objective evaluation, we decided to use CLIP, a large vision-language pre-trained model. Because CLIP is trained with about 400M text-image pairs, we believe it has the ability to evaluate more objectively than user study. With user study and CLIP, we compared our model with other pixel-based generation models by evaluating generated images' collage-ness and content consistency.'

The user study and the CLIP-based evaluation carried out by the researchers yielded similar results. In both these tests, the new model was found to outperform other models for collage generation.

The model introduced in this recent paper could soon be developed further and tested to allow customized styles using a broader range of images and materials. In addition, the team's work could inspire the development of additional AI tools for generating various types of artwork.

'We are now interested in developing strategies that allow our models to cope with various style preferences,' the authors added said. 'As a future work, we consider developing a user-interactive interface, which can reflect user's preference during our model's creating collages.'

© 2023 Science X Network

 


ARTICOLI CORRELATI