Création de collages artistiques en utilisant l'apprentissage par renforcement.
26 novembre 2023 caractéristique
Cet article a été examiné selon le processus et les politiques de Science X. Les éditeurs ont souligné les attributs suivants tout en garantissant la crédibilité du contenu :
- vérifié par les faits
- préimprimé
- source fiable
corrigé par Ingrid Fadelli , Tech Xplore
Des chercheurs de l'université nationale de Séoul ont récemment tenté de former un agent d'intelligence artificielle (IA) à créer des collages (c'est-à-dire des œuvres d'art créées en collant différents éléments de matériaux ensemble), reproduisant des œuvres d'art renommées et d'autres images. Leur modèle proposé a été présenté dans un article pré-imprimé sur arXiv et présenté lors de la conférence ICCV 2023 en octobre.
« La création artistique en collage demande un grand talent humain, et nous nous sommes demandé à quoi ressembleraient les collages créés par une IA », ont déclaré les auteurs à Tech Xplore par courrier électronique. « Des outils de génération d'images d'IA existants comme DALL-E ou StableDiffusion peuvent déjà générer des images en collage, mais ce ne sont que des 'imitations de collage' à partir de pixels, pas le véritable collage en réalisant les étapes réelles du travail artistique en collage. Ce que nous voulions faire, c'était former une IA à créer de 'vrais collages'.
Dans une étude précédente axée sur la génération de peintures, les chercheurs ont utilisé l'apprentissage par renforcement (RL) pour apprendre à une IA à peindre en suivant des étapes similaires à celles suivies par les humains. Ils se sont alors demandé si cela pouvait également être réalisé pour la création de collages et ont commencé à travailler sur leur générateur autonome d'œuvres d'art en collage basé sur l'apprentissage par renforcement.
L'objectif principal de leur article récent était donc de former un agent d'IA à créer des collages aussi similaires que possible aux images cibles (par exemple des peintures, des photographies, etc.) en déchirant et en collant plusieurs matériaux, en utilisant l'apprentissage par renforcement. Ces collages seraient créés à l'aide d'un ensemble de matériaux fournis par des utilisateurs humains.
« Notre modèle RL doit permettre à un agent de comprendre ce qu'est un collage et comment le réaliser correctement », ont expliqué les auteurs. « Comme RL nécessite essentiellement de nombreux essais et erreurs, le modèle doit acquérir de l'expérience en interagissant avec un canevas et en produisant un véritable collage.
Comme les collages sont composés de divers morceaux de matériaux, pour créer efficacement ces œuvres d'art, un agent doit d'abord tester différentes options de découpe et de collage pour déterminer ultimement quels matériaux produisent un collage qui ressemble le plus aux images cibles. Les chercheurs ont constaté qu'initialement, leur modèle était de très mauvaise qualité, mais au fil du temps, ses compétences se sont nettement améliorées.
« L'agent RL apprend à rendre la récompense plus grande, où la récompense est définie comme une amélioration de la similitude entre leur canevas et une image cible », ont déclaré les auteurs. « La fonction de récompense évolue également avec le temps, apprenant à mieux évaluer la similitude entre le collage réalisé par l'agent et l'image cible.
Pendant l'entraînement, le modèle des chercheurs recevait une image aléatoire attribuée au hasard et essayait de créer un collage reproduisant cette image sur une toile blanche. À chaque étape du collage, l'agent sélectionne un matériau aléatoire parmi les options disponibles et choisit comment le découper, le déchirer et le coller sur la toile.
« Étant donné que les images cibles et les matériaux sont donnés de manière aléatoire lors de l'entraînement, l'agent devient capable de traiter n'importe quelle cible et n'importe quel matériau à un stade ultérieur », ont déclaré les auteurs. « Tout ce processus est un peu compliqué pour utiliser le RL sans modèle existant, nous avons donc développé un environnement de collage différenciable pour permettre à l'agent de suivre facilement la dynamique du collage. Cela nous a permis d'appliquer l'apprentissage par renforcement basé sur un modèle et d'améliorer les performances.
Le schéma d'entraînement RL basé sur un modèle développé par les chercheurs s'inspire du travail précédent sur les peintures basées sur RL. Cependant, l'équipe a développé son propre algorithme RL basé sur un modèle qui traitait les dynamiques associées à la création de collages, qui sont plus complexes que celles sous-tendant la peinture.
« Alors que la peinture utilise un coup de pinceau prédéfini, un collage doit observer comment le matériau donné se présente et trouver comment le manipuler pour obtenir un fragment d'image approprié pour le collage total, en comprenant la forme, la texture, les couleurs et les coordonnées », ont expliqué les auteurs. « Comme SAC permet à un agent de vivre plus efficacement des actions diverses dans l'espace d'action continu par rapport à DDPG, qui était utilisé dans les peintures, SAC correspond à notre cas.
Pour générer efficacement des collages, les auteurs ont utilisé leur modèle entraîné en tant qu'unité générateur de collages partiels. Cette unité s'est avérée capable de produire des collages de haute résolution qui ressemblaient étroitement à diverses images cibles.
'We also developed a module for analyzing target image complexity to assign more workload for partial collage generator to the place where the complexity is high,' Lee explained. 'This module can enhance the aesthetic quality of collages.'
A crucial advantage of the team's architecture is that it does not require any collage samples and demonstration data, as it was simply trained using examples of materials and target images. Notably, these materials and images are far easier to collect than original artworks.
'Without artistic data or knowledge, the agent independently learned how to make a collage,' the authors said. 'The final collaging ability was made by the agent's own exploration, which is the notable finding of this work; it shows the mighty ability of RL as a data-free learning domain.'
As the team's trained model gradually grasped the process of collage-making, it could generalize well across a wide range of images and scenarios. So far, it has only been tested in simulations. However, if applied to a humanoid robot or a robotic hand, the model could also provide 'blueprints' for the creation of physical collages.
'Building an environment in which the RL agent can learn properly was very challenging,' the authors said. 'We spent a lot of time developing and defining collage dynamics and actions that are legit for RL. Also, to save training time, we should keep them as compact and efficient as possible. Even more, we had to keep the dynamics differentiable for our model-based RL scheme as well.'
As art is highly subjective, evaluating the quality of collages produced by the model is challenging. The researchers initially carried out a user study, asking various human participants to share their opinions and feedback on the AI-created collages.
'We conducted a user study, but this may not be enough,' the authors said. 'After much consideration for more objective evaluation, we decided to use CLIP, a large vision-language pre-trained model. Because CLIP is trained with about 400M text-image pairs, we believe it has the ability to evaluate more objectively than user study. With user study and CLIP, we compared our model with other pixel-based generation models by evaluating generated images' collage-ness and content consistency.'
The user study and the CLIP-based evaluation carried out by the researchers yielded similar results. In both these tests, the new model was found to outperform other models for collage generation.
The model introduced in this recent paper could soon be developed further and tested to allow customized styles using a broader range of images and materials. In addition, the team's work could inspire the development of additional AI tools for generating various types of artwork.
'We are now interested in developing strategies that allow our models to cope with various style preferences,' the authors added said. 'As a future work, we consider developing a user-interactive interface, which can reflect user's preference during our model's creating collages.'
© 2023 Science X Network