Erstellung von künstlerischen Collagen mit Hilfe des verstärkenden Lernens.

27 November 2023 2323

26. November 2023 Merkmale

Dieser Artikel wurde gemäß Science X's Redaktionsprozess und Richtlinien überprüft. Die Editoren haben bei der Gewährleistung der Glaubwürdigkeit des Inhalts folgende Eigenschaften hervorgehoben:

Tatsachenüberprüfung
Vorabdruck
Vertrauenswürdige Quelle
Korrekturgelesen

von Ingrid Fadelli , Tech Xplore

Forscher der Seoul National University haben vor kurzem versucht, einen künstlichen Intelligenz-Agenten zu trainieren, Collagen (d.h. Kunstwerke, die durch das Zusammenkleben verschiedener Materialien entstehen) zu erstellen und reproduzierte bekannte Werke und andere Bilder. Ihr vorgeschlagenes Modell wurde in einem auf arXiv vorabgedruckten Paper vorgestellt und im Oktober 2023 auf der ICCV präsentiert.

'Collagenkunst erfordert hohe künstlerische Fähigkeiten und wir haben uns gefragt, wie Collagenkunstwerke, die von KI erstellt werden, aussehen würden', sagten die Autoren in einer E-Mail an Tech Xplore. 'Existierende KI-Bildgenerierungswerkzeuge wie DALL-E oder StableDiffusion können bereits Collagenbilder generieren, aber es handelt sich nur um 'Collagen-Nachahmungen' aus Pixeln, nicht um das tatsächliche Collage, das durch das Durchführen der realen Schritte der Collagenkunst entsteht. Wir wollten KI darauf trainieren, 'echte Collagen' zu erstellen.'

In einer früheren Studie, die sich auf die Erzeugung von Gemälden konzentrierte, verwendeten Forscher verstärkendes Lernen (RL), um KI beizubringen, Gemälde nach ähnlichen Schritten wie von Menschen zu erstellen. Sie begannen dann darüber nachzudenken, ob dies auch für die Erstellung von Collagen erreicht werden könnte, und begannen mit der Arbeit an ihrem auf verstärkendem Lernen basierenden autonomen Collagenkunstgenerator.

Das Hauptziel ihres aktuellen Papers war es daher, einen KI-Agenten zu trainieren, Collagen zu erstellen, die den Zielbildern (z.B. Gemälden, Fotografien, etc.) so ähnlich wie möglich sind, indem sie mehrere Materialien reißen und aufkleben, mit Hilfe von verstärkendem Lernen. Diese Collagen sollen mit einer Menge von Materialien erstellt werden, die von menschlichen Benutzern bereitgestellt werden.

'Unser RL-Modell muss einem Agenten beibringen, was eine Collage ist und wie man sie gut erstellt', erklärten die Autoren. 'Da RL im Wesentlichen viele Versuche und Fehler erfordert, muss das Modell Erfahrung sammeln, indem es mit einer Leinwand interagiert und eine tatsächliche Collage erstellt.'

Da Collagen aus verschiedenen Materialresten bestehen, muss ein Agent zunächst verschiedene Schneid- und Klebemöglichkeiten testen, um letztendlich festzustellen, welche Materialien eine Collage erzeugen, die den Zielbildern am besten ähnelt. Die Forscher stellten fest, dass ihr Modell anfangs sehr schlecht abschnitt, aber im Laufe der Zeit seine Fähigkeiten deutlich verbesserte.

'Der RL-Agent lernt, die Belohnung größer zu machen, wobei die Belohnung als Verbesserung der Ähnlichkeit zwischen ihrer Leinwand und einem Zielbild definiert ist', sagten die Autoren. 'Die Belohnungsfunktion entwickelt sich im Laufe der Zeit weiter und lernt, die Ähnlichkeit zwischen der vom Agenten erstellten Collage und dem Zielbild besser zu bewerten.'

Während des Trainings wurde dem Modell der Forscher ein zufällig zugewiesenes Bild gegeben, und es versuchte, eine Collage zu erstellen, die dieses Bild auf einer weißen Leinwand reproduzierte. Bei jedem Schritt der Collage wählt der Agent ein zufälliges Material aus den verfügbaren Optionen aus und entscheidet, wie es geschnitten, gestrichen und auf die Leinwand geklebt wird.

'Da die Zielbilder und Materialien im Training zufällig gegeben werden, ist der Agent später in der Lage, mit beliebigen Zielen und Materialien umzugehen', sagten die Autoren. 'Dieser gesamte Prozess ist etwas kompliziert für die Verwendung eines existierenden modellfreien RL, daher haben wir eine differenzierbare Collage-Umgebung entwickelt, um es dem Agenten zu ermöglichen, die Dynamik der Collage leicht zu verfolgen. Dadurch konnten wir modellbasiertes RL anwenden und die Leistung verbessern.'

Das von den Forschern entwickelte modellbasierte RL-Trainingsschema wurde durch die frühere Arbeit über RL-basierte Gemälde inspiriert. Das Team entwickelte jedoch einen eigenen modellbasierten RL-Algorithmus, der die mit der Erstellung von Collagen verbundenen Dynamiken behandelte, die komplexer sind als die des Gemäldes.

'Während das Malen einen vordefinierten Pinselstrich verwendet, muss eine Collage beobachten, wie das gegebene Material aussieht und herausfinden, wie es manipuliert werden kann, um ein geeignetes Bildfragment für die gesamte Collage herzustellen, indem Form, Textur, Farben und Koordinaten erfasst werden', sagten die Autoren. 'Da SAC einem Agenten ermöglicht, vielfältige Aktionen im stetigen Aktionsraum effektiver zu erleben als DDPG, das bei Gemälden verwendet wurde, passt SAC zu unserem Fall.'

Um Collagen effektiv zu generieren, verwendeten die Autoren ihr trainiertes Modell als Teil eines Collagen-Generators. Es stellte sich heraus, dass dieser Teil hochauflösende Collagen erzeugte, die verschiedenen Zielbildern sehr ähnlich waren.

'We also developed a module for analyzing target image complexity to assign more workload for partial collage generator to the place where the complexity is high,' Lee explained. 'This module can enhance the aesthetic quality of collages.'

A crucial advantage of the team's architecture is that it does not require any collage samples and demonstration data, as it was simply trained using examples of materials and target images. Notably, these materials and images are far easier to collect than original artworks.

'Without artistic data or knowledge, the agent independently learned how to make a collage,' the authors said. 'The final collaging ability was made by the agent's own exploration, which is the notable finding of this work; it shows the mighty ability of RL as a data-free learning domain.'

As the team's trained model gradually grasped the process of collage-making, it could generalize well across a wide range of images and scenarios. So far, it has only been tested in simulations. However, if applied to a humanoid robot or a robotic hand, the model could also provide 'blueprints' for the creation of physical collages.

'Building an environment in which the RL agent can learn properly was very challenging,' the authors said. 'We spent a lot of time developing and defining collage dynamics and actions that are legit for RL. Also, to save training time, we should keep them as compact and efficient as possible. Even more, we had to keep the dynamics differentiable for our model-based RL scheme as well.'

As art is highly subjective, evaluating the quality of collages produced by the model is challenging. The researchers initially carried out a user study, asking various human participants to share their opinions and feedback on the AI-created collages.

'We conducted a user study, but this may not be enough,' the authors said. 'After much consideration for more objective evaluation, we decided to use CLIP, a large vision-language pre-trained model. Because CLIP is trained with about 400M text-image pairs, we believe it has the ability to evaluate more objectively than user study. With user study and CLIP, we compared our model with other pixel-based generation models by evaluating generated images' collage-ness and content consistency.'

The user study and the CLIP-based evaluation carried out by the researchers yielded similar results. In both these tests, the new model was found to outperform other models for collage generation.

The model introduced in this recent paper could soon be developed further and tested to allow customized styles using a broader range of images and materials. In addition, the team's work could inspire the development of additional AI tools for generating various types of artwork.

'We are now interested in developing strategies that allow our models to cope with various style preferences,' the authors added said. 'As a future work, we consider developing a user-interactive interface, which can reflect user's preference during our model's creating collages.'

ZURÜCK

Neue photonische Chips wandeln Laserlicht passiv in mehrere Farben nach Bedarf um....

WEITER

Fossile Brennstoff CO₂-Emissionen erreichen Rekordhoch im Jahr 2025...