Intelligente Kritik

AFFILIATIONS: Al ROBOLAB. Universität Luxemburg
AUTOREN: Ayoub Nainia, Robert Frankie

Einführung in die VIsuelle VOkabular-Vorbereitung (VIVO)
Basiertes automatisches Kunstkritik-System

Previous slide
Next slide

Ein Versuch, Kunstkritik mit künstlicher Intelligenz zu schreiben. Unsere Lösung nutzt aktuelle Ansätze des Vorabtrainings von Bildern und Sprache (VLP), einschließlich des Objekt-Semantikorientierten Vorabtrainings (OSCAR) und des visuellen Vokabular-Vorabtrainings (VIVO), indem sie diese in einem einzigen automatischen Kunstkritik-System kombiniert. Wir haben zwei verschiedene Methoden verfolgt, um diese aktuelle intelligente Kritik zu erstellen.

Aufbau eines Kunstbildunterschriftenmodells, das auf dem ArtEmis-Datensatz trainiert wurde.

Ausgabe: Die Farben, die verwendet wurden, um die Wolken in den Bäumen darzustellen, sind sehr lebhaft und angenehm für das Auge.
Datensatz: Wir haben unser Kunstbeschreibungsmodell mit zeitgenössischen Kunstwerken aus dem ArtEmis-Datensatz trainiert.

Photo Feature Extractor: Ein VGG16-Modell.
Sequence Processor: Eine Wort-Einbettungsschicht zur Verarbeitung des Texteingangs, gefolgt von einer Long Short-Term Memory (LSTM) RNN-Schicht.
Decoder: Der Feature-Extractor und der Sequenzprozessor werden zusammengeführt und von einer dichten Schicht verarbeitet, um eine endgültige Vorhersage zu treffen.
Hauptherausforderung:
Es ist eine Herausforderung, Bildunterschriften für neuartige Objekte zu generieren, die in unseren mit Bildunterschriften versehenen Trainingsdaten nicht gesehen wurden.

die jüngsten Ansätze des visuell-sprachlichen Vortrainings (VLP) nutzen und sie kombinieren, um ein Kunst-Kritik-System aufzubauen.

Ausgabe: Das Kunstwerk zeigt ein Auto, das auf einem Feld geparkt ist. Das Farbschema des Gemäldes ist nicht schwarz-weiß, wobei die dominierende Hintergrund- und Vordergrundfarbe Grau ist.
Vorgeschlagenes VIVO: Das VIVO-Pre-Training verwendet gepaarte Bild-Tag-Daten, um einen reichen visuellen Wortschatz zu erlernen, bei dem Merkmale von Bildregionen und Tags semantisch ähnlicher Objekte in Vektoren abgebildet werden, die nahe beieinander liegen.
Die gepaarten Bildunterschriftendaten decken nur eine begrenzte Anzahl von Objekten ab (in Blau).
Während der Inferenz kann das Modell generalisieren, um neuartige Objekte zu beschreiben (in Gelb), die während des VIVO-Pre-Trainings gelernt wurden.
Hauptproblem: Die Interpretation und Beurteilung des Kunstwerks in die Beschreibung zu integrieren.

Kevin Lin Lijuan Wang Lei Zhang Jianfeng Gao Zicheng Liu Xiaowei Hu, Xi Yin.
Vivo: Visuelle Vokabular-Vorbereitung für die Bildunterschriftung von neuen Objekten. arxiv, 2021.