Critique Intelligente

AFFILIATIONS  Al ROBOLAB Université du Luxembourg
AUTEURS : Ayoub Nainia, Robert Frankie

Présentation de la pré-formation Vlsual-VOcabulary (VIVO)
système de critique artistique automatique basé sur

Previous slide
Next slide

Une tentative d’écrire une critique d’art avec l’intelligence artificielle, notre solution exploite les approches récentes de pré-formation vision-langage (VLP), y compris la pré-formation alignée sur la sémantique des objets (OSCAR) et la pré-formation du vocabulaire visuel (VIVO), en les combinant dans un seul système automatique de critique d’art. Nous avons suivi deux méthodologies différentes pour construire la critique intelligente actuelle.

Construction d’un modèle de légende artistique entraîné sur le jeu de données ArtEmis.

Output: the colors used to depict clouds in the trees is very bright and pleasing to the lines.
Jeu de données : Nous avons entraîné notre modèle de légende artistique sur des données d’art contemporain provenant du jeu de données ArtEmis.

Extracteur de caractéristiques photographiques : un modèle VGG16.
Processeur de séquence : une couche d’embedding de mots pour gérer l’entrée textuelle, suivie d’une couche de réseaux de neurones récurrents (LSTM).
Décodeur : l’extracteur de caractéristiques et le processeur de séquences sont fusionnés ensemble et traités par une couche dense pour faire une prédiction finale.
Principal défi :
Il est difficile de générer des légendes artistiques pour des objets nouveaux qui ne sont pas présents dans nos données d’entraînement étiquetées.

exploitant les approches de pré-formation vision-langage (VLP) récentes et les combinant pour construire un système de critique artistique

Sortie : L’image de l’œuvre montre une voiture garée dans un champ. Le schéma de couleurs de la peinture n’est pas en noir et blanc, tandis que la couleur dominante de l’arrière-plan et du premier plan est le gris.
VIVO proposé : La pré-formation VIVO utilise des données d’image-tags appariées pour apprendre un vocabulaire visuel riche, où les caractéristiques des régions de l’image et les étiquettes des objets sémantiquement similaires sont mappées en vecteurs qui sont proches les uns des autres.
Les données d’image-légende appariées ne couvrent qu’un nombre limité d’objets (en bleu).
Lors de l’inférence, le modèle peut généraliser pour décrire des objets nouveaux (en jaune) qui ont été appris lors de la pré-formation VIVO.
Principal défi : Incorporer l’interprétation et le jugement de l’œuvre d’art avec la description.

Kevin Lin Lijuan Wang Lei Zhang Jianfeng Gao Zicheng Liu Xiaowei Hu, Xi Yin.
Vivo : Pré-entraînement du vocabulaire visuel pour la légende d’objets nouveaux. arxiv, 2021.