Initiation

AFFILIATIONS : Al ROBOLAB. Université du Luxembourg
AUTEURS : Daniel Gareev, Oliver Glassl

Résumé

« Initiation 1s » est une chanson du ThalamusProject. Le thalamus est une partie du cerveau qui relaie les perceptions humaines à la conscience humaine. Le nom anatomique est dérivé du mot grec ancien « 86.Aaµoc; », qui est fréquemment traduit par « passage vers la conscience ». La musique du ThalamusProject est directement liée à cette image : les textures acoustiques sont utilisées comme toile pour représenter l’interaction de l’objectivité et de la subjectivité. « Initiation » est une chanson sur l’existence et la réalité qui se dévoile, inspirée par des théories philosophiques émanationnistes (comme les 4 mondes de la Qabale). La chanson décrit ici la première étape de toute création, qui est le potentiel pur, la possibilité, l’espace, la matière et la motivation pour la création. Pour la vidéo d’Initiation, les créateurs ont utilisé l’intelligence artificielle et l’apprentissage automatique pour créer une vision cinématographique de la chanson depuis le « regard intérieur » d’une IA. Pour cela, les auteurs ont formé l’IA sur des milliers d’images de paysages, d’œuvres d’art et de photographies qui représentent les significations conceptuelles des paroles de la chanson. En apprenant, l’IA a développé des modèles neuronaux représentant ces concepts. Le montage final des créateurs emmène les spectateurs à travers l’espace latent multidimensionnel des modèles neuronaux de l’IA, voyageant à travers des paysages, des œuvres d’art et des photographies en constante mutation de manière fluide. Le film résultant est un voyage épique mais intime à travers ces concepts imaginés par l’intelligence artificielle.

Les auteurs ont collecté des milliers d’images représentant les concepts sémantiques des paroles de la chanson (par exemple, pour la ligne de la chanson « Je suis le premier rayon de lumière », les images étiquetées avec « Rayon de lumière » et les mots clés sémantiques associés ont été collectés). Pour chaque concept sémantique, un ensemble séparé d’images a été rassemblé. Les images ont été obtenues à partir de la recherche d’images Bing.

Cette étape a permis de regrouper les images visuellement similaires en ensembles cohérents et d’identifier celles qui représentent le mieux les concepts. 

Un algorithme d’apprentissage automatique prend un ensemble de données appelé « données d’entraînement » en entrée. L’algorithme d’apprentissage trouve des motifs dans les données d’entrée. Ce processus s’appelle l’entraînement. La sortie du processus d’entraînement à chaque étape sont les prédictions faites par le modèle. Il existe de nombreux types de modèles d’apprentissage automatique.

Un réseau antagoniste génératif (GAN) est un modèle d’apprentissage automatique dans lequel deux réseaux neuronaux rivalisent entre eux pour devenir plus précis dans leurs prédictions à chaque étape d’entraînement.

Les créateurs ont entraîné quinze modèles GAN, un pour chaque concept sémantique apparaissant dans la chanson. L’entraînement de chaque modèle a nécessité plus d’un millier d’itérations sur trois jours. Voyez ci-dessous comment les prédictions évoluent.

Une fois le processus d’entraînement terminé, les créateurs ont généré des boucles d’interpolation. Au cœur de cette étape se trouve une interpolation dans l’espace latent. En interpolant entre les images dans l’espace latent, les créateurs ont effectué une transition sans couture, mais fidèle à la source, entre les images générées par le modèle. Pour la vidéo finale, les auteurs ont créé une boucle d’interpolation pour chacun des quinze modèles neuronaux, puis les ont combinés dans un film cinématographique final.

Entrée pour le modèle GAN. Images collectées pour la ligne de chanson « ray of light ».