Einführung

Zugehörigkeiten: Al ROBOLAB. Universität Luxemburg
AUTOREN: Daniel Gareev, Oliver Glassl

Zusammenfassung

„Initiation“ ist ein Lied von ThalamusProject. Der Thalamus ist ein Teil des Gehirns, der menschliche Wahrnehmungen an das menschliche Bewusstsein weiterleitet. Der anatomische Name stammt vom altgriechischen Wort θάλαμος (thálamos), das oft als „Tor zum Bewusstsein“ übersetzt wird. The m us1c of the ThalamusProject directly relates to this picture: acoustic textures are used as a canvas to depict the interplay of objectivity and subjectivity. Initiation ist ein Lied über Existenz und die Entfaltung der Realität, inspiriert von emanationistischen philosophischen Theorien (z. B. den 4 Welten der Qabalah). Das Lied beschreibt hierbei die erste Phase jeder Schöpfung, die reine Potenz, die Möglichkeit, den Raum, die Materie und die Motivation für die Schöpfung. Für das Video von „Initiation“ verwendeten die Schöpfer künstliche Intelligenz und maschinelles Lernen, um eine filmische Vision des Liedes aus dem „Geist des A.I.“ heraus zu schaffen. Um dies zu erreichen, trainierten die Autoren eine künstliche Intelligenz mit Tausenden von Bildern von Landschaften, Kunstwerken und Fotografien, die die konzeptuellen Bedeutungen der Liedtexte darstellen. Während es lernte, entwickelte die künstliche Intelligenz neuronale Modelle, die diese Konzepte darstellen. Die abschließende Bearbeitung der Schöpfer führt die Zuschauer durch den multidimensionalen Latentraum der neuronalen Modelle der künstlichen Intelligenz und reist dabei über nahtlos ineinander übergehende Landschaften, Kunstwerke und Fotografien. Der entstandene Film ist eine epische und dennoch intime Reise durch diese von künstlicher Intelligenz erdachten Konzepte.

Die Autoren sammelten Tausende von Bildern, die die semantischen Konzepte der Liedtexte darstellen (zum Beispiel für die Zeile „Ich bin der erste Strahl des Lichts“ wurden Bilder mit „Strahl des Lichts“ und verwandten semantischen Schlüsselwörtern gesammelt). Für jedes semantische Konzept wurde eine separate Sammlung von Bildern erstellt. Die Bilder wurden aus der Bing-Bildersuche bezogen.

Dieser Schritt half dabei, visuell ähnliche Bilder als zusammenhängende Datensätze zu gruppieren und diejenigen zu identifizieren, die die Konzepte am besten repräsentieren. 

Ein Machine-Learning-Algorithmus nimmt eine Datenmenge, die als „Trainingsdaten“ bekannt ist, als Eingabe an. Der Lernalgorithmus findet Muster in diesen Eingabedaten. Dieser Prozess wird Training genannt. Die Ausgabe des Trainingsprozesses in jedem Schritt sind die Vorhersagen, die vom Modell gemacht werden. Es gibt viele Arten von maschinellen Lernmodellen.

Ein generatives adversarielles Netzwerk (GAN) ist ein Modell des maschinellen Lernens (ML), bei dem zwei neuronale Netzwerke miteinander konkurrieren, um mit jedem Trainingsschritt genauere Vorhersagen zu treffen.

Die Ersteller haben fünfzehn GAN-Modelle trainiert, jeweils eines für jedes im Lied auftretende semantische Konzept. Das Training jedes Modells dauerte mehr als tausend Iterationen über drei Tage. Bitte sehen Sie unten, wie sich die Vorhersagen entwickeln.

Nach Abschluss des Lernprozesses haben die Programmierer Interpolations-Schleifen generiert. Im Kern dieses Schrittes steht eine Interpolation im latenten Raum. Durch die Interpolation zwischen Bildern im latenten Raum vollzogen die Programmierer einen nahtlosen und dennoch der Quelle treuen Übergang zwischen den vom Modell generierten Bildern. Für das endgültige Video erstellten die Autoren eine Interpolations-Schleife für jedes der fünfzehn neuronalen Modelle und kombinierten sie in einem abschließenden Kinofilm.

Eingabe für das GAN-Modell. Bilder, die für die Songzeile „Strahl des Lichts“ gesammelt wurden.