Tanz und Künstliche Intelligenz

Zugehörigkeiten: Al ROBOLAB. Universität Luxemburg
AUTOREN: Nooshin SHOJAEE, Betania ANTICO

Zusammenfassung

Tanzen zur Musik ist eine instinktive Handlung des Menschen. Da KI in allen Aspekten des menschlichen Lebens Fortschritte gemacht hat, kann die Generierung von Tanz durch KI-Techniken zu beeindruckenden Ergebnissen führen. Tanz ist eine Möglichkeit der Interaktion unter Menschen. Aber kann Tanz auch ein Mittel der Interaktion zwischen Maschinen und Menschen sein? Dies ist die Frage, die wir durch dieses Projekt beantworten möchten. Dieses Projekt besteht aus zwei Phasen. 
Stufe 1: Tanzgenerierung durch KI basierend auf Musik (unter Verwendung eines vorab trainierten Modells namens MMGAN).
Stufe 2: Entwurf einer Tanzsequenz für einen halbhumanoide Roboter (Pepper), um mit Menschen zu interagieren.

KI muss darauf trainiert werden, Tanz zu generieren. Tanz aus Musik zu generieren ist eine anspruchsvolle Aufgabe. Die Hauptherausforderungen können wie folgt aufgelistet werden:
l. Die Tanzbewegungen müssen gut mit dem gegebenen Musikstil und den Beats abgestimmt sein.
2. Eine Tanzpose kann jederzeit von verschiedenen möglichen Bewegungen gefolgt werden.
3. Langfristige Strukturen der Körperbewegungen führen zu hoher kinematischer Komplexität.
MM GAN (Music to Movement GAN) ist eine Technik zur Erzeugung von Tanzbewegungen basierend auf Musik. In dieser Methode lernt das Modell zunächst, wie es sich bewegen soll, indem es den Tanz in grundlegende Bewegungen zerlegt. Dann lernt es, wie man tanzt, indem es die grundlegenden Bewegungen in Tanzsequenzen organisiert. Am Ende fügt es die Tanzsequenzen basierend auf den Musikrhythmen zusammen, um einen langfristigen Tanz zu erzeugen.

Phase I

1. In der Phase der top-down Zerlegung lernt das Modell, sich zu bewegen, indem es grundlegende Bewegungen erzeugt.
Es nimmt einen Musikclip als Eingabe und verfolgt den kinematischen Beat, um Tanzsequenzen zu extrahieren. Dann normalisiert es die Tanzsequenzen zu einer Reihe von Tanz-Einheiten. Am Ende dieser Phase wird jede Tanz-Einheit in eine Ausgangsposition und mögliche Bewegungen zerlegt.
Jede Tanz-Einheit besteht aus einer festen Anzahl von Posen in einem festen Zeitintervall. Tanz-Einheiten dienen dazu, grundlegende Bewegungsmuster zu erfassen und sind sehr hilfreich, um den Musikstil zu erkennen. Die Pose einer aktuellen Tanz-Einheit kann auch als Ausgangsposition für die nächste Tanz-Einheit verwendet werden, um einen langfristigen Tanz zu generieren.

1. In der Phase der top-down Zerlegung lernt das Modell, sich zu bewegen, indem es grundlegende Bewegungen erzeugt.
Es nimmt einen Musikclip als Eingabe und verfolgt den kinematischen Beat, um Tanzsequenzen zu extrahieren. Dann normalisiert es die Tanzsequenzen zu einer Reihe von Tanz-Einheiten. Am Ende dieser Phase wird jede Tanz-Einheit in eine Ausgangsposition und mögliche Bewegungen zerlegt.
Jede Tanz-Einheit besteht aus einer festen Anzahl von Posen in einem festen Zeitintervall. Tanz-Einheiten dienen dazu, grundlegende Bewegungsmuster zu erfassen und sind sehr hilfreich, um den Musikstil zu erkennen. Die Pose einer aktuellen Tanz-Einheit kann auch als Ausgangsposition für die nächste Tanz-Einheit verwendet werden, um einen langfristigen Tanz zu generieren.

3.In der Testphase fasst das Modell die Tanz-Einheiten zusammen, um einen langfristigen Tanz zu generieren.
Aus einer gegebenen Eingabemusik extrahiert es zuerst den Stil und generiert eine Tanzsequenz. Im zweiten Schritt zerlegt es den generierten Tanz in kurze Tanzsequenzen und wählt zufällig eine Anfangsposition aus. Im dritten Schritt generiert das Modell eine vollständige Tanzsequenz unter Verwendung der Anfangsposition und der kurzen Tanzsequenzen. (Die Anfangsposition der nächsten Tanzsequenz wird vom letzten Frame der aktuellen Tanzsequenz übernommen). Am Ende umschließt das Modell die generierten Tanzsequenzen, indem es die kinematischen Beats mit dem Musikbeat abstimmt. Abbildung 6 veranschaulicht das Verfahren der Testphase.

Bild 2. Beispiel für Tanzbewegungseinheiten: Experiment

Datensammlung: Das Dancing2Music-Modell wurde mit 68.000 Ballett-, 220.000 Zumba- und 73.000 Hip-Hop-Musikclips trainiert, was insgesamt 71 Stunden Trainingsdaten entspricht.

Verarbeitung der Pose:

Dancing2Music verwendet OpenPose, um 2D-Körperpunkte zu extrahieren. In diesem Modell werden 14 Schlüsselpunkte als die relevantesten Schlüsselpunkte für die Tanzverarbeitung ausgewählt. Diese Schlüsselpunkte sind: Nase, Hals, linke und rechte Schultern, Ellenbogen, Handgelenke, Hüften, Knie und Knöchel. Die fehlenden Schlüsselpunkte werden durch Interpolation aus den benachbarten Frames geschätzt. Vergleich: In unserem Labor haben wir den Dancing2Music-Tanzgenerator getestet, um eine klassische Tanzsequenz basierend auf dem Musikstück „Dying Swan“ zu generieren. Parallel dazu haben wir das Open-Pose-Posenerkennungsmodell auf ein Musikvideo einer Ballerina angewendet, um die von AI generierten Tanzbewegungen und die menschlichen Tanzbewegungen aus choreografischer Sicht zu analysieren und zu vergleichen.

Bild 3.

Im Ballet sind alle Schritte durch das ´en dehors´ der Hüfte bestimmt, was den Füßen eine andere Position gibt. Spitzenschuhe wurden erschaffen, um dem Ballet eine leichte und luftige Atmosphäre zu schaffen. Für unser Posenerkennungsmodel sind diese verschiedenen Bewegungen manchmal unerkennbar, da die Fußposition keiner herkömmlichen Tanzpose folgt.

Bild 4.

In dieser Pose konnte der Avatar nicht ableiten, dass das Bein des Tänzers „en dehors“ in der Position „croisé“ ist und hat es auf eine andere Weise interpretiert. Im Ballett könnten wir diese Pose eher als „Ente“ anstelle eines Schwans bezeichnen, was auf eine unsaubere Pose hinweist. Selbst Al benötigt noch mehr Training, um die Pose mit dem „richtigen“ Stil erkennen zu können.

Bild 5.

In diesem Bild sehen wir, dass Al bereits unterscheiden konnte, was der Stil und die Position der Beine und Arme war, sogar der Kopf und seine Neigung kommen dem Original ziemlich nahe.

Halb-Humanoide Roboter sind Roboter, die das Aussehen und das Gefühl eines Menschen haben oder eine intelligente Funktion eines Menschen mit Unterstützung eines Menschen ausführen. Halb-Humanoide Roboter bestehen aus mechanischen Körperteilen, intelligenten Systemen (Künstliche Intelligenz), Sensoren und Techniken der Mensch-Computer-Interaktion. Pepper ist der erste soziale halbhumanoide Roboter, der von SoftBank Robotics hergestellt wurde und in der Lage ist, Gesichter und grundlegende menschliche Emotionen zu erkennen. Pepper wurde für die Interaktion mit Menschen optimiert und kann mit Menschen durch Gespräche und seinen Touchscreen interagieren. Die physischen und interaktiven Eigenschaften von Pepper haben unser Interesse geweckt, eine grundlegende Balletttanzsequenz für sie zu entwerfen und die Interaktion zwischen Mensch und Roboter durch Tanz zu experimentieren. Es gibt viele Herausforderungen bei der Gestaltung einer Choreografie für Roboter, einschließlich der Tatsache, dass Pepper keine Beine hat und in jedem Gelenk einen bestimmten Bewegungsbereich hat, der ihre Fähigkeit zur Einnahme von Ballettpositionen einschränkt. Dennoch haben wir es geschafft, eine Roboter-Choreografie zu erstellen und eine Sequenz unter Berücksichtigung aller Einschränkungen zu entwerfen. Dies könnte eine Motivation für Menschen mit Einschränkungen sein, das Tanzen zu erlernen, indem sie einem Roboter folgen.