Neuer videobasierter Ansatz zur 3D-Bewegungserfassung macht virtuelle Avatare realistischer denn je
Tübingen. 17.06.2020 –- Wissenschaftler am Max-Planck-Institut für Intelligente Systeme (MPI-IS) entwickelten VIBE, ein algorithmisches Modell, das eine bis jetzt in dieser Form noch nicht möglich gewesene, detaillierte und genaue Erfassung menschlicher 3D-Bewegungen aus Videos ermöglicht. Sie beschreiben das Modell in dem vor kurzem veröffentlichten Artikel "VIBE: Video Inference for Body Pose and Shape Estimation", der heute auf der diesjährigen Conference on Computer Vision and Pattern Recognition (CVPR) vorgestellt wird. Die CVPR ist eine der renommiertesten Konferenzen im Bereich Computer Vision und findet bis 18. Juni 2020 online statt.
„Frühere Modelle leisteten gute Arbeit bei der Berechnung der menschlichen 3D-Körperhaltung und -form aus einem einzigen Bild. Allerdings waren videobasierte Modelle aufgrund begrenzter Daten nicht in der Lage, menschliche Bewegungen realistisch nachzuahmen", sagt Muhammed Kocabas, Doktorand in der Abteilung Perzeptive Systeme am MPI-IS und Co-Autor der Arbeit. „Mit VIBE haben wir diese Herausforderung erfolgreich gemeistert".
VIBE ist ein lernbasiertes Modell, das sich auf AMASS, einen am MPI-IS entwickelten groß angelegten Motion-Capture-Datensatz, der für Animation, Visualisierung und die Generierung von Trainingsdaten für Deep Learning verwendet werden kann, stützt. Die Wissenschaftler trainierten den VIBE-Algorithmus auf einer NVIDIA Grafikeinheit (GPU) nicht nur für die Berechnung menschlicher 3D-Bewegungen, sondern auch für die Unterscheidung zwischen realistischen und unrealistischen Bewegungen. AMASS wird hier als Quelle für echte menschliche Bewegungen verwendet. Aus einem einzelnen Video eines sich bewegenden Menschen extrahiert das Modell zunächst mit Hilfe eines Convolutional Neural Network (CNN) Bildmerkmale. CNN sind neuronale Netze, die im Bereich des maschinellen Lernens häufig zur Erkennung und Klassifizierung von Bildern verwendet werden. Die Weiterverarbeitung dieser Merkmale erfolgt dann durch ein Recurrentes Neuronales Netzwerk (RNN) – einem Netzwerk, das in der Lage ist, zeitliche Sequenzen zu klassifizieren und somit auch die sequentielle Natur der menschlichen Bewegung erfassen kann. Das Ergebnis ist eine fließende, realistische Darstellung der menschlichen Körperhaltung, -form und -bewegung.
„Was VIBE auszeichnet, ist die Fähigkeit, den gesamten Aktions- und Bewegungsradius einer Person im Detail zu erfassen. Dazu gehört auch die Art und Weise, wie sich Gliedmaßen und Extremitäten bewegen", sagt Nikos Athanasiou, der ebenfalls Doktorand in der Abteilung Perzeptive Systeme und Co-Autor der Arbeit ist. „Aus einem einzigen Video kann VIBE sehr schnell und ohne zusätzlichen Aufwand realistische menschliche Bewegungen generieren", so Nikos Athanasiou.
Mit VIBE wird die 3D-Bewegungserfassung einfacher, schneller und viel kostengünstiger
VIBE könnte einen entscheidenden Einfluss auf die 3D-Animation haben. Während hochwertige virtuelle Bewegungen schon seit langem zum festen Bestandteil von Animationsfilmen und Videospielen gehören, erfordert die Darstellung realistischer menschlicher Figuren und Posen im Allgemeinen einen hohen Grad an Feinarbeit: Um einige Sekunden Video zu bearbeiten, benötigen Grafiker und Techniker mehrere Stunden und einen aufwändigen Aufbau von Sensoren und Kameras. Mit VIBE wird die 3D-Bewegungserfassung einfacher, schneller und viel kostengünstiger.
„Zu verstehen, wie Menschen sich verhalten, wie sie sich zum Beispiel in einer Szene bewegen, ist eine grundlegende Aufgabe im Bereich der Computer Vision", sagt Michael J. Black, Direktor am Max-Planck-Institut für Intelligente Systeme in Tübingen und Leiter der Abteilung für Perzeptive Systeme. „Das VIBE-Modell trägt dazu bei, dieses Verständnis zu verbessern. Es ist für unterschiedlichste Anwendungsbereiche vielversprechend, von Augmented Reality über autonomes Fahren bis hin zu Robotik und medizinischen Applikationen. Präzisere dreidimensionale Darstellungen menschlicher Bewegungsabläufe werden dazu beitragen, dass Computer zu vollwertigeren Partnern des Menschen werden.“