Wenn Maschinen lernen, wie Menschen zu sehen
Forschende aus Tübingen entwickeln neuen Ansatz für die Synthese dreidimensionaler Bilder
Beim maschinellen Sehen besteht eine zentrale Herausforderung darin, Maschinen beizubringen, in komplexen 3D-Szenen genauso zu „sehen“ und zu schlussfolgern wie Menschen es tun. Das langfristige Ziel ist, sichere und zuverlässige Technologien in Bereichen wie dem autonomem Fahren und Virtual Reality zu ermöglichen. Zwar ist die Wissenschaft noch weit davon entfernt, dieses Ziel zu erreichen – mit „GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis“ haben Forschende der Universität Tübingen und des Max-Planck-Instituts für Intelligente Systeme (MPI-IS) nun aber einen neuen, fortschrittlichen Ansatz entwickelt. Sie präsentierten ihre Arbeiten diese Woche auf der „Thirty-fourth Conference on Neural Information Processing Systems“ (NeurIPS 2020). NeurIPS ist eine der weltweit führenden Konferenzen im Forschungsbereich des maschinellen Lernens. Die diesjährige Ausgabe wird bis zum 12. Dezember virtuell abgehalten.
„Menschen sind in der Lage, ein zweidimensionales Bild zu betrachten und sich genau vorzustellen, wie es aus verschiedenen Blickwinkeln in 3D aussieht“, sagt Katja Schwarz, die Hauptautorin der Arbeit. „Aber sie können noch viel mehr: Sie können sich völlig neue Szenen vorstellen, weil sie deren zugrunde liegenden Konzepte verstehen. Das erfordert eine ausgeklügelte Fähigkeit, dreidimensional zu denken. Maschinen haben diese Fähigkeit einfach noch nicht. Sie können bereits sehr gut neue 2D-Bilder erzeugen, aber die Wissenschaft arbeitet noch immer daran, sie in die Lage zu versetzen, besser in 3D zu denken und abstrakte dreidimensionale Konzepte zu erlernen. Mit GRAF bieten wir einen Ansatz an, der die Synthese dreidimensionaler Bilder für einzelne Objekte erheblich verbessert, und machen damit einen wichtigen Schritt in diese Richtung.“
Schwarz ist derzeit Doktorandin in der Autonomous-Vision-Gruppe, die sowohl an der Universität Tübingen als auch am MPI-IS beheimatet ist. Ihre Koautoren sind ihre Forscherkolleg/innen Yiyi Liao und Michael Niemeyer, sowie Gruppenleiter Andreas Geiger.
Zwar gibt es bereits Methoden zur Synthese dreidimensionaler Bilder. Diese erfordern aber oft 3D-Trainingsdaten oder mehrere Bilder aus derselben Szene mit bekannten Kamerapositionen. Es kann schwierig sein, diese Informationen in realen Situationen zu sammeln. Ein selbstfahrendes Auto muss bespielweise sicher fahren können, wenn Fußgänger/innen plötzlich über die Straße laufen oder andere unerwartete Hindernisse auftauchen. Aus guten Gründen können solche Szenen im wirklichen Leben nicht vorab aufgezeichnet werden. Daher ist die Simulation ein wichtiger Aspekt im Hinblick auf das Training von Algorithmen.Als Antwort auf diese Herausforderung wollten die Wissenschaftler/innen ein 3D-Modell erstellen, das nur aus 2D-Bildern ohne bekannte Kameraposition lernt. Dies ist eine komplexe Aufgabe, und bestehende Ansätze erzeugen entweder eine niedrige Bildauflösung oder inkonsistente Objektdarstellungen, wenn sich der Blickwinkel ändert. Mit GRAF strebten die Forschenden ein Modell an, das sich auf eine hohe Bildauflösung skalieren lässt und gleichzeitig konsistente Objektdarstellungen liefert. Langfristig könnten solche Modelle realistische Simulationen für Trainingsroboter oder autonome Fahrzeuge erzeugen. Um herauszufinden, wie ein generatives Modell allein auf der Grundlage von 2D-Bildern die Dreidimensionalität der Welt erfassen kann, bauten die Forschenden eine virtuelle Kamera in ihr Modell ein. Sie steuerten dann die Position dieser Kamera, sodass sie die Objekte in den Bildern aus verschiedenen Winkeln betrachten konnte.
Die 3D Objekte werden durch eine spezielle Repräsentation, bekannt als „Radiance Fields“, speichereffizient im Computer dargestellt. Dies ist entscheidend, damit die Methode auf eine hohe Bildauflösung skaliert. Aus einem bestimmten Kamerastandpunkt kann jedes 3D-Objekt dann in ein 2D-Bild gerendert werden. Durch den Vergleich der erzeugten Renderings mit realen Bildern lernt das Modell, 3D-konsistente Bilder aus verschiedenen Blickwinkeln hinweg zu erzeugen.
„Wir haben unser Modell anhand mehrerer synthetischer und realer Datensätze analysiert und festgestellt, dass unser Ansatz mit ‚Radiance Fields‘ gut hochauflösend skaliert und dabei über verschiedene Kameraperspektiven hinweg konsistent bleibt“, sagt Schwarz. Die Wissenschaftler/innen testeten GRAF nicht nur an Bildern von Objekten wie Autos und Stühlen, sondern auch an natürlichen Bildern von Menschen, Vögeln und Katzen – mit sehr guten Ergebnissen. In einem nächsten Schritt planen sie, ihren Ansatz über einzelne Objekte hinaus auf noch komplexere Szenen der realen Welt auszudehnen.
Weitere Informationen über das GRAF-Projekt finden Sie unter https://autonomousvision.github.io/graf/.