Forschungsbericht 2023 - Max-Planck-Institut für Informatik

Die visuelle Repräsentation der Welt

The visual representation of the world

Autoren
Leimkühler, Thomas
Abteilungen
Image Synthesis and Machine Learning
Abteilung D4 – Computer Graphics
Abteilung D6 – Visual Computing and Artificial Intelligence
Zusammenfassung
Virtuelle Welten sind eine zentrale Komponente für die visuelle Kommunikation der Zukunft. Wie aber können wir solche Welten aufbauen, sodass sie fotorealistisch aussehen und dabei flüssig zu erkunden sind? Und wie schaffen wir Modelle, die so flexibel sind, dass Benutzerinnen und Benutzer aktiv Einfluss auf sie nehmen können? Diese Fragen an den Grundlagen der Computergrafik untersuchen wir am MPI für Informatik. Dabei spielt auch künstliche Intelligenz eine entscheidende Rolle.
Summary
Virtual worlds are a central component for visual communication in the future. But how can these worlds be built so that they look photorealistic and can be explored smoothly? How do we create models that are flexible enough so that users can actively influence them? These questions targeting the fundamentals of computer graphics are being investigated at the MPI for Informatics. The application of artificial intelligence also plays a crucial role in this process.

Die visuelle Welt um uns herum ist komplex und vielfältig. Manche Formen sind regelmäßig und wuchtig wie die Fassade eines Hochhauses, andere sind chaotisch und filigran wie eine vom Wind zerzauste Frisur. Das Erscheinungsbild von Oberflächen reicht von stumpfem Rost über die menschliche Haut bis hin zu funkelnden Solarpanels. Und bei manchen Erscheinungen gibt es noch nicht einmal Oberflächen, so etwa bei Phänomenen wie Feuer oder Nebel.

Für viele Anwendungen aus den Bereichen virtuelle Realität, visuelle Effekte, im Film, bei Computerspielen oder der (medizinischen) Visualisierung benötigen wir mathematische Modelle und Methoden, die die Komplexität und Vielfältigkeit der visuellen Welt digital reproduzieren können. Dabei kommt es im Wesentlichen auf drei Aspekte an. Erstens: Die Darstellung soll fotorealistisch sein, ohne viel manuellen Arbeitsaufwand zu erfordern. Zweitens: Die Berechnung darf nur wenige Millisekunden dauern, damit wir uns flüssig durch die virtuelle Welt bewegen können. Drittens: Wir wollen mit der virtuellen Welt interagieren und sie manipulieren können. Momentan sind wir noch weit davon entfernt, all diese Ziele gleichzeitig zu erreichen.

Wie können wir virtuelle Welten aufbauen?

Um die benötigten Bilder zu erzeugen, werden klassischerweise diskrete Bausteine verwendet. Bilder werden angenähert, indem sie als Millionen Quadrate (Pixel) dargestellt werden, geometrische Formen werden mit Drahtgittermodellen repräsentiert, die aus einer Vielzahl an Dreiecken bestehen. Da die visuelle Welt jedoch nicht aus Quadraten und Dreiecken besteht, handelt es sich bei dieser Repräsentationsart um eine Annäherung, die der Welt in ihrer Struktur häufig nicht gerecht wird und vergleichsweise unflexibel ist. Besser geeignet sind sogenannte kontinuierliche Modelle, die die visuelle Welt durchgängig darstellen können, ohne sie in diese diskreten Bausteine aufteilen zu müssen. Seit einigen Jahren forschen Wissenschaftlerinnen und Wissenschaftler intensiv zu diesen kontinuierlichen Modellen.

Eine der großen Herausforderungen beim Aufbau virtueller Welten besteht darin, mithilfe weniger Fotos eine Szene zu erschaffen, in der man sich frei bewegen kann. Wir haben nun mithilfe einer alten Idee die Rigidität der Bausteine aufgeweicht und mehr Flexibilität gewonnen: Die Szene wird als eine Ansammlung von Hundertausenden formbarer 3D-Blobs, also Klecksen aufgebaut und ermöglicht somit eine deutlich flexiblere und damit fotorealistischere Darstellung. Unter Verwendung eines hocheffizienten Rendering-Algorithmus‘ lässt sich die virtuelle Szene innerhalb von wenigen Minuten erstellen und innerhalb weniger Millisekunden rendern. Mit diesem sogenannten 3D Gaussian Splatting [1] lassen sich diese virtuellen Szenen nun in kürzester Zeit und in hoher Qualität erzeugen. Unsere Grundlagenforschung wird deshalb schon jetzt überall auf der Welt und in vielen Forschungs- und Anwendungsbereichen eingesetzt.

Gezielte Eingriffe

Viele Forscherinnen und Forscher bemühen sich aber auch, auf die diskreten Bausteine vollständig zu verzichten und greifen stattdessen auf neuronale Felder zurück. Zum einen stellen diese neuronalen Felder die (visuellen) Informationen kontinuierlich dar und nähern sich so der Realität besser an. Zum anderen benötigen sie deutlich weniger Speicherplatz. Sie speichern nur dann hochauflösend Informationen, wenn beispielsweise in Bildern komplexe Details vorhanden sind.

Aufgrund ihrer Komplexität sind sie allerdings schwer zu durchdringen. Insbesondere das Eingreifen in ihre Prozesse stellt eine große Herausforderung dar. Dabei ist gerade dieses Eingreifen notwendig, um mit den virtuellen Welten interagieren beziehungsweise diese kontrolliert manipulieren zu können. Eine besonders wichtige und herausfordernde Operation ist die sogenannte Faltung. Dabei werden Informationen großflächig aggregiert. Somit lassen sich beispielsweise Bildunschärfen schaffen (Bild 1) oder Erkenntnisse über das Zusammentreffen von Objekten gewinnen.

Wir haben die Möglichkeit geschaffen, diese Vorgänge in einem neuronalen Feld durchzuführen [2]. Unser Algorithmus ist dabei unabhängig von der Größe des aggregierten Informationsbereiches zugleich auch sehr effizient. So sind wir dem Ziel der besseren Editierbarkeit einen wichtigen Schritt nähergekommen.

Fotorealismus durch künstliche Intelligenz

Eine weitere praxisrelevante Art der Bildmanipulation ist das Bewegen von Inhalten innerhalb eines Bildes. Dies kann jedoch zu ungewollten Artefakten wie Verzerrungen und Löchern im Bild führen, die sich nur aufwändig korrigieren lassen. Bei diesem Problem schafft DragGAN [3], eine generative künstliche Intelligenz, Abhilfe. Ein neuronales Netzwerk wurde mit Zehntausenden Fotos aus dem Internet trainiert; so konnte es lernen, neue realistische Bilder selbst zu erzeugen. Mit dieser Kompetenz ausgestattet, kann das Netzwerk nun ein realistisches Bild finden, das der von den Benutzerinnen und Benutzern gewünschten Bildmanipulation entspricht. Da das Netzwerk nur fotorealistische Bilder erzeugen kann, treten dabei keine unerwünschten Artefakte mehr auf. Soll beispielsweise das zuvor geschlossene Maul eines Löwen geöffnet werden, sind nach der Manipulation Zähne und Zunge des Tiers zu sehen (Abb. 2). Unsere Grundlagenforschung bereitet nicht nur den Weg für kreative Bildbearbeitung, sondern kann auch Erkenntnisse für die Bildforensik und das Identifizieren von problematischen Deepfakes liefern.

Kontinuierliche Herausforderungen

Wir sind momentan noch weit von virtuellen Welten entfernt, die ebenso überzeugend fotorealistisch sowie schnell zu rendern sind und mit denen wir vielfältig interagieren können. Gleichzeitig ist es seit Kurzem so einfach wie nie, Bilder mithilfe von Textprompts von generativer künstlicher Intelligenz erzeugen zu lassen. Wir sind kontinuierlich damit beschäftigt, an neuen algorithmischen Lösungen für diese Herausforderungen zu arbeiten und die neuen Entwicklungen mitzugestalten, um so solide technische Grundlagen für die visuelle Kommunikation der Zukunft zu legen.

Literaturhinweise

Kerbl, B.; Kopanas, G.; Leimkühler, T.; Drettakis, G.
3D Gaussian splatting for real-time radiance field rendering
ACM Transactions on Graphics (SIGGRAPH), 2023
Nsampi, N.E.; Djeacoumar, A.; Seidel, H.-P.; Ritschel, T.; Leimkühler, T.
Neural field convolutions by repeated differentiation
ACM Transactions on Graphics (SIGGRAPH Asia), 2023
Pan, X.; Tewari, A.; Leimkühler, T.; Liu, L.; Meka, A.; Theobalt, C.
Drag your GAN: Interactive point-based manipulation on the generative image manifold
SIGGRAPH, 2023

Weitere interessante Beiträge

Zur Redakteursansicht