Nachdem wir zuletzt die Photogrammetrie betrachtet und so eine Möglichkeit vorgestellt haben, reale Objekte in die virtuelle Realität zu übertragen, bleibt die Frage: Gibt es eine derartige Technik auch für bewegte Inhalte? Und damit sind wir schon bei unserem heutigen Thema: Dem volumetrischen Video.
Ein volumetrisches Video basiert auf dem Prinzip der Holographie. Reale Menschen und Objekte werden als dreidimensionales Abbild erfasst und können so von allen Seiten betrachtet werden. Aber was heißt das genau?
Grundlegend: Volumetrische Erfassung funktioniert anders als eine klassische Filmaufnahme, bei der man als Zuschauer immer nur den Blick „auf“ das Dargestellte hat und daher perspektivisch festgelegt ist. Auch unterscheidet sich volumetrische VR von sphärischen 360-Grad-Videos, bei denen der Zuschauer eine multi-perspektivische Sicht auf die gefilmten Inhalte erhält und quasi selbst entscheidet, wohin er schauen will.
Volumetrische Aufnahmen bringen hier ein echtes Novum: der VR-Anwender kann um die Darsteller herumgehen und das Geschehen von allen Seiten erleben!
Begegnungen volumetrischer Art
Volumetrische Produktionen sind technisch sehr komplex. Es werden zunächst Kameras benötigt, die reale Inhalte aus allen möglichen Blickwinkeln erfassen können.
Hier führen viele Wege nach Rom: Der jeweilige Workflow, die spezifische Software und die technische Grundausstattung bei der Erstellung volumetrischer Videos differieren von Produktion zu Produktion.
Ein volumetrisches Video lässt sich z.B. folgendermaßen generieren: Das gefilmte reale Objekt/ Subjekt wird digital anhand von Punktwolken erfasst und für die computergesteuerte Weiterverarbeitung in ein Mesh überführt. Punktwolken bestehen hier aus einzelnen Punkten innerhalb des dreidimensionalen Koordinatensystems und definieren sich durch die Oberflächenstrukturen des gescannten Darstellers oder Gegenstandes. Vereinfacht gesagt: Die Film-Aufnahmen können anhand entsprechender Softwares auf das Mesh projiziert werden. Resultat ist eine multiperspektivische, fotorealistische 3D-Replikation von bewegten Menschen und Objekten.
VR-Headset-Usern ist es so auch möglich, sich frei (entlang aller sechs Bewegungsachsen) in den virtuellen Umgebungen zu bewegen und Personen/ Gegenstände aus verschiedenen Winkeln zu betrachten.
Technische Lösungen volumetrischer Videos
Unabhängig davon, ob modulare oder fest installierte Setups verwendet werden: der Schlüssel zur Produktion volumetrischer Echtzeit-Videos ist eine entsprechende Technologie zur Erfassung von Tiefeninformation.
Um eine freie Bewegung um Objekte zu ermöglichen, müssen die Kameras so positioniert sein, dass jede Stelle am Objekt von mindestens zwei Kameras erfasst werden kann. Ein Tiefeneffekt, der zumindest eine Kopfbewegung für einige Zentimeter in jede Richtung erlaubt (was minimale Kopfbewegungen, wie wir sie unbewusst für unsere räumliche Wahrnehmung im Alltag ständig benutzen, möglich macht), kann aber sogar schon mit einer einzigen Kamera erreicht werden: Eine solche 360-Grad-Kamera mit spezieller Tiefentechnologie ist die von Facebook und Red Digital Cinema entwickelte Manifold (ohne bisherigen Release), die Szenen in (8K/60fps)-360-Grad-6DoF erfasst. Die Helium-Sensoren (die eigentlich für Kinokameras entwickelt wurde) sorgen hierbei für eine besonders präzise Bildwiedergebung und entsprechend immersiven Output. Für das Depth-Mapping ist Otoy verpflichtet worden. Dabei werden die Bilder von zwei nebeneinanderliegenden Linsen miteinander verglichen. Durch den Parallaxe-Effekt kann der Abstand der aufgenommenen Stelle ermittelt und in einem separaten Graustufen-Videokanal gespeichert werden. Dieser wird von speziellen Videoplayern zur Wiedergabe volumetrischer Videos benutzt. Elemente, die aus der Position der Kamera verdeckt waren, kann diese Technik selbstverständlich nicht aufzeichnen – daher ist nur eine Kopfbewegung von einigen Zentimeter ohne merkliche Bildfehler möglich.
Die Manifold ist nicht die erste und einzige Kamera, die zusätzliche Raumdaten liefert. So ist es zum Beispiel möglich, zusätzlich zur Kamera-Aufnahme mit einem 3D-Laserscanner zu arbeiten. Dieser kann mehrere hunderttausend Punkte pro Sekunde erfassen.
Das Erfassen von Punktwolken durch Lichtfelder kennzeichnet sich dadurch aus, dass neben der Lichtintensität auch Informationen über die räumliche Ausrichtung der einzelnen Lichtstrahlen geliefert werden. Reflexion, Brechung oder die Absorption des Lichtfeldes wird gemäß realer Umstände modelliert.
Weiter werden zur Erzeugung von 3D-Netzen auch Infrarotprojektoren mit Streifenprojektion verwendet. Der aufzunehmende Inhalt wird durch eine zusätzliche Lichtquelle – synchron zur Kamera – mit Streifenmustern versehen. Diese Muster legen sich um die Struktur des Motivs und weisen, entsprechend der spezifischen Geometrie, perspektivische Verzerrungen auf, die zur Erstellung des Tiefenkanals analysiert werden können.
Mit dem Azure Kintec Developer Kit schließlich verwendet Microsoft eine Technologie, die dem einen oder anderen vielleicht durch ihre Xbox-Herkunft bekannt sein dürfte. Seitdem wurde die Sensor-Technologie auch mit Blick auf Cloud- /AI-Konnektivität, Bildauflösung und Audio erheblich weiterentwickelt.
Das Kintec DK arbeitet mit einer RGB-Tiefenkamera unter synchronisierter Ausgabe von Tiefen- und Farbwerten und Time-of-Flight, einem Laufzeitsystem zur Distanzmessung, das auch in der Hololens 2 verbaut ist.
Die Kamera wirft hierbei modulierte Beleuchtung auf die entsprechende Szene. Anschließend wird gemessen, wie lange das Licht von der Kamera zum Objekt und zurück benötigt. Da sich das Licht mit einer bekannten Geschwindigkeit bewegt, erhält man durch das Bemessen dieser Zeit die Entfernung zum Motiv.
Vorhang auf: Volumetric Studio!
Bei volumetrischen Produktionen geht es darum, Bewegungsdynamiken realer Welten authentisch in den virtuellen Raum zu verlagern. Weltweit gibt es hierfür eine Handvoll hochprofessioneller Studios, in denen in einem größeren Maßstab an volumetrischer Videoproduktion gewerkelt wird.
Hier arbeiten Entwickler mit einem gigantischen Setup, etwa in den Mixed-Reality-Capture-Studios. Die Studios nutzen Verfahren der Photogrammetrie und Mesh Tessellation zur Erstellung begehbarer 3D-Welten. In Sachen Gesichtserkennung wird zusätzlich mit KI-Algorithmen gearbeitet.
Microsoft arbeitet mit Lizenzen an verschiedenen Standorten und setzt mit Blick auf die Produzenten eher auf kompakte Lösungen in flexiblen Settings.
Auch Intel betreibt auf zehntausend Quadratmetern Fläche und einer dreizehn Meter hohen Kuppel ein gigantisches Studio. Es ist sogar weltweit das größte Volumetrische Studio seiner Art – ein regelrechter Capture Dome…
Auf verschiedenen Ebenen, vom Boden bis zur Decke, werden u.a. mehr als 100 8K-Kameras verwendet. Intel produziert primär aufwendige Inhalte mit einer größeren Vielzahl an Akteuren und entsprechender Raum-Performance.
Gerade menschliche Zähne und Augen können in VR mit klassischen Mitteln nur mit hohem Aufwand lebensecht wiedergegeben werden. Mit volumetrischer Tiefen-Technologie werden Gesichter nicht mehr nur animiert, sondern direkt aus der Realität übertragen.
Die volumetrischen Inhalte lassen sich nicht nur flexibel in virtuelle Umgebungen einfügen, auch Hintergründe können beliebig ausgetauscht werden. Aus diesem Umstand ergeben sich weitere hypothetische Anwendungsfelder – z.B. im CGI-Workflow: aufgenommenes Material kann beliebig vom Hintergrund getrennt, gedreht und skaliert werden. Dem Einsatz volumetrischer Inhalte sind hier keine Grenzen gesetzt!
Volumetrische Videos revolutionieren Film- und VR-Produktion gleichermaßen – da wäre es ein Fauxpas, unerwähnt zu lassen, dass ganz in unserer Nähe, im Babelsberger Volucap Studio, solche Aufnahmen schon heute realisiert werden. Mehr dazu, erfahrt ihr im kommenden dritten Artikel unserer Themenreihe.
Wir sind Spezialisten im Bereich VR-Storytelling und unsere große Leidenschaft ist es, innovative Geschichten in der virtuellen Realität zu erzählen. Haben wir damit Ihr Interesse geweckt? Dann freuen wir uns, von Ihnen zu hören.
Bildrechte Titelbild: © dizfoto1973 – Adobe Stock