Virtuelle Realität

Eye-Tracking ist ein Game Changer für VR, der weit über Foveated Rendering hinausgeht

Eye-Tracking ist ein Game Changer für VR, der weit über Foveated Rendering hinausgeht

Eye-Tracking – die Fähigkeit, schnell und präzise die Richtung zu messen, in die ein Benutzer schaut, während er sich in einem VR-Headset befindet – wird oft im Zusammenhang mit Foveated Rendering erwähnt und wie es die Leistungsanforderungen von VR reduzieren könnte. Und während Foveated Rendering ein spannender Anwendungsfall für Eye-Tracking in VR-Headsets ist, bringt Eye-Tracking noch viel mehr auf den Tisch.

Eye-Tracking wird seit vielen Jahren in Bezug auf VR als ferne Technologie diskutiert, aber die Hardware wird endlich zunehmend für Entwickler und Kunden verfügbar. PSVR 2 und Quest Pro sind die neuesten Beispiele für Headsets mit integriertem Eye-Tracking, zusammen mit Produkten wie Varjo Aero, Vive Pro Eye und mehr.

Mit dieser Dynamik könnten wir in nur wenigen Jahren sehen, wie Eye-Tracking zu einem Standardbestandteil von VR-Headsets für Verbraucher wird. Wenn das passiert, gibt es eine Vielzahl von Funktionen, die die Technologie diesem Ständer ermöglichen kann, um das VR-Erlebnis drastisch zu verbessern.

Foveated Rendering

Beginnen wir zunächst mit dem, mit dem viele Menschen bereits vertraut sind. Foveated Rendering zielt darauf ab, die Rechenleistung zu reduzieren, die zum Anzeigen anspruchsvoller VR-Szenen erforderlich ist. Der Name kommt von der „Fovea“ – einer kleinen Grube im Zentrum der menschlichen Netzhaut, die dicht mit Fotorezeptoren gefüllt ist. Es ist die Fovea, die uns eine hochauflösende Sicht im Zentrum unseres Sichtfelds ermöglicht; Inzwischen ist unser peripheres Sehen tatsächlich sehr schlecht darin, Details und Farben aufzunehmen, und ist besser darauf eingestellt, Bewegungen und Kontraste zu erkennen als Details zu sehen. Sie können sich das wie eine Kamera vorstellen, die einen großen Sensor mit nur wenigen Megapixeln und einen weiteren kleineren Sensor in der Mitte mit vielen Megapixeln hat.

Der Bereich Ihres Sehvermögens, in dem Sie sehr detailliert sehen können, ist tatsächlich viel kleiner als die meisten denken – nur ein paar Grad über der Mitte Ihres Blickfelds. Der Unterschied im Auflösungsvermögen zwischen der Fovea und dem Rest der Netzhaut ist so drastisch, dass Sie ohne Ihre Fovea den Text auf dieser Seite nicht entziffern könnten. Sie können dies leicht selbst feststellen: Wenn Sie Ihre Augen auf dieses Wort richten und versuchen, nur zwei Sätze darunter zu lesen, werden Sie feststellen, dass es fast unmöglich ist, zu verstehen, was die Wörter sagen, obwohl Sie etwas sehen können, das Wörtern ähnelt. Der Grund dafür, dass Menschen die foveale Region ihres Sehens überschätzen, scheint darin zu liegen, dass das Gehirn viele unbewusste Interpretationen und Vorhersagen vornimmt, um ein Modell davon zu erstellen, wie wir die Welt glauben.

Foveated Rendering zielt darauf ab, diese Eigenart unseres Sehens auszunutzen, indem die virtuelle Szene in hoher Auflösung nur in dem Bereich gerendert wird, den die Fovea sieht, und dann die Komplexität der Szene in unserem peripheren Sehen drastisch reduziert wird, wo das Detail ohnehin nicht aufgelöst werden kann . Auf diese Weise können wir den größten Teil der Verarbeitungsleistung dort konzentrieren, wo sie am meisten zum Detail beiträgt, während wir an anderer Stelle Verarbeitungsressourcen sparen. Das mag nicht nach einer großen Sache klingen, aber mit zunehmender Bildschirmauflösung von VR-Headsets und zunehmendem Sichtfeld wächst die zum Rendern komplexer Szenen erforderliche Leistung nahezu exponentiell.

Eye-Tracking kommt natürlich ins Spiel, denn wir müssen jederzeit schnell und hochpräzise wissen, wo sich der Mittelpunkt des Blicks des Nutzers befindet, um ein foveiertes Rendering zu erzielen. Es wird angenommen, dass diese Illusion auf eine Weise erzeugt werden könnte, die für den Benutzer völlig unsichtbar ist; Anekdotenhafterweise habe ich kürzlich Demos gesehen, bei denen dies der Fall war.

Automatische Benutzererkennung und -anpassung

Neben der Bewegungserkennung kann Eye-Tracking auch als biometrisches Erkennungsmerkmal verwendet werden. Das macht Eye-Tracking zu einem großartigen Kandidaten für mehrere Benutzerprofile über ein einziges Headset – wenn ich das Headset aufsetze, kann mich das System sofort als eindeutigen Benutzer identifizieren und meine angepasste Umgebung, Inhaltsbibliothek, Spielfortschritt und Einstellungen aufrufen. Wenn ein Freund das Headset aufsetzt, kann das System seine Einstellungen und gespeicherten Daten laden.

Eye-Tracking kann auch verwendet werden, um IPD, den Abstand zwischen den Augen, genau zu messen. Die Kenntnis Ihres IPD ist in VR wichtig, da es erforderlich ist, die Linsen und Displays in die optimale Position für Komfort und visuelle Qualität zu bringen. Leider wissen viele Menschen nicht, was ihre IPD ist (Sie können eine grobe Messung erhalten, wenn Sie jemanden bitten, ein Lineal an Ihre Augen zu halten, oder Ihren Augenarzt fragen).

Mit Eye-Tracking wäre es einfach, die IPD jedes Benutzers sofort zu messen und dann die Software des Headsets den Benutzer bei der Anpassung der IPD-Übereinstimmung des Headsets zu unterstützen oder Benutzer zu warnen, dass ihre IPD außerhalb des vom Headset unterstützten Bereichs liegt.

Bei fortschrittlicheren Headsets könnte dieser Prozess unsichtbar und automatisch ablaufen – der IPD könnte unsichtbar gemessen werden, und das Headset könnte eine motorisierte IPD-Anpassung haben, die die Linsen automatisch in die richtige Position bringt, ohne dass der Benutzer etwas davon bemerken muss .

Gleitsicht-Displays

feature-varifocal-concept-headset-640x365

Die optischen Systeme, die in heutigen VR-Headsets verwendet werden, funktionieren ziemlich gut, aber sie sind eigentlich ziemlich einfach und unterstützen eine wichtige Funktion des menschlichen Sehens nicht: den dynamischen Fokus. Denn das Display einer VR-Brille hat immer den gleichen Abstand zu unseren Augen, auch wenn die stereoskopische Tiefe etwas anderes vermuten lässt. Dies führt zu einem Problem namens Vergenz-Akkommodations-Konflikt. Wenn Sie etwas mehr in die Tiefe erfahren möchten, sehen Sie sich unsere Grundierung unten an:

Primer: Konflikt zwischen Vergenz und Unterkunft (zum Vergrößern klicken)

Unterkunft

Unterkunft-Augendiagramm-559x500

Um in der realen Welt auf ein nahes Objekt zu fokussieren, biegt sich die Linse Ihres Auges, damit das Licht des Objekts den richtigen Punkt auf Ihrer Netzhaut trifft, sodass Sie das Objekt scharf sehen können. Bei einem weiter entfernten Objekt gelangt das Licht in unterschiedlichen Winkeln in Ihr Auge und die Linse muss sich erneut biegen, um sicherzustellen, dass das Licht auf Ihre Netzhaut fokussiert wird. Aus diesem Grund ist die Welt hinter Ihrem Finger verschwommen, wenn Sie ein Auge schließen und Ihren Finger ein paar Zentimeter von Ihrem Gesicht entfernt fokussieren. Wenn Sie sich umgekehrt auf die Welt hinter Ihrem Finger konzentrieren, wird Ihr Finger verschwommen. Das nennt man Unterkunft.

Vergenz

Vergenzdiagramm-504x500

Dann gibt es die Vergenz, bei der sich jedes Ihrer Augen nach innen dreht, um die separaten Ansichten von jedem Auge zu einem überlappenden Bild zu „konvergieren“. Bei sehr weit entfernten Objekten sind Ihre Augen nahezu parallel, da der Abstand zwischen ihnen im Vergleich zur Entfernung des Objekts so gering ist (was bedeutet, dass jedes Auge einen nahezu identischen Teil des Objekts sieht). Bei sehr nahen Objekten müssen sich Ihre Augen nach innen drehen, um die Perspektive jedes Auges auszurichten. Auch dies können Sie mit unserem kleinen Fingertrick wie oben sehen: Halten Sie diesmal mit beiden Augen Ihren Finger einige Zentimeter von Ihrem Gesicht entfernt und schauen Sie ihn an. Beachten Sie, dass Sie weit hinter Ihrem Finger Doppelbilder von Objekten sehen. Wenn Sie dann auf diese Objekte hinter Ihrem Finger fokussieren, sehen Sie jetzt ein doppeltes Fingerbild.

Der Konflikt

Mit ausreichend präzisen Instrumenten können Sie entweder Vergenz oder Akkommodation verwenden, um zu wissen, wie weit ein Objekt entfernt ist, das eine Person betrachtet. Aber die Sache ist die, Akkommodation und Vergenz passieren automatisch zusammen in Ihrem Auge. Und sie passieren nicht einfach gleichzeitig – es gibt eine direkte Korrelation zwischen Vergenz und Akkommodation, sodass es für jede gegebene Messung der Vergenz ein direkt entsprechendes Maß an Akkommodation gibt (und umgekehrt). Seit Sie ein kleines Baby waren, haben Ihr Gehirn und Ihre Augen ein Muskelgedächtnis entwickelt, um diese beiden Dinge zusammen passieren zu lassen, ohne nachzudenken, wann immer Sie etwas ansehen.

Aber bei den meisten heutigen AR- und VR-Headsets sind Vergenz und Akkommodation aufgrund inhärenter Einschränkungen des optischen Designs nicht synchron.

In einem einfachen AR- oder VR-Headset gibt es ein Display (das beispielsweise 3 Zoll von Ihrem Auge entfernt ist), das die virtuelle Szene zeigt, und eine Linse, die das Licht vom Display auf Ihr Auge fokussiert (genau wie die Linse in Ihr Auge würde normalerweise das Licht der Welt auf Ihre Netzhaut fokussieren). Da sich das Display jedoch in einem statischen Abstand von Ihrem Auge befindet und die Form der Linse statisch ist, kommt das Licht aller auf diesem Display angezeigten Objekte aus derselben Entfernung. Selbst wenn also fünf Meilen entfernt ein virtueller Berg und fünf Zoll entfernt eine Kaffeetasse auf einem Tisch steht, tritt das Licht von beiden Objekten im gleichen Winkel in das Auge ein (was bedeutet, dass sich Ihre Akkommodation – die Biegung der Linse in Ihrem Auge – nie ändert ).

Das steht im Konflikt mit der Vergenz bei solchen Headsets, die – weil wir jedem Auge ein anderes Bild zeigen können – variabel ist. In der Lage zu sein, die Vorstellung für jedes Auge unabhängig anzupassen, sodass unsere Augen auf Objekte in unterschiedlichen Tiefen konvergieren müssen, ist im Wesentlichen das, was den heutigen AR- und VR-Headsets Stereoskopie verleiht.

Aber die realistischste (und wohl bequemste) Anzeige, die wir erstellen könnten, würde das Problem der Vergenz-Anpassung beseitigen und die beiden synchron arbeiten lassen, genau wie wir es in der realen Welt gewohnt sind.

Als Lösung für dieses Problem werden Displays mit variabler Brennweite – solche, die ihre Fokustiefe dynamisch ändern können – vorgeschlagen. Es gibt eine Reihe von Ansätzen für Displays mit variabler Brennweite, von denen vielleicht das einfachste ein optisches System ist, bei dem das Display physisch vom Objektiv vor und zurück bewegt wird, um die Brennweite im Handumdrehen zu ändern.

Um eine solche aktivierte Vario-Anzeige zu erreichen, ist Eye-Tracking erforderlich, da das System genau wissen muss, wohin der Benutzer in der Szene schaut. Indem es von jedem Auge des Benutzers einen Pfad in die virtuelle Szene verfolgt, kann das System den Punkt finden, an dem sich diese Pfade schneiden, und die richtige Fokusebene festlegen, auf die der Benutzer blickt. Diese Informationen werden dann an das Display gesendet, um es entsprechend anzupassen und die Fokustiefe so einzustellen, dass sie der virtuellen Entfernung vom Auge des Benutzers zum Objekt entspricht.

Ein gut implementiertes Display mit variabler Brennweite könnte nicht nur den Vergenz-Akkommodations-Konflikt beseitigen, sondern es den Benutzern auch ermöglichen, sich auf virtuelle Objekte zu konzentrieren, die viel näher an ihnen sind als bei bestehenden Headsets.

Und lange bevor wir Displays mit variabler Brennweite in VR-Headsets einbauen, könnte Eye-Tracking für eine simulierte Tiefenschärfe verwendet werden, die die Unschärfe von Objekten außerhalb der Brennebene der Augen des Benutzers annähern könnte.

Foveierte Displays

Während das foveierte Rendering darauf abzielt, die Rendering-Leistung besser zwischen dem Teil unseres Sehvermögens zu verteilen, in dem wir scharf sehen können, und unserem peripheren Sehen mit geringen Details, kann etwas Ähnliches für die tatsächliche Pixelanzahl erreicht werden.

Anstatt nur die Details des Renderings auf bestimmten Teilen des Displays gegenüber anderen zu ändern, sind foveierte Displays solche, die physisch bewegt werden, um vor dem Blick des Benutzers zu bleiben, egal wohin er schaut.

Foveated-Displays öffnen die Tür zum Erreichen einer viel höheren Auflösung in VR-Headsets, ohne das Problem brutal zu erzwingen, indem versucht wird, Pixel mit höherer Auflösung über unser gesamtes Sichtfeld zu stopfen. Dies wäre nicht nur kostspielig, sondern stößt auch auf herausfordernde Leistungsbeschränkungen, da sich die Anzahl der Pixel der Netzhautauflösung nähert. Stattdessen würden foveierte Displays basierend auf Eye-Tracking-Daten ein kleineres, pixeldichtes Display dorthin verschieben, wo der Benutzer hinschaut. Dieser Ansatz könnte sogar zu höheren Sichtfeldern führen, als sie ansonsten mit einem einzigen flachen Display erreicht werden könnten.

varjo-Beispiel-640x386

Varjo ist ein Unternehmen, das an einem foveierten Anzeigesystem arbeitet. Sie verwenden ein typisches Display, das ein breites Sichtfeld abdeckt (aber nicht sehr pixeldicht ist), und legen dann ein Mikrodisplay mit einer viel höheren Pixeldichte darüber. Die Kombination der beiden bedeutet, dass der Benutzer sowohl ein breites Sichtfeld für sein peripheres Sehen als auch einen Bereich mit sehr hoher Auflösung für sein foveales Sehen erhält.

Die neuesten Prototypen von Varjo bewegen derzeit das kleinere Display nicht (es hängt nur in der Mitte des Objektivs heraus), aber das Unternehmen hat eine Reihe von Methoden zum Bewegen des Displays in Betracht gezogen, um sicherzustellen, dass sich der hochauflösende Bereich immer in der Mitte Ihres befindet Blick.

Fortsetzung auf Seite 2 »