Figure zielt darauf ab, mit dem Modell Helix 02 die Ganzkörperautonomie zu ermöglichen, ein Problem, das in der Technologie der humanoiden Roboter lange Zeit als schwer lösbar galt. Während sich die im letzten Jahr vorgestellte Helix-Architektur eher auf den Oberkörper konzentrierte, vereint Helix 02 Gehen, Balancieren und Objektmanipulation unter einem einzigen, nahtlosen System.
Ganzkörperkontrolle durch ein einziges neuronales Netz
Im Zentrum von Helix 02 steht ein einziges, vereintes neuronales Netz, das den gesamten Körper des Roboters direkt auf Basis von Kamerabildern und Sensordaten steuert. Dank dieser Struktur kann der Roboter langfristige Aufgaben im Raummaßstab ohne jegliches menschliches Eingreifen ausführen.
Das konkretste Beispiel hierfür war eine vierminütige Aufgabe, bei der Helix 02 eine Spülmaschine in einer normal großen Küche aus- und wieder einräumte. Während dieser Zeit führt der Roboter das Gehen, das präzise Greifen von Objekten und das Halten des Gleichgewichts in einem einzigen Fluss aus. Während der Aufgabe erfolgt kein Reset und es ist keine externe Anleitung erforderlich.
Helix 02 nutzt aktiv die neuen Hardware-Fähigkeiten, die mit der Figure 03-Plattform eingeführt wurden. Visuelle Wahrnehmung, taktiles Feedback und propriozeptive Daten sind über ein einziges Visuomotor-Netzwerk mit allen Gelenken des Roboters verbunden. Neben der Hauptkamera sorgen Handflächenkameras und in die Fingerspitzen eingebettete taktile Sensoren für eine wesentlich reichhaltigere Interaktion mit der Umgebung.
Dank dieser Sensoren kann Helix 02 Objekte selbst dann wahrnehmen, wenn sie außerhalb des Sichtfeldes der Hauptkamera liegen. Die taktilen Sensoren in den Fingerspitzen sind so empfindlich, dass sie Kräfte von nur drei Gramm wahrnehmen können. Dies ermöglicht das sichere Halten kleiner Objekte wie Papier oder Büroklammern.
3 kritische Schichten
Die wichtigste Neuerung der Helix 02-Architektur ist die neue Basisschicht namens „System 0“. System 0 wird als ein gelerntes Modell definiert, das mit über 1.000 Stunden menschlicher Bewegungsdaten trainiert wurde und sich auf die Ganzkörperkontrolle konzentriert. Dieses System ersetzt die Koordinationsmechanismen, die zuvor durch 109.504 Zeilen handgeschriebenen C++-Code bereitgestellt wurden.
Dieses neuronale Netz mit etwa 10 Millionen Parametern nimmt alle Gelenkzustände und Körperbewegungen des Roboters als Input auf und erzeugt Steuerungsausgaben auf Gelenkebene mit einer Frequenz von 1 kHz. Der Trainingsprozess findet vollständig in einer Simulationsumgebung statt. Dadurch kann das Modell direkt auf die reale Welt übertragen und zwischen verschiedenen Robotern generalisiert werden.
Helix 02 nutzt auch die in früheren Architekturen verwendeten Schichten System 1 und System 2 in weiterentwickelter Form. System 2 fungiert als Schicht, die die Szene wahrnimmt, Sprache versteht und Aufgaben auf semantischer Ebene plant. Diese Struktur ist nicht mehr nur auf einfache Befehle beschränkt, sondern kann mehrstufige Aufgaben wie das Ausräumen der Spülmaschine oder das Transportieren von Objekten definieren.
Diese semantischen Ziele werden von System 1 mit einer Geschwindigkeit von 200 Hz in Ganzkörper-Gelenkziele umgewandelt. System 1 bewertet den aktuellen Zustand des Roboters unter Verwendung der Daten aller Sensoren und bestimmt die Bewegungen, die System 0 ausführen soll. So entsteht eine integrierte End-to-End-Steuerungskette, die von Pixeln bis zum Drehmoment in den Gelenken reicht.
Einer der bemerkenswertesten Aspekte von Helix 02 ist die Fähigkeit, minutenlange, ununterbrochene Aufgaben fehlerfrei auszuführen. Im Spülmaschinenszenario führt der Roboter insgesamt 61 separate Geh- und Manipulationsaktionen in der richtigen Reihenfolge aus. Er kann beim Tragen von Objekten gehen, beide Arme koordiniert einsetzen und mit der Umgebung interagieren, selbst wenn seine Hände voll sind.
Dasselbe neuronale Netz kann einen Motorsteuerungsbereich verwalten, der vier Größenordnungen abdeckt – von Fingerbewegungen im Millimeterbereich bis hin zu Schritten im Raummaßstab. Dies zeigt, dass das System sowohl präzise als auch groß angelegte Bewegungen unter einem Dach vereinen kann.
Helix 02 bietet auch bei Aufgaben, die Feinmotorik erfordern, erhebliche Fortschritte. Der Roboter kann einen Flaschenverschluss öffnen, ohne ihn zu zerdrücken, eine einzelne Pille aus einer Medikamentenschachtel entnehmen und exakt 5 ml Flüssigkeit mit einer Spritze dosieren. Diese Aufgaben werden durch die kombinierte Nutzung von visueller Wahrnehmung und taktilem Feedback ermöglicht.
Letztendlich sehen wir bei diesem System, dass der Ansatz, Funktionen separat zu betrachten, aufgegeben wird. Stattdessen betrachtet die neue Architektur Gehen, Gleichgewicht und Objektinteraktion als ein einziges, kontinuierliches Verhalten.





