Mehr als 140 Hersteller von humanoiden Robotern konnte ich für mein kommendes Buch bislang identifizieren, etwa 30 Hersteller waren auf der CES 2026 in las Vegas mit 40 Humanoiden vertreten, dazu nochmals so viele Firmen, die Roboterkomponenten für diese herstellen. Und nun kündigte Tesla-Chef Elon Musk an, dass er in der Fabrik in Fremont die Produktion des Elektrofahrzeuge Model S und Model X einstellen wird, damit er dort seinen eigenen humanoiden Roboter, den Tesla Optimus, fertigen lassen kann.
Der Wettbewerb ist bereits in vollem Gang, er verschärft sich, und die Messer fliegen tief. Nichts macht das deutlicher, als die neuen Videos, die das gerade mal 3,5-Jahre alte und in San José beheimatete Startup Figure.AI veröffentlichte. In dem Video sehen wir die dritte Generation der humanoiden Roboter, den Figure 03, als Küchenhelfer. Er öffnet und räumt einen Geschirrspüler aus, schlichtet Teller und Gläser in ein Regal, und füllt den Geschirrspüler mit Gläsern und Tellern, fügt eine Waschmitteltablette hinzu und schließt die Tür des Geschirrspülers. So weit so gut.
Doch zugleich ist dieses Video auch ein beeindruckende Antwort auf eine andere Roboterfirma, deren Zentrale nur wenige Kilometer von Figure.AI entfernt liegt, und die vor drei Monaten viel Interesse der Öffentlichkeit erregt hat. 1X Technologies in Palo Alto hatte den NEO Gamma Humanoiden vorgestellt und als Companion und Haushaltshelfer angepriesen. Die schnittigen Promo-Videos ließen alles gut aussehen, doch das Wall Street Journal war nach einem mehrstündigen Test skeptischer. Der von einem menschlichen Operator ferngesteuerte NEO Gamma zeigte rasch seine Grenzen und Ungeschicklichkeit im Umgang mit eben einem Geschirrspüler.
Ich konnte somit nicht anders, als Ausschnitte aus den beiden Videos gegenüberzustellen, und zu zeigen, wie die Figure 03 und der NEO Gamma dieselbe Aufgabe ausführen. Die beiden Videos weisen gerade mal drei Monate Zeitunterschied auf, und zeigen deutlich die Unterschiede und den Fortschritt in so kurzer Zeit.
Ausgewählt habe ich den Teil aus den Videos, wo sie, nachdem sie einen Geschirrspüler befüllt haben, ihn schließen.
- Der NEO Gamma von 1X Technologies führte diese Aufgabe Ende Oktober 2025 aus, wobei ein menschlicher Bediener den Humanoiden ferngesteuert hat -> siehe dazu diesen Beitrag
- Der Roboter Figure 03 mit einem Helix 02 VLA-Modell führte diese Aufgabe Ende Januar 2026 ohne menschlichen Bediener aus -> siehe dazu diesen Beitrag
Was macht den Figure 03 nun so speziell? Warum kann er, was der NEO Gamma nicht kann?
Das erklärt Figure auf deren Website. Das Betriebssystem, oder korrekter gesagt, Vision-Language-Action-Modell (VLA), Helix 02 kümmert sich um die Bewegung von Ober- und Unterkörper, der Manipulation der Objekte mit den Händen, die Bewegung durch den Raum und die Analyse von einer Menge an Sensordaten gewährleistet, integriert und gleichzeitig ablaufen lässt.
Es handelt sich bei Helix 02 um ein neuronales Netz, das mit tausenden Stunden an Videodaten an solchen Haushaltsaufgaben trainiert worden ist. Figure unterscheidet dabei drei Systeme:
System 0 (S0): arbeitet mit einer Frequenz von 1 kHz und ist für das Gleichgewicht, den Kontakt und die Koordination des gesamten Körpers zuständig.
System 1 (S1): denkt schnell und übersetzt Wahrnehmungen mit einer Frequenz von 200 Hz in Ziele für die Gelenke des gesamten Körpers.
System 2 (S2): denkt langsam über Ziele nach: Szenen interpretieren, Sprache verstehen und Verhaltensweisen in eine Reihenfolge bringen. Es übersetzt einen Satz wie „Trage die Schüssel zur Spüle“ in kleinere Einzelschritte wie bspw. „Fasse die Schüssel mit den Händen, drehe den Körper um 90 Grad, identifiziere wo sich die Spüle befindet, gehe zur Spüle, reiche mit den Armen in die Spüle und setze die Schüssel vorsichtig ab.„
Die Fähigkeit des Figure 03 mit Helix 02 kommt nun auch dank der Einbeziehung von Sensordaten aus den Fingern zustande. Auf der schon erwähnten Website sind Videos mit und ohne der Berücksichtigung der Fingersensordaten zu sehen. Das folgende Video zeigt den Figure 03 bei der Manipulation von zerbrechlichen Gläsern, das ohne die Fingersensoren zu einem zerbrochenen Weinglas geführt hätte.
Jedenfalls sind die Fortschritte in der Robotik gewaltig. Aufgaben, die für sie vor drei Monaten noch als unmöglich durchzuführen wirkten, bei denen die Humanoiden als ungeschickt und mehr Probleme schaffend denn lösend erschienen, können sie nun recht zügig und geschickt durchführen. Und dabei stehen wir erst am Anfang der Entwicklung humanoider Roboter. Wie schon bei (generativer) künstlicher Intelligenz, die vor drei Jahren noch halluzinierte und viele Fehler produzierte, sind wir heute erstaunt, welche Aufgaben KI heute bereits zu lösen vermag.

