Ce n’est pas la première fois que Figure.AI, une start-up robotique de Sunnyvale, impressionne avec ses robots bipèdes et bi-manuels. Une première vidéo, dans laquelle le robot Figure 01 parle à un humain et effectue des tâches pour lui, montrait déjà la voie à suivre. Si ce robot était à l’époque encore intégré à un modèle de langage d’OpenAI, la startup fait maintenant la démonstration de son propre modèle de langage et d’action basé sur la vision, appelé Helix.
La vidéo suivante, publiée par le CEO de Figure Brett Adcock, montre deux robots Figure auxquels on présente quelques objets qu’ils n’ont jamais vus auparavant et qu’ils doivent classer en conséquence. Ils ont le choix entre un réfrigérateur, un tiroir, un plateau et un bol. Les deux robots se passent également l’un à l’autre les différents objets comme des paquets de biscuits, une bouteille de ketchup ou une pomme.
Ce qui est particulièrement frappant, c’est la manière dont les deux robots communiquent entre eux de manière presque humaine, en hochant la tête et en se regardant. Ce comportement n’est pas le fruit du hasard. Dans la présentation du modèle Vision-Language-Action (modèle VLA) Helix, il est mentionné comme une fonction de conception intégrée. En voici quelques détails :
- Contrôle de l’ensemble du torse : Helix est le premier VLA qui permet un contrôle continu à grande vitesse de l’ensemble du torse humanoïde, y compris les poignets, le torse, la tête et les doigts individuels.
- Collaboration avec plusieurs robots : Helix est le premier VLA qui fonctionne simultanément sur deux robots, leur permettant d’accomplir une tâche de manipulation commune et de grande envergure avec des objets qu’ils n’ont jamais vus auparavant.
- Ramasser n’importe quoi : Les robots figurines équipés d’Helix peuvent désormais ramasser pratiquement n’importe quel petit objet domestique, y compris des milliers d’objets qu’ils n’ont jamais rencontrés auparavant, en répondant simplement à des invites en langage naturel.
- Un seul réseau neuronal : Contrairement aux approches précédentes, Helix utilise un seul ensemble de poids de réseaux neuronaux pour apprendre tous les comportements – la prise et la dépose d’objets, l’utilisation de tiroirs et de réfrigérateurs et l’interaction inter-robots – sans réglage fin spécifique à la tâche.
- Utilisable commercialement : Helix est le premier VLA qui fonctionne entièrement sur des GPU embarqués à faible consommation d’énergie, ce qui le rend immédiatement prêt pour une utilisation commerciale.
Comme un être humain, Helix comprend le langage, comprend les problèmes et peut saisir n’importe quel objet – et tout cela sans formation ni code. Lors de tests, Helix a pu saisir presque tous les objets ménagers.
