Google doet het eerste vision-language-action-model (VLA-model) uit de doeken. Door het model kan een robot zichzelf acties aanleren via tekst en afbeeldingen van het internet. Er gaat minder trainingstijd aan de robot verloren, omdat het achterliggende model leert op ongeveer dezelfde manier als mensen.
Het nieuwe VLA-model genaamd RT-2 van Google neemt de complexiteit van het trainen van foundation models voor robots voor een groot deel weg. RT-2 ontwikkeld zichzelf op basis van tekst en afbeeldingen van het internet. Hierdoor kan een robot acties uitvoeren waarop het niet expliciet getraind werd. “Met andere woorden, RT-2 praat robot”, schrijft Vincent Vanhoucke, hoofd van robotics bij Google DeepMind.
Complexer dan een taalmodel
Volgens Vanhoucke is veel eenvoudiger om een taalmodel op te leren. “Hun training gaat niet alleen over, laten we zeggen, alles leren wat er te weten valt over een appel: hoe het groeit, de fysieke eigenschappen, of zelfs dat er zogenaamd een op het hoofd van Sir Isaac Newton is geland.” Een robot moet de informatie om kunnen zetten naar acties en associaties op basis van de informatie kunnen maken: “Een robot moet een appel in zijn context kunnen herkennen, het van een rode bal kunnen onderscheiden, begrijpen hoe het eruitziet en vooral weten hoe hij het moet oppakken.”
RT-2 zou tot deze dingen in staat zijn. Dat is niet zo voor iedere situatie, maar het kon in 62 procent van de geteste ‘nieuwe’ scenario’s actie ondernemen en handelingen doen die het niet aangeleerd kreeg. Het presteerde daardoor dubbel zo goed als het voorgaande model, RT-1. Daar is een kleine kanttekening aan die wordt opgenomen in de technische paper over RT-2. De onderzoekers geven daar namelijk aan dat de robot geen acties kan uitvoeren die het niet aangeleerd kreeg, maar dat de nieuwe acties steeds parodieën zijn op aangeleerde acties.
“Hoewel er nog enorm veel werk aan de winkel is om behulpzame robots in mensgerichte omgevingen mogelijk te maken, laat RT-2 ons zien dat een opwindende toekomst voor robotica binnen handbereik ligt”, besluit Vanhoucke.
Tip: Google wil applicatieontwikkeling uitbesteden bij autonome robots