Zakladatelia Generalistu veria, že majú nástroj, ako naučiť roboty improvizovať. Stojí robotika na prahu svojho vlastného „ChatGPT momentu“?
Robot, ktorý pripomína kraba s dlhými ramenami a klepetami na koncoch, nemal zdvíhať žiadne vrecko. Jeho úlohou bolo vykonávať jednu monotónnu činnosť: otvárať plastové vrecká na dopravnom páse a vkladať do nich plyšiaka, kvetinu v kvetináči.
Potom sa však jedna z plyšových hračiek zasekla. Robot sa na chvíľu zastavil – akoby zvažoval, čo ďalej –, a potom urobil niečo, na čo nebol naprogramovaný. Zodvihol druhú ruku, uchopil druhú stranu vrecka a rýchlo s ním zatriasol, aby hračka skĺzla až na dno.
Potom ho vrátil späť na pás. V prípade ľudského robotníka pri páse by to nebolo nič zvláštne – jednoduché riešenie, bezmyšlienkovité zapojenie svalovej pamäte. Pre vývojárov v spoločnosti Generalist, startupu zo Silicon Valley, ktorý vyvíja „mozgy“ robotov, to bol prelomový moment: robot neopakoval len vopred naprogramovanú úlohu. Improvizoval.
Práve tieto druhy „vznikajúceho“ správania sú dôvodom, prečo Pete Florence, generálny riaditeľ Generalistu, verí, že robotika sa blíži k svojmu „ChatGPT momentu“.
Florence, ktorý okrem iného viedol PaLM-E, jednu zo základných robotických štúdií Googlu, založil Generalist so svojím vtedajším kolegom Andym Zengom a trojicu doplnil Andrew Barry, robotik zo spoločnosti Boston Dynamics. Dlhý čas sa tento robotický startup držal mimo veľkej pozornosti.
Vlani však získal investíciu vo výške 140 miliónov dolárov pri valuácii 440 miliónov dolárov. Medzi investorov sa zaradili fondy ako Spark Capital, NVentures spoločnosti Nvidia alebo Bezos Expeditions zakladateľa Amazonu.
Skladanie bielizne
Teraz Generalist vydáva nový model s názvom GEN-1 a Florence tvrdí, že môže pomôcť bežným robotom zvládať širšiu škálu úloh vyžadujúcich vysokú obratnosť, ktoré obvykle vykonávajú ľudia – a spomína napríklad skladanie bielizne alebo balenie viacerých rôznych typov predmetov do jednej krabice.
Okrem toho však vraj roboty vďaka novému modelu zvládnu improvizovať v chaotických a nepredvídateľných, výnimočných prípadoch, ktoré ich v minulosti vždy zaskočili. „To, čo sa teraz deje v robotike, je podobné situácii, keď ľudia spustili GPT-3 a požiadali ho, aby im vymyslel básničku,“ hovorí Florence pre Forbes.
Tá básnička predtým neexistovala, no ChatGPT ju pre nich vymyslel. Na dosiahnutie toho je potrebná improvizačná úroveň inteligencie. To, čo robíme, je niečo podobné – len prenesené na robotiku a ďalšie oblasti.“
Roboty ako jazykový model
Florencova téza je jednoduchá, nákladná a (do istej miery) aj overená: prestaňte s robotikou pracovať ako so zákazkovým strojom a začnite s ňou robiť ako s veľkým jazykovým modelom.
Je to rovnaká téza, ktorá priniesla dramatický rozmach schopností generatívnej umelej inteligencie v ChatGPT – s tým rozdielom, že textové dáta, na ktorých sú školené veľké jazykové modely, boli nahradené dátami od robotov.
Generalist
Pete Florence a Andy Zeng, Generalist
A to s cieľom stavať stále väčšie modely, kŕmiť ich tonami dát, neúnavne iterovať a veriť (alebo dúfať), že sa objavia nové schopnosti. „Robíme všetko, čo treba, aby sme rástli,“ hovorí Florence.
Nielen salto a tanec
Po rokoch, keď roboty hrali druhé husle za softvérom, sú v Silicon Valley opäť v móde. Generálny riaditeľ spoločnosti Nvidia Jensen Huang túto najnovšiu vlnu robotického šialenstva spustil, keď vlani vyhlásil, že roboty vstupujú do éry ChatGPT.
Odvtedy je internet zaplavený videami humanoidných robotov predvádzajúcich saltá vzad, breakdance a skoky cez kozu. Medzitým sa však väčšina robotov v reálnom svete stále stretáva s úlohami mimo starostlivo definované rámce.
ChatGPT síce vie napísať kód a šablónové e-maily, no roboty stále nevedia pripraviť obed, rozvážať jedlo ani prevádzkovať továrne bez armády ľudských pestúnok.
Hardvér plus AI
Prístup startupu Generalist je podobný ako jej väčšieho konkurenta, spoločnosti Physical Intelligence (ktorá má aj niekoľkonásobne vyššiu valuáciu) – a to spojiť hotový robotický hardvér s AI modelmi založenými na transformátoroch z rovnakej rodiny ako tie, ktoré stoja za ChatGPT.
V jednej veci sa takmer všetci v robotike zhodujú: zber dát je zásadným úzkym hrdlom. Veľké jazykové modely sa môžu učiť na rozsiahlom korpuse internetu. Roboty to nedokážu. Pre fyzickú prácu neexistuje Wikipédia, nemožno z internetu vytiahnuť príkaz „ak sa hračka nezmestí do tašky, skúste s ňou zatriasť“.
Teleoperácia
Najbežnejším riešením je preto teleoperácia: objemné zariadenia, ktoré umožňujú ľuďom diaľkovo ovládať robotické systémy s cieľom generovať trénovacie dáta. Konkurent Physical Intelligence sa na tento prístup silne spolieha a pre tréning buduje inscenované prostredia, ako sú kuchyne a spálne.
Dokonca si prenajali aj miestne ubytovanie cez Airbnb, aby mohli trénovať v reálnom prostredí. V startupe Generalist veria, že našli škálovateľnejšiu alternatívu. Niekoľko rokov pred založením spoločnosti sa co-founder Andy Zeng prechádzal po pláži Newport Beach, keď si všimol, ako niekto zbiera odpadky pomocou jednoduchého uchopovacieho nástroja.
Generalist
Pre Zenga to bol aha moment, keď si položil otázku, či by sa takýto nástroj nedal použiť na generovanie dát na trénovanie robotických klieští. Výsledkom je to, čo Generalist nazýva „data hands“. Sú to zariadenia inštalované na zápästí, ktoré efektívne premenia ľudské ruky na robotické kliešte. Zbierajú vizuálne a senzorické dáta.
Spoločnosť nechce prezradiť, aké dáta presne zbiera a ako ich spracováva, ale tvrdí, že „dátové ruky“ sú dostatočne intuitívne na to, aby sa dali používať v domácnostiach, v skladoch aj na pracoviskách na vykonávanie každodenných úloh.
Dátové ruky
V kanceláriách spoločnosti Generalist v San Mateu tak pracujú operátori „dátových rúk“ bok po boku s výskumníkmi a precvičujú si úlohy, ako je viazanie kytice kvetov alebo manipulácia s elektronikou. Florence vysvetľuje, že výsledkom je dátový súbor, ktorý je taký rozsiahly – teraz má už vyše pol milióna hodín – dostatočne bohatý na to, aby trénoval modely, ktoré dokážu úlohy zovšeobecňovať, namiesto toho, aby si ich iba zapamätali.
„V súčasnosti sú výsledky robotov dobré – s prižmúrenými očami. Roboty dokážu skladať krabice takmer rovnako rýchlo ako ľudia,“ hovorí Florence – s dôrazom na to slovo takmer – a zhruba trikrát rýchlejšie ako konkurenčné systémy.
Primitívny hardvér
Samotný hardvér je však primitívny, s kliešťovými chápadlami, ktoré nemajú eleganciu ľudských rúk s odstávajúcimi palcami. Odpoveď Generalistu je pragmatická: sofistikované ruky sú skvelé, kým nezlyhajú mimo prísne kontrolovaných laboratórnych podmienok – a kliešte dokážu vykonávať pomerne pestrú škálu úloh, ktoré obvykle vykonávajú ľudské ruky.
„Keby ste sa pozreli na model GPT-2, ktorý bol vydaný v roku 2019, boli by ste k nemu tiež veľmi skeptickí,“ hovorí Fraser Kelton, investor v Generalist zo Spark Capital, ktorý predtým viedol produktový tím v OpenAI počas komercializácie modelu GPT-3 a ChatGPT.
„Ale odvtedy, zakaždým keď tieto modely škálovali, boli výnosy z generalizácie obrovské… A úplne zatienili konkurenciu tej doby. Doslova presne to isté sa teraz deje v robotike.“
Bez objavov to nepôjde?
Nie každý súhlasí s hypotézou spoločnosti Generalist, že „v robotike stačí len škálovateľnosť“. Brad Porter, bývalý manažér robotiky v Amazone a teraz generálny riaditeľ Cobot, tvrdí, že robotika stále potrebuje významné pokroky, kým bude možné škálovateľnosť efektívne uplatniť.
„Prosté spracovanie obrovského množstva dát pomocou nedokonalej architektúry je naozaj nákladné a nemusí nutne priniesť požadovaný výsledok,“ vysvetľuje svoj pohľad. „ImageNet nefungoval bez CNN a OpenAI nefungovalo bez učiacich sa transformátorov,“ dodal s odkazom na prelomové objavy, ktoré umožnili vznik modernej AI, ako ju dnes poznáme a používame.
„Škálovanie vždy išlo ruka v ruke s architektonickými prelomami.“
Autorka článku je Anna Tong, Forbes.com