Ešte donedávna ťahal americkú ekonomiku po skončení pandémie mohutný boom v oblasti umelej inteligencie. V posledných týždňoch sa však tento boom pre vlnu pochybností o zmysle veľkých investícií dočasne zastavil. Hlavnou oporou rastu boli masívne objednávky univerzálnych AI GPU – teda veľmi výkonných, zároveň však aj veľmi drahých a energeticky náročných akcelerátorov od Nvidie.
Ich najdôležitejšími konzumentmi sú takzvané hyperscalery, teda obrie americké technologické firmy ako Amazon, Google a Microsoft, ktoré nimi zapĺňajú čoraz monštruóznejšie dátové centrá pre AI a cloud computing. Čo ak sa však skutočná AI revolúcia odohráva inde?
Kde presne? Predsa na periférii, teda presnejšie, v zariadeniach, s ktorými prichádzame do kontaktu omnoho častejšie než s blikajúcimi blackboxmi uzavretými v serverových stojanoch. Patrí medzi ne napríklad mestský semafor, kamera, ktorá vás sleduje pri pohybe mestom, či jednoúčelový robotický pomocník v továrni alebo vo vašej domácnosti.
Reč je o takzvanej edge AI – o mieste, kde sú drahé a náročné špičkové AI akcelerátory vyslovene nevhodné a kde už nejaký čas viacero spoločností – okrem iného juhokórejský DeepX, podporovaný Samsungom – tvrdí, že sú oproti Nvidii vpredu.
Aj keď to môže na prvý pohľad pôsobiť dosť nafúknuto, faktom zostáva, že edge AI sa má k tomu, ako si ju dnes predstavuje väčšina sveta, približne tak, ako sa má čipová architektúra ARM k architektúre x86 (dnes skôr x64).
Silný hráč z Holandska
Zatiaľ čo o víťazstve architektúry x86 nikto nepochyboval, ARM medzičasom potichu ovládol celý nový mobilný segment a dnes si čoraz viac ukrajuje aj z koláča prenosných počítačov.
Nájdeme tu aj iné paralely. Snaha presadiť sa s x86 čipmi na mobilnom poli jednoducho nedávala veľký zmysel – bolo to ako snažiť sa natlačiť slona do škatuľky od topánok. To, že sa tam zmestí mačka, neznamená, že tam dostanete každé zviera. Niečo podobné sa možno práve teraz odohráva v oblasti edge AI, kde dnešní lídri trhu nedokázali škálovať od laboratórneho stola po masovú výrobu.
A práve to je príležitosť pre spoločnosti, ktoré na to idú zo zelenej lúky. Jednu takú tu máme priamo v Európe. Je ňou firma Axelera AI so sídlom v holandskom Eindhovene. Výraznejšie na seba upozornila 21. októbra, keď predstavila nový AI čip určený práve pre edge AI. Nesie symbolický názov Europa a ide o takzvané AIPU (AI processor unit) pre AI výpočty vykonávané na tzv. edge zariadeniach.
Hodí sa aj na spracovanie hlavného fenoménu dneška, teda veľkých jazykových modelov (LLM), a má spotrebu len 45 wattov pri výkone 629 biliónov operácií za sekundu. Inými slovami, znamená to, že prekonáva niektoré produkty spoločnosti Nvidia pri nižšej spotrebe energie a – čo je najdôležitejšie – pri nižších nákladoch v prípade použitia v špecifických scenároch, ako je napríklad počítačové videnie alebo spracovanie spomínaných LLM.
Nefunguje to
Na porovnanie, jej predchodca dosahoval výkon maximálne 214 biliónov operácií pri spotrebe až osem wattov.
„Strávili sme roky snahou ‚natlačiť‘ kremík určený pre hyperscale cloudové dátové centrá alebo mobilné telefóny do náročných reálnych edge AI aplikácií. Výsledkom je hardvér, ktorý vyzerá skvelo na papieri, ale pod tlakom veľmi nefunguje,“ zhrnul na fóre AI Beyond The Edge minulý mesiac generálny riaditeľ a spoluzakladateľ Axelery AI Fabrizio Del Maffeo.
„Existuje obrovský rozpor medzi tým, o čom všetci hovoria, a tým, čo v skutočnosti funguje v reálnom svete,“ dodáva. Prečo tradičný prístup, na ktorom stoja aj technológie Nvidie, v prípade edge AI veľmi nefunguje?
Problém je v tom, že neurónové siete fungujú úplne inak než tradičné počítače postavené na myšlienkach geniálneho matematika a počítačového vedca Johna von Neumanna. Umelá inteligencia strávi sedemdesiat až deväťdesiat percent svojho času násobením matíc a vektorov – a to je celkom dosť.
Tradičný prístup k počítačovým výpočtom, postavený na von Neumannovej architektúre, má však procesor a pamäť oddelené, takže zakaždým, keď je potrebné vykonať výpočet, musia sa dáta neustále prenášať cez čip tam a späť. Tým sa „zbytočne“ míňa omnoho viac energie, než koľko pripadne na samotné „AI“ výpočty.
V prípade cloudových AI riešení pre hyperscalery to zatiaľ príliš neprekážalo, aj keď na enormnú spotrebu AI dátových centier sa už v niektorých štátoch USA začali sťažovať občania, ktorí sa zrazu stretávajú s oveľa drahšími energiami aj s výpadkami siete, ktoré predtým neboli také časté.
Nová Nvidia?
Lenže v prípade edge AI, teda nasadenia na okraji siete, napríklad v IoT, kde zohráva rolu každý miliwatt a milisekunda, je podobná architektúra neuveriteľne neefektívna.
Je teda potrebné pristupovať k tomu inak. V teórii dokonca vieme, ako na to. Z primárneho výskumu už istý čas zaznievajú hlasy, že riešením by mohla byť takzvaná neuromorfná výpočtová technika. A práve medzi jej prvých reálnych priekopníkov patrí Axelera AI.
Jej architektúra Digital In-Memory Computing funguje tak, že umiestňuje pamäťové a výpočtové prvky priamo vedľa seba, na rovnaký blok. Tým prudko znižuje pohyb dát a pritom dosahuje veľmi zaujímavý výkon.
Ak však čakáte, že sa tu rodí nová európska Nvidia, trochu vás sklamem – to ani nie je cieľ. Nejde totiž o to mať celkovo najlepší a najrýchlejší čip na trhu, ale mať technológiu, ktorá bude na rozdiel od nej skvelo optimalizovaná pre jednu úlohu.
Tým je alfa a omega záťaže umelej inteligencie na koncových zariadeniach, teda takzvané vysokovýkonné maticovo-vektorové operácie s nízkou latenciou. Inými slovami: nepotrebujete byť najlepší vo všetkom, keď dokážete byť precízni a konzistentne dobrí v jednom smere.
Článok vyšiel na Forbes.cz a jeho autorom je Karel Wolf.