V minulosti museli zločinci fyzicky alebo digitálne preniknúť do firiem, aby ukradli ich obchodné tajomstvo. Teraz môžu jednoducho získať informácie z verejne dostupných veľkých jazykových modelov prostredníctvom destilačných útokov. Riziká sa však zďaleka netýkajú len biznisovej stránky veci, upozorňuje v komentári šéf ČMIS Václav Svátek.
Čína neváha využiť nástroje nekalej konkurencie, ako je priemyselná špionáž vo veľkom meradle. Jeden takýto incident nedávno oznámila spoločnosť Anthropic, ktorá stojí za populárnym modelom Claude. Pravdepodobne však ide iba o špičku ľadovca.
Ako destilačné útoky vôbec fungujú? Ide v podstate o trénovanie slabších modelov na výstupoch od tých kvalitnejších. Je to podobné, ako keď sa malé deti učia od starších súrodencov. Táto metóda sa vo vývoji bežne používa na trénovanie menších, ale stále veľmi schopných jazykových modelov, rýchlejšie a za zlomok ceny.
Problém s takýmito útokmi je však oveľa závažnejší než „iba“ priemyselná špionáž v snahe vytvoriť konkurencieschopnejší model. Rozoberme si riziká jedno po druhom.
Po prvé, čínska priemyselná špionáž prebiehala (a stále pravdepodobne prebieha) v obrovskej škále. Tri AI laboratóriá – DeepSeek, Moonshot a MiniMax – vykonali viac než 16 miliónov interakcií s Claudom prostredníctvom 24-tisíc falošných účtov, čím získali obrovské množstvo cenných dát a, samozrejme, porušili tiež pravidlá používania produktu spoločnosti Anthropic. Zaujímavé je takisto to, že kampaň bola globálna a koordinovaná medzi najväčšími priemyselnými hráčmi.
Po druhé, Claude mohol odovzdať veľké množstvo cenných dát, ktoré doň vložili samotní používatelia. Táto technika sa nazýva prompt injection a má za cieľ vylákať citlivé dáta, ale aj dokumentáciu a citlivé firemné informácie o softvérových aj hardvérových produktoch, ktoré potom môžu slúžiť na spomínanú priemyselnú špionáž či kyberútoky.
Posledným, ale nemenej dôležitým bodom je učenie modelov propagande, čiže schopnosti zamlčiavať alebo upravovať fakty. DeepSeek napríklad po svojom uvedení odmietal odpovedať na politické otázky s tým, že téma je „mimo jeho záberu“, alebo citoval oficiálne vyjadrenia čínskej propagandy. Prostredníctvom destilačných útokov sa však môže učiť oveľa sofistikovanejšiu manipuláciu, ktorá otupí kritické myslenie občanov.
Kde je bájna hlava hydry
Spomínané spoločnosti využívajú takzvané hydra cluster architektúry, čo sú rozsiahle siete podvodných účtov, ktoré rozkladajú prevádzku cez API Clauda aj medzi cloudovými platformami tretích strán. Sieť je decentralizovaná a snaží sa maskovať svoju prevádzku.
Len čo je jeden účet zablokovaný, nahradí ho nový, podobne ako po odseknutí narastie bájnej hydre nová hlava. Navyše, dokáže umne miešať destilačné prompty s nesúvisiacimi požiadavkami zákazníkov, aby sťažila detekciu.
Destilačné útoky predstavujú rastúcu a sofistikovanú hrozbu pre bezpečnosť umelej inteligencie, respektíve národnú bezpečnosť.
Do súvislosti s týmto útokom môžeme dať tiež nedávny prípad odhalenej priemyselnej špionáže v spoločnosti Google. Traja inžinieri zo Silicon Valley, vrátane dvoch bývalých zamestnancov spoločnosti Google, boli obvinení z krádeže obchodných tajomstiev popredných technologických spoločností a ich odovzdania do Iránu.
V neúprosných a podľa mňa už aj nekontrolovateľných pretekoch o vývoj AI, ktorých cieľom je dosiahnutie superinteligentnej AI, sú jednoznačne na špičke USA a Čína. Ako sa však technologické preteky vyvinú, môžeme teraz len odhadovať.