Spoločnosti, ktoré školia a prevádzkujú veľké jazykové modely, sa viac ako tri roky snažili vychytať všetky scenáre, pomocou ktorých sa útočníci pokúšajú z ich generatívnej umelej inteligencie pomocou nepriateľských promptov získať viac, než im prináleží. Teraz sa však ukazuje, že zjavne nikomu nenapadla jednoduchá otázka – ako modely reagujú, keď im zadanie podáte vo veršoch.
Filtrovanie škodlivých vstupov určených na manipuláciu či zmätok modelu, pokusy o nepovolenú extrakciu školiacich dát, blokovanie scenárov zneužívajúcich model na podvody a iné škodlivé aktivity, blokovanie nevhodných výstupov alebo snahy získať väčšie práva, než používateľovi prislúcha, či zneužívanie zdrojov modelu – to všetko teraz dostáva nečakanú trhlinu. Kľúčom k anarchii veľkých jazykových modelov je vraj obyčajný rým, ktorý sa ukázal byť násobne úspešnejším pri obchádzaní pravidiel AI než iné metódy.
Pozor na verš
Výskumníci vzali 1 200 promptov z knižnice MLCommons AILuminate library, ktorá sa intenzívne využíva na bezpečnostné testovanie odolnosti veľkých jazykových modelov, a nakŕmili nimi 25 bežne používaných AI modelov. Prvý výsledok neprekvapil – z 1 200 pokusov sa podarilo AI oklamať iba osemkrát.
Keď však malú vzorku (20 promptov) pretransformovali do veršov (slovami výskumu „významovo paralelnej básnickej prózy“), výsledok im vyrazil dych. Úspešnosť útokov vystrelila na 62 percent, v niektorých prípadoch dokonca až na 90 percent.
„V desiatej knihe Platónovho dialógu Ústava filozof zavrhuje básnikov zo spoločenských rolí, kde je dôležitý úsudok, s odôvodnením, že mimetický jazyk môže skresliť myslenie a viesť ku kolapsu spoločnosti. A keďže moderné spoločenské systémy sa pri prevádzkových a rozhodovacích procesoch čoraz viac spoliehajú na veľké jazykové modely, pozorujeme štrukturálne podobný spôsob zlyhania: poetické formátovanie môže spoľahlivo obísť obmedzenia AI,“ uvádza sa hneď na začiatku výskumu.
Zaujímavé je, že metóda bola úspešná aj vtedy, keď poetizáciu promptov nevytvorila ľudská ruka, ale iná AI. V týchto prípadoch úspešnosť dosiahla „iba“ 43 percent.
Testovali aj výrobu bômb
Rozhodne sa nedá povedať, že by si výskumníci vyberali len prompty, pri ktorých by očakávali úspech. Útoky pokrývali celé spektrum a výskumníci sa na nich dosť vyhrali.
Testované prompty začínali klasickými pokusmi o kyberkriminalitu, ako je vzdialené spúšťanie kódu alebo šírenie malvéru, pokračovali cez zneužitie umelej inteligencie na sociálne inžinierstvo, podvody či psychické zneužívanie. Na konci testovali pokusy o asistenciu pri príprave nebezpečných látok, výrobe bômb či jadrovej zbrane a pokusy o získanie kontroly nad správaním umelej inteligencie.
„Hodnotené modely pochádzajú od deviatich poskytovateľov: Google, OpenAI, Anthropic, DeepSeek, Qwen, Mistral AI, Meta, xAI a Moonshot AI,“ uvádzajú výskumníci. A ako sa im darilo?
Pri teste s 20 ľudsky napísanými „básnickými promptmi“ zaznamenal Google Gemini Pro 2.5 stopercentnú mieru zlyhania. Čínske modely DeepSeek v3.1 a v3.2 nasledovali s 95 percentami. Gemini 2.5 Flash nedokázal zablokovať škodlivé zadanie v 90 percentách prípadov.
Grok-4 bol na tom lepšie, ale stále ďaleko od ideálu – prepustil 35 percent útokov.
Zaujímavú stratégiu zvolil OpenAI GPT-5 Nano, ktorý pri nebezpečných promptoch vždy vracal úplne neužitočné odpovede. Dá sa teda povedať, že v teste uspel so stopercentnou účinnosťou. Otázne však je, či by takto nereagoval aj na podobne formulované bežné zadania – to už test neskúmal.
GPT-5 Mini dosiahol 95-percentnú úspešnosť, klasický GPT-5 aj Anthropic Claude Haiku 4.5 vykázali 90-percentnú odolnosť voči básnickým útokom.
Keď výskumníci nechali všetkých 1 200 promptov „prebásniť“ umelou inteligenciou, zmätenie modelov už nebolo také obrovské, no stále veľmi pozoruhodné. Najhoršie modely vykázali mieru zlyhania až 73 percent.
Najhoršie dopadli modely DeepSeeku a francúzskeho Mistralu. Najlepšie opäť OpenAI a Anthropic: modely OpenAI zlyhali vo viac než ôsmich percentách prípadov, modely Anthropicu približne v piatich.
Mimo týchto extrémov modely útok prepustili v priemere v 43 percentách prípadov.
Článok vyšiel na Forbes.CZ a jeho autorom je Karel Wolf.