Dobrá AI v boji so zlou? Zatiaľ sú hejtermi najmä ľudia, vraví šéf startupu TrollWall

Zakladatelia TrollWall, zľava Tomáš Halász, Tomáš Koctúr, Pavol Bujňák, Filip Strýčko. Foto: TrollWall

Dobrá AI v boji so zlou? Zatiaľ sú hejtermi najmä ľudia, vraví šéf startupu TrollWall

TrollWall automaticky identifikuje a odstraňuje nenávistné komentáre na sociálnych sieťach. Jeho spoluzakladateľ a CEO Tomáš Halász približuje, ako funguje „dobrá umelá inteligencia“ a vraví, že doba, keď sa nenávisť šíri vďaka „zlej AI“, u nás ešte nenastala. TrollWall nedávno získal špeciálne ocenenie hodnotiacej komisie v súťaži AI Awards – Dôveryhodná AI.

Príbeh TrollWallu sa začal na jar 2022, spomína Halász. „Moderoval som vtedy diskusie na viacerých stránkach, vrátane iniciatívy Kto pomôže Ukrajine. Prichádzalo veľa nenávistných komentárov, toľko, že sme ich spolu s dobrovoľníkmi nestačili skrývať ručne. Oslovil som preto kamarátov z IT sektora, vrátane dnešného head of AI v TrollWalle Tomáša Koctúra. Tomáš má PhD v dátovej vede, tak som mu vravel: ,Sprav niečo, čo tú prácu bude robiť za mňa.‘“

Od začiatku vedeli, že nebudú môcť použiť nejakú verziu jednoduchého filtrovania na základe kľúčových slov. „Také niečo dokážu ľudia veľmi ľahko obísť, hejt totiž vie byť veľmi kontextový. Naša AI už dokáže rozoznať aj to, že ak niekto napíše ,Chovám doma potkana‘, tak je to v poriadku, ale keď napíše ,Ukrajinci sú potkany‘, ide o nenávistný prejav. Deteguje ho a príspevok skryje.“

Vlastný jazykový model

S vývojom začali ešte krátko pred príchodom ChatGPT. „Aj náš softvér patrí medzi NLP, teda natural language processing, máme však vlastný model. Nepoužívame žiadnu API, k žiadnemu softvéru sa nepripájame, vyvíjame si všetko sami,“ zdôrazňuje CEO hneď v úvode.

Softvér TrollWall dostane text a podľa toho, ako je naučený, rozhodne, či ide o nenávistný alebo vulgárny prejav. Reagovať dokáže v milisekundách, vraví Halász, je oveľa menší ako ChatGPT, oveľa menej náročný na energiu a procesor. „A zároveň nikdy nehalucinuje, nie je to taký typ AI.“

Pri „čistení“ sociálnych médií neberie model ohľad na to, kto príspevok napísal. „Nerobí žiadny profiling, rieši iba to, čo je napísané,“ približuje CEO. „Pri definícii nenávistného prejavu vychádzame z medzinárodných štandardov, ktoré ich definujú ako útok na osobu alebo skupinu na základe identity, presvedčenia, sexuálnej orientácie, postihnutia, národnosti a podobných čŕt.“

Dáta: komentáre z Facebooku

Tréning modelu založili na databáze reálnych komentárov z Facebooku, ktoré anotovali ľudia z – nateraz – šiestich krajín, v ktorých TrollWall pôsobí. „Tím je rôznorodý vekovo aj z pohľadu pohlaví. Všetky dáta prejdú minimálne traja ľudia. Ak sa zhodnú, pokračujú dáta ako vstup do AI. Je to dôležité, aby v systéme nevznikal bias, predpojatosť.“

Trollwall získal cenu AI Awards — TrollWall získal špeciálne ocenenie komisie AI Awards – Trustworthy AI. Vpravo Pavol Bujňák, vľavo zakladateľka Kempelenovho inštitútu inteligentných technológií Mária Bieliková. Foto: Marek Mucha

Zozbierané komentáre vopred anonymizovali a vďaka postupnému pridávaniu spätnej väzby od anotátorov zvyšovali presnosť softvéru. Prístup k trénovacím dátam ani k modelom AI užívatelia nemajú, čo podľa startupu odstraňuje riziko zneužitia systému. Softvér sa tiež neučí samostatne, ale iba na základe ľuďmi vytvorených datasetov, čo má spolu s manuálnym nasadením znížiť riziko zneužitia.

Nenávisť vyjadrí aj emoji

S updatom databáz prichádzajú dvakrát mesačne. „Prichádzajú nové formy prejavov, a to aj nenávistných. Slovo „pliaga“ napríklad pred časom takmer nebolo používané, potom sa zrazu rozšírilo,“ vraví Halász. „Ak ale niekto označí skupinu osôb za pliagu, tak ide o dehumanizáciu.“

Softvér sa snaží vychytávať aj špecifické prípady, „rozumie“ aj emoji, napríklad spomínanému potkanovi. „Dokonca, jeden hejter používal v rámci slov aj grécke písmeno pi a AI ho pochopila,“ vraví CEO.

Oproti ľudským moderátom pracujúcim v reálnom čase je model rýchlejší a v porovnaní s kolektívom ľudí s odlišnou citlivosťou na sarkazmus či iróniu si spoľahlivejšie drží nastavenú líniu. „Softvér je škálovateľný, vie vyhodnotiť desať- až stotisíce komentárov za sekundy, počas histórie používania skontroloval milióny komentárov a skryl milióny nenávistných príspevkov,“ vraví Halász.

Podpora pre šesť jazykov

Aktuálne TrollWall podporuje slovenčinu, češtinu, nemčinu, angličtinu, rumunčinu a v posledných týždňoch spúšťa španielčinu. „Vždy platilo, že sme mali lokálnych anotátorov, pre nemčinu napríklad aj „východného“ aj „západného“ Nemca aj Rakúšanku, španielčinu sme zasa trénovali aj pre kontext Latinskej Ameriky,“ približuje CEO.

Aj kultúrny kontext, ktorý sa odráža v metaforách či idiómoch, je v rôznych jazykoch odlišný. „Slovné spojenie ,hodiť si mašľu‘ v angličtine nedáva zmysel, no u nás áno. Aj takéto nuansy naša AI chápe vďaka kvalitnému trénovaniu lokálnymi anotátormi,“ vraví Halász. Jej úroveň posudzujú podľa neho najmä klienti: „Zatiaľ nám žiadny neodišiel, naopak, prichádzajú od konkurencie.“

Armáda, prezidentské kancelárie, korporáty

Klientmi sú nielen médiá, ale najrôznejšie firmy, ktorým záleží na reputácii a nechcú mať nenávistné prejavy na svojich sociálnych sieťach. „Armáda, policajný zbor v Česku, desiatky mimovládnych organizácií, ktoré podporujeme bezplatne, O2, banky poisťovne, tri prezidentské kancelárie, politické strany, festival Pohoda či nedávno majstrovstvá sveta v hokeji,“ vypočítava CEO.

Kým získali dôveru od trojice prezidentských kancelárií či armády, prezreli si ich títo zákazníci skutočne dôkladne, vraví Halász a dodáva, že previerky možno brať aj ako cennú referenciu. „Znakom kvality je ale napokon aj to, že viac ako 80 percent klientov si platí ročné predplatné,“ dodáva.

Pol milióna od investora

V podobe firmy vznikol TrollWall v marci minulého roka, aktuálne majú deväť zamestnancov a k nim kontraktorov (lingvistických expertov získavajú vďaka partnerom). Prevádzku najprv financovali z príjmov, na konci minulého roka získali investíciu 500-tisíc eur od slovenského fondu CB ESPRI Impact One, ktorý sa venuje podpore firiem s pozitívnym spoločenským dopadom, hovorí Halász.

Expandovať začali tento rok. „Diskutujeme s klientmi z Ázie aj s krajinami z Európy s menším počtom obyvateľov. Vidíme, že už dnes nás firmy berú ako základný nástroj na ochranu reputácie,“ vraví CEO.

„Keďže máme vlastné AI modely a dáta, dlhodobá vízia a jedna z možných stratégií exitu je taká, že ich predáme, prípadne predáme aj celú firmu, a to buď platforme, alebo veľkej medzinárodnej firme, ktorá podporuje medzinárodné jazyky, ale nie lokálne.“

Zatiaľ hejtujú hlavne ľudia

Práce však dovtedy iste bude dosť, odhaduje Halász, keďže postupne zrejme prichádza doba nasadenia AI aj na šírenie nenávistných príspevkov na sociálne platformy. „Predpoklad, že sa rozšírenie hate speech v dobe hybridných informačných vojen posilní, tu je,“ vraví CEO.

„Zatiaľ ale stále platí, že väčšina nenávistných príspevkov prichádza od konkrétnych ľudí pod ich menami či prezývkami. V spoločnosti sa také správanie totiž stalo štandardom.“

V analýze vyše 400 facebookových profilov a vyše 7 miliónov komentárov vyšlo TrollWallu, že asi každý ôsmy komentár je nenávistný alebo vulgárny. „To je enormné číslo, ktoré sa na stránkach médií či politikov ešte viac zvyšuje,“ zdôrazňuje Halász.

Najviac klientov na Facebooku

TrollWall aktuálne funguje na Facebooku, Instagrame, YouTube a TikToku, najviac klientov má zatiaľ na Facebooku. „Sme oficiálna aplikácia, cez API máme prístup na Facebook. Prešli sme veľmi komplikovaným spôsobom schvaľovania, trvalo niekoľko mesiacov, kým sme niektoré povolenia získali. Samozrejme, kontrolovali tiež, či sme reálna firma a preverovali aj mnoho ďalších aspektov.“

Existujú už dnes ustálené postupy, ktoré charakterizujú dôveryhodnú umelú inteligenciu? „Na trhu sa povedomie o probléme postupne formuje,“ odpovedá Halász. „Aj komisia AI Awards už analyzovala viaceré etické a technické otázky, spojené s vývojom softvéru.“

Investori už podľa neho tiež lepšie chápu, čo všetko si žiada správne nasadenie AI softvéru. „Pre nás je zásadné, že nepoužívame externé technológie, nad ktorými nemáme kontrolu,“ opakuje CEO. „Ak to totiž robíte, ani neviete, ako vaše riešenie funguje, posielate niekam iba prompty a dáta, ale dôveryhodnosť vášho riešenia je predsa aj o tom, že ako firma máte kontrolu od začiatku do konca.“

Tempo zrýchľuje

Aktuálne začína TrollWall podľa Halásza pripravovať ďalšie investičné kolo potrebné na expanziu, marketing a sales. „Technologicky sme sa už posunuli rapídne, slovenčinu sme trénovali deväť mesiacov, teraz nám jazyk trvá šesť týždňov. V krajinách, do ktorých expandujeme, zatiaľ veľa konkurencie nemáme.“

Na záver ešte jedna otázka zo strany kritikov či skeptikov. Nehrozí „cenzúra“ alebo „sterilizácia“ diskusií na sieťach? „Na webovom interface vidia klienti všetky komentáre, dokonca aj tie ukryté,“ vraví Halász a tvrdí, že sa už „prakticky nedeje, že by potrebovali obnoviť komentár, ktorý bol skrytý omylom.”

Vyhľadávanie…

Nenašli sa žiadne výsledky, skúste použiť iné kľúčové slovo!

Alebo skúste preskúmať témy

Hrdo vpred