Na začiatku to vyzeralo jednoducho. Umelá inteligencia sa naučí tvoriť texty, odpovedať na otázky, prekladať jazyky či navrhovať kód. Ale ako rástli očakávania od veľkých jazykových modelov ako ChatGPT či Gemini, narazili sme na hranicu. Generovanie obsahu je len polovica úspechu.
Tá druhá polovica, hľadanie správnych vstupov a dát, sa často podceňuje. Práve tu vstupuje do hry československý startup TopK, ktorý sa rozhodol riešiť ten najväčší problém: ako zabezpečiť, aby AI mala vždy poruke správny kontext.
„Firmám chýba napojenie na vlastné dáta. ChatGPT je prezentačná vrstva, vie zobraziť odpovede, ale potrebujú niekoho, kto im vlastné dáta zozbiera, naindexuje, urobí v nich poriadok vo formáte, ktorý nakoniec ChatGPT alebo iný model vedia zobraziť,“ hovorí CEO startupu Marek Galovič.
Niečo ako Google
S Jergušom Lejkom, ešte spolužiakom zo strednej školy a nakoniec aj kolegom z predchádzajúcej práce, sa rozhodli vytvoriť vyhľadávací engine novej generácie. Ich cieľom nie je vytvoriť ďalší chatbot, ale infraštruktúru pre AI. Niečo ako nový Google, ale nie pre ľudí. Pre umelú inteligenciu.
Kým verejnosť fascinovali jazykové modely a ich schopnosť tvoriť texty či obrázky, podľa Galoviča sa skutočná bitka v AI neodohrá vo výstupe. Ale v dátach. V tom, aký kontext model dostane. „Model môže byť akokoľvek veľký, ale ak nemá dobrý vstup, neodpovie správne alebo často halucinuje – nevie,“ hovorí. A práve kvalitný vstup – správne dáta v správnej chvíli – dnes chýba najviac. Bez nich model len háda.
Jazykové modely totiž fungujú ako prezentačná vrstva. Vedia odpovedať, ale nevedia si samy spoľahlivo zohnať dáta, najmä nie z neverejných firemných zdrojov. A aktualizovať ich vedomosti je takmer nemožné. Preto začal rásť význam takzvaných retrieval systémov: technológií, ktoré zabezpečia, že model dostane najrelevantnejšie informácie v reálnom čase. Zjednodušene: kontext. A práve túto rolu chce TopK zastávať.
Archív TopK
Jerguš Lejko (vľavo) a Marek Galovič z TopK. Foto: archív TopK
V tradičnom vyhľadávaní človek zadal otázku a preklikával sa cez zoznam výsledkov. Dnes však zadávame komplexnejšie otázky a očakávame priamo odpovede. Navyše, v prípade jazykových modelov ide o to, aké informácie majú k dispozícii, keď generujú odpoveď.
Čím presnejší a relevantnejší kontext dostanú, tým kvalitnejší je ich výstup. Lenže tieto dáta často nie sú verejné. Firmy ich majú vo vlastných dokumentoch, databázach, cloudových úložiskách. A práve v tom je problém: bežné veľké jazykové modely ako ChatGPT k nim nemajú prístup.
Spájanie funkcií
TopK vymyslelo riešenie, ktoré kombinuje klasické a sémantické vyhľadávanie do jedného celku. V ich systéme si môže používateľ definovať dopyty, ale zároveň aj prítomnosť konkrétnych kľúčových slov, čísel, filtrov, dátumov či zdrojov.
Model môže byť akokoľvek veľký, ale ak nemá dobrý vstup, neodpovie správne alebo často halucinuje.
„Tradičné vyhľadávače musia urobiť viacero databázových dopytov ‚pod kapotou‘, čo zvyšuje cenu, znižuje rýchlosť a, čo je najdôležitejšie, uberá na kvalite výsledkov. TopK vytvorilo vyhladávač, ktorý spája možnosti sémantického vyhľadávania s tradičnými vlastnosťami databáz, ako vyhľadávanie podľa kľúčových výrazov či filtrovanie podľa dátumov, čísel a podobne,“ vysvetľuje ďalej CEO.
Príklad z praxe? Právny tím môže hľadať súdne rozhodnutie z konkrétnej krajiny, ktoré spomína konkrétne mená, má špecifické číslo prípadu a bolo vydané v určitom časovom rámci. Finančný analytik zas potrebuje extrahovať konkrétne ukazovatele z kvartálnych reportov verejných firiem. Hotelový vyhľadávač chce zohľadniť aj „mäkké“ požiadavky ako „vhodné pre deti“ či „ticho po 22.00“.
Kombinovať sémantiku s filtrami v reálnom čase je technicky náročné. Bežné vektorové databázy majú ranking určený pri indexovaní a nedajú sa ľahko prispôsobiť. TopK to však vie. Navyše, v porovnaní so štandardnými riešeniami, ako Elasticsearch, ich systém ponúka o rád vyššiu efektivitu.
„Sme desať- až dvadsaťkrát lacnejší. A to nie preto, že šetríme na výpočtoch, ale preto, že sme celý engine vytvorili nanovo, na modernom cloudovom základe. Využívame objektové úložiská, šetríme na sieťovej prevádzke, optimalizujeme na škálovanie,“ vysvetľuje Jerguš Lejko, ktorý zastáva funkciu technologického riaditeľa.
Z korporácie do startupu
TopK vznikol v roku 2024, keď sa Galovič s Lejkom rozhodli zúročiť svoje dlhoročné skúsenosti z veľkých technologických tímov. Poznali silné aj slabé stránky systémov vo firmách ako Shopify, Pinecone či Parrot. A videli, že vyhľadávanie ostáva stále na okraji záujmu, napriek tomu, že práve ono určuje, aké dáta dostanú ďalšie systémy. „Model môže byť akokoľvek veľký, ale ak nemá dobrý vstup, nevie odpovedať. A naopak, ak mu dáš kvalitný kontext, môžeš z neho vyťažiť oveľa viac,“ hovorí Galovič.
Dnes TopK pôsobí medzi Prahou a San Franciscom a nie je to náhoda. Európa má podľa zakladateľov výnimočný talent v oblasti databáz – len o ňom málokto vie. „V Mníchove, Barcelone, Amsterdame či Prahe sú výborné výskumné skupiny, ktoré však často nie sú také viditeľné ako tie americké. Ale v kvalite nezaostávajú,“ dodáva Galovič.
V Mníchove, Barcelone, Amsterdame či Prahe sú výborné výskumné skupiny.
Za rok sa im podarilo získať investíciu 5,5 milióna eur. Fondy ako Earlybird a Kaya VC, spolu s anjelskými investormi, im dali dôveru. Nielen preto, že produkt funguje, ale aj preto, že zakladatelia rozumejú tomu, prečo štandardné prístupy nestačia. Už dnes spolupracujú s desiatkami dizajn partnerov, teda firiem, ktoré ich systém integrujú a testujú vo vlastných podmienkach.
„Sú to najmä firmy, ktoré si pôvodne chceli vytvoriť vlastné vyhľadávanie, ale pochopili, že nemajú ani čas, ani tím, aby to robili poriadne. My im dodávame hotovú infraštruktúru,“ hovorí Lejko.
Platforma sa dá integrovať do systémov firiem a výhľadovo by mala umožniť aj samoučiace sa správanie. Teda optimalizáciu na základe spätnej väzby od používateľov. Ak používateľ nie je spokojný s odpoveďou, TopK analyzuje, kde nastala chyba: v otázke, vo výbere dokumentov, v kombinácii parametrov? A upraví výsledky.
Na pozadí
Zásadné však je, že TopK nie je produkt, ktorý vidíte na prvý pohľad. Je to technológia, ktorá beží na pozadí. Vy ju nevidíte, ale váš chatbot, agent alebo firemná AI vďaka nej dostanú lepšie dáta. A teda aj lepšie rozhodnutia.
„Chceme byť tá neviditeľná vrstva, ktorá firmám umožní, aby sa sústredili na svoj produkt. A nie na to, ako si vyhľadávanie samy poskladajú z niekoľkých nástrojov,“ uzatvára Galovič.
TopK dnes tvorí len päť ľudí. Keď začínali, boli len dvaja a šesť mesiacov sedeli spolu v jednej kancelárii. Vybudovali základ systému, overili ho v benchmarkoch a pripravili na škálovanie. Ich cieľ je jednoduchý a zároveň ambiciózny: stať sa základnou infraštruktúrou pre svet, kde AI bude potrebovať presné a spoľahlivé dáta.
Možno práve preto veria, že o budúcnosti AI nerozhodne ďalší model. Ale vyhľadávač, ktorý modelu pomôže nájsť to, čo potrebuje.