Deepseek, kitajsko podjetje iz enajstmilijonskega mesta Hangdžov, ki je s svojim odprtim umetnointeligenčnim jezikovnim modelom nedavno pretreslo tehnološki svet, ima na svoji spletni strani pripisan podnaslov »into the unknown«, išče torej pot v neznano.
Evropi se na tej poti predvsem Francija trudi držati glavo nad vodo, saj se pod francosko taktirko med drugim pripravlja obsežnejši poskus izdelave odprtega jezikovnega modela za vse evropske jezike, ki sliši na ime ALT-EDIC. Tik pred nedavnim akcijskim vrhom o umetni inteligenci v Parizu, ki ga je organiziral predsednik Macron, je francosko podjetje Mistral v iskanju alternative ameriškim klepetalnikom objavilo servis z imenom Le chat, ki je v Franciji baje trenutno ena od bolj popularnih aplikacij. Mimogrede, izgovor te bistroumne angleško-francoske mešanice naj bi bil »ša«, torej po francosko maček, in ne »čat«.
Tako kot večina modelov tudi Deepseekov in Mistralov znata slovensko in do neke mere poznata tudi slovensko slovnico. Če postavite vprašanje, kaj je osebek v stavku »Krivulja vseh tiskanih medijev še vedno pada.«, bo Deepseek odgovoril, da je osebek beseda »krivulja« in dodal razlago, da je to osebek, »ker je to tista stvar, o kateri govori glagol ‘pada’. Glagol opisuje, kaj se dogaja s krivuljo (ona pada), ‘vseh tiskanih medijev’ je samo dopolnilo, ki pojasnjuje, na kaj se krivulja nanaša.« Okej, blizu, čeprav ne povsem natančno. Če enako vprašanje postavimo ChatGPT, ta pravilno pove, da »je osebek ‘krivulja vseh tiskanih medijev’. To je samostalniška besedna zveza, kjer je glavna beseda (jedro osebka) ‘krivulja’, medtem ko je ‘vseh tiskanih medijev’ odvisni del, ki natančneje določa jedro osebka.« Ah, tako, tako. Zamislimo si zdaj osebnega UI tutorja ali asistenta, ki zna na podoben način učencem, dijakom in študentom v slovenščini odgovarjati na vprašanja z različnih področij, hkrati pa še pove, na podlagi katerih (zanesljivih, preverjenih) podatkov je prišel do odgovora in doda povezavo na relevantno spletno stran, odprto dostopen učbenik ali znanstveni članek. Ker gre za odprte jezikovne modele, jih je mogoče dodatno učiti s specifičnimi podatki in jih »zapreti« v zaključeno izobraževalno okolje, brez pošiljanja osebnih podatkov učencev, dijakov in študentov v ZDA ali na Kitajsko. Tak izziv najbrž v prihodnosti čaka sedanjega ministra in bodoče ministrice za vzgojo in izobraževanje.
Da bi slovenski in evropski odprti jezikovni modeli vedeli čim več o slovenščini in Sloveniji, jim je pri učenju treba dati na voljo čim več slovenskih podatkov. V okviru raziskovalno-inovacijskega projekta Povejmo.si ta čas poteka zbiranje gradiv za izdelavo odprtega modela GaMS, ali v raztegnjeni verziji – Generativni model za slovenščino. Projekt predstavlja prvi preizkus možnosti zbiranja slovenskih besedil v digitalni obliki na enem mestu za specifičen namen učenja velikih jezikovnih modelov. Pri tem se je treba spomniti, da gre pravzaprav za nadgradnjo zbirateljskega sistema iz sveta tiska, katerega začetek sega tako rekoč v čas Marije Terezije. Kot povedo na spletni strani Narodne in univerzitetne knjižnice, je njena predhodnica, licejska knjižnica, že leta 1807 dobila pravico prejemanja obveznega izvoda vseh tiskov z območja dežele Kranjske, med francosko zasedbo s celotnega upravnega območja Ilirskih provinc in leta 1919 pod imenom Državna študijska knjižnica do prejemanja obveznega izvoda tiskov z območja Slovenije. Danes to področje ureja Zakon o obveznem izvodu publikacij, ki pravi, da je njegov osnovni namen ohranjanje in dostopnost publikacij kot nacionalne kulturne dediščine, da se omogoči bibliografski nadzor in izdelava nacionalne bibliografije. Vprašanje je torej, ali bo ta osnovni namen treba razširiti tudi na umetno inteligenco, da bo naš mali jezik ostal konkurenčen in bomo govorci in govorke ostali jezikovno poservisirani. Tako NUK kot Zakon o obveznem izvodu publikacij, skupaj z Zakonom o avtorski in sorodnih pravicah, spadajo pod pristojnost Ministrstva za kulturo. Ta izziv najbrž v prihodnosti torej čaka sedanjo ministrico in bodoče ministre za kulturo.
Francoski predsednik Macron je pred omenjenim pariškim vrhom napovedal vlaganja v višini 109 milijard evrov v umetno inteligenco kot francoski odgovor na ameriški načrt Stargate, 500-milijardni vlagateljski projekt, ki ga je napovedal ameriški predsednik Donald Trump. Ko boste brali te vrstice, se bom kot predstavnik Instituta Jožef Stefan v Parizu verjetno udeleževal prvega sestanka konzorcija projekta ALT-EDIC, ki naj bi poleg odprtega evropskega jezikovnega modela med drugim zagotovil tudi jezikovne podatke za izdelavo modela na nadzorovan in transparenten način, v skladu z evropskim aktom o umetni inteligenci. Država Slovenija je bila pri vključevanju v ta projekt v resnici izjemno uspešna, saj je poleg inštituta partner tudi Univerza v Ljubljani ter še štiri slovenska podjetja. Slovenska udeležba je glede na velikost države in število prebivalcev daleč nadpovprečna. Področje umetne inteligence spada pod pristojnost Ministrstva za digitalno preobrazbo. Izziv, ali bomo še naprej lahko uspešni na tem področju, v prihodnosti čaka sedanjo ministrico in bodoče ministre za digitalno preobrazbo.
Vse pa nas čaka pot v neznano, za ene vabljiva, za druge strašljiva.

Povezava na kolumno v časniku Dnevnik