Letos decembra je francosko ministrstvo za kulturo ob podpori trinajstih evropskih držav, med drugim tudi Slovenije, Evropski komisiji poslalo predlog za ustanovitev Zavezništva za jezikovne tehnologije. Tako se imenuje ena od evropskih digitalnih infrastruktur, ki jih trenutno ustanavlja Evropska unija. Glavni cilj zavezništva je čim hitreje priti do velikega jezikovnega modela za evropske jezike, ki bi bil vsaj približno primerljiv z modeli, ki jih izdelujejo severnoameriška ali kitajska podjetja – OpenAI, Google, Facebook, Huawei itd.
Med dejavnostmi zavezništva so na prvem mestu omenjeni »jezikovni podatki« in besedilo o tem pravi nekako takole: »Zavezništvo bo izboljšalo in združilo obstoječe jezikovne in multimodalne vire nacionalnih in regionalnih jezikov v Evropski uniji ter v državah članicah, kar vključuje ustvarjanje strateških podatkov, na primer za jezike z malo govorci (manj kot 10 milijonov), pri katerih ‘naravna produkcija’ ne zadostuje za učenje velikih jezikovnih modelov«. Torej: ne glede na to, koliko slovenskih besedil napišemo ali načivkamo na družabnih omrežjih, ali koliko so jih prednamci napisali v celotni zgodovini slovenskega jezika, za izdelavo velikih jezikovnih modelov ‘produkcija’ ne zadostuje. Za primerjavo: če damo skupaj vse, kar je trenutno na dosegu roke digitalnega, v slovenščini pridemo do besedil s približno desetimi milijardami besed. Po nekaterih ocenah je bil zdaj že zastareli model GPT-3 treniran na petsto milijardah pojavnic (približno podobna enota kot beseda), GPT-4 pa na šestnajst tisoč milijardah, torej 1600-krat več kot sploh imamo slovenskih podatkov. Sicer je bila vmes tudi računalniška koda, številčni podatki in podobno, a razlika v redu velikosti je ogromna.
Poleg slovenščine je med uradnimi jeziki Evropske unije takih z manj kot desetimi milijoni govorcev še deset: bolgarščina, hrvaščina, slovaščina, danščina, finščina, estonščina, latvijščina, litovščina, malteščina in irščina, pri čemer zadnja dva celo znotraj malih spadata v posebno kategorijo podhranjenosti. K tej enajsterici bi lahko prišteli še štiri jezike, ki imajo nekje med deset in petnajst milijonov govorcev: švedščina, češčina, grščina, madžarščina. Od štirideset do devetdeset milijonov državljank in državljanov EU ima torej sistemsko težavo ne le s trenutno skoraj popolno odvisnostjo od severnoameriških in kitajskih podjetij glede jezikovne podpore v okviru umetne inteligence, temveč je zadrega precej bolj temeljna: preprost obstoj zadostne količine jezikovnih podatkov, s katerimi bi bilo mogoče podpreti jezikovne tehnologije za te jezike.
Ne glede na to, koliko slovenskih besedil napišemo ali načivkamo na družabnih omrežjih, ali koliko so jih prednamci napisali v celotni zgodovini slovenskega jezika, za izdelavo velikih jezikovnih modelov »produkcija« ne zadostuje.
Če želimo imeti vse, kar imajo veliki, ali – bolj realno – biti tam, kjer bodo mali, a primerljivi, je prva naloga očitna: pobrati s spleta vse, kar je slovenskega. Digitalizirati v NUK-u vse, kar je bilo natisnjenega. Dobiti dostop do vsega, kar je v arhivih časopisov in revij z besedili v slovenščini. Strojno transkribirati slovenski govor v vseh oddajah, serijah, filmih in prispevkih iz arhivov radijskih in televizijskih hiš, vključno s tistimi socialističnimi RTV Slovenija izpred štirideset in več let. In manj zaželen, a nujen izhod v sili: iz angleščine strojno prevesti ogromne količine besedil, začenši z angleško Wikipedijo s tremi milijardami pojavnic, morda še spodoben kos angleškega spleta. Ne zato, da bi prevedena besedila kdo prebral. Preprosto zato, da se bo iz njih učil prosto dostopen jezikovni model, ki bo na voljo vsem, predvsem pa evropski in slovenski javni upravi in podjetjem, ki bodo govorkam in govorcem slovenščine zagotavljali umetnointeligenčne tehnologije.
A pred tem se je treba vprašati: zakaj bi se sploh trudili s tem? Tako masovno zbiranje gradiva izpostavlja kup zahtevnih vprašanj: bodo podatki varovani v smislu osebnih podatkov, avtorskih pravic? Kakšen smisel ima vse skupaj? Del odgovora se najbrž skriva v množici testov, s katerimi veliki ameriško-kitajski igralci preizkušajo, kako blizu so tako imenovani splošni umetni inteligenci – računalniškemu razumevanju sveta oziroma zmožnosti opravljanja poljubnega umskega opravila, ki ga je sposoben človek. Umetnointeligenčni sistemi gredo takoj po izdelavi reševat dejanske zdravniške in pravniške izpite, testirajo jim zmožnost zdravorazumskega sklepanja, opravljati morajo kreativne naloge in še marsikaj. Vse teste opravljajo kajpak v angleščini in kitajščini, morda še španščini, potem se počasi neha. Skratka, če ne bomo pozorni, lahko v najboljšem primeru upamo, da bodo slovensko govoreče in pišoče zdravnice, pravnice in učiteljice tako rekoč po naključju podobno opremljene kot ameriške kolegice, ne da bi vedeli, ali je to res ali ne. V najslabšem bomo živeli v iluziji, da so, a njihovi slovenski R2-D2-ji in C-3PO-ji bodo v angleščini genialci, v slovenščini pa idioti na halucinogenih drogah. In če analogijo potegnemo še korak dlje: kolikor se zdaj človeško kolektivno nezavedno preliva v jezikovne modele (kar med drugim vključuje odstranjevanje neznanskih količin pornografskih besedil s spletnih strani, če jih hočemo uporabiti za učenje modelov) in je treba vzpostavljati digitalni nadjaz v končnih aplikacijah (zaradi česar od ChatGPT dobite izmuzljive odgovore na politično nekorektna vprašanja), je vprašanje, ali bomo v prihodnosti imeli opravka z ameriškim, kitajskim, evropskim ali slovenskim nezavednim oziroma nadjazom.
Povezava na kolumno v časniku Dnevnik