V današnji jezikolumni bom na kratko povzel izkušnje iz akcije zbiranja besedil za jezikovni model GaMS. Zgodba je slovenska, torej srednje žalostna. Morda tudi zabavna. V njej nastopajo namišljeni liki, povzeti po kombinaciji različnih oseb, s katerimi smo se v preteklem letu in pol tako ali drugače pogovarjali o možnosti uporabe besedil za učenje slovenskega jezikovnega modela, ki bi bil prosto dostopen za vse pod enakimi pogoji.
Na izhodišču zbiranja besedil stoji preprosta ideja: imate tekst v slovenskem jeziku, po možnosti v digitalni obliki. Podpisani dogovor vam v pravnem prometu zagotavlja, da bo uporabljen zgolj in samo za učenje jezikovnega modela za slovenščino. Ta model mora biti odprt, dostopen vsem. Besedila torej ne more uporabiti nekdo, ki nauči nov model, tega z nikomer ne deli in vam nazaj prodaja svojo storitev. Ideja je skoraj komunistična: vsi za enega, eden za vse. In hkrati kapitalistična: kdor je pameten, naj uporabi skupni komunistični model, ga prilagodi na inteligenten način in naprej prodaja svojo kapitalistično storitev. Slovenščina je opremljena. Ali res?
Najprej gospa Avtorica, skupaj z gospodom Založnikom. Oba pred zlorabo ščiti zakon o avtorskih pravicah. Brez dovoljenja ali brez dogovora njunih intelektualnih stvaritev ali intelektualne lastnine nihče ne sme uporabiti. A glej smolo, njuna zaščita je v najboljšem primeru omejena na Evropsko unijo. Kreatorji jezikovnih modelov v ZDA in na Kitajskem pač nikogar ne sprašujejo, ali smejo uporabiti vse, do česar se lahko dokopljejo, predvsem na spletu. Gospa Avtorica in gospod Založnik se sicer zavedata, da pri Američanih in Kitajcih iz modelske moke zanju ne bo evrokruha, a nič ne de. Dokler nekdo ne plača, vsaj v Sloveniji in v EU ne bo nihče delal modelov na njunih plečih, pa čeprav dostopnih vsem in vsem v korist. Pa kaj potem, če nam Američani prav zato lahko na veliko prodajajo svojo umetno inteligenco. Kar je prav, je prav. Umetna inteligenca ju bo tako ali tako ugonobila. Na vprašanje, za koliko denarja bi se pravzaprav prodala, odgovora nimata. Do takrat pa nič.
Na izhodišču zbiranja besedil stoji preprosta ideja: imate tekst v slovenskem jeziku, po možnosti v digitalni obliki. Podpisani dogovor vam v pravnem prometu zagotavlja, da bo uporabljen zgolj in samo za učenje jezikovnega modela za slovenščino. Ta model mora biti odprt, dostopen vsem.
Naslednji je gospod Direktor. Obvladuje podjetja. Ta podjetja imajo v svojih skladiščih veliko slovenščine. Njega zanima umetna inteligenca, saj obljublja večjo učinkovitost zaposlenih, večji dobiček, boljši izkoristek časa. Poleg tega vsi na svetu to počnejo, ni kaj, tekma s časom. Njegova podjetja ne smejo zaostajati. A pogledal je par zanimivih storitev iz ZDA. Ugotovil, da Američani slovenščino obvladajo, res ni problem. Zakaj bi izgubljal čas z bednimi slovenskimi nadomestki, ki bodo tako ali tako neskončno slabši od tega, kar on lahko kupi, za ne tako velik denar. Ni računice, slovenski model se mu ne izplača. Na vprašanje, ali morda vendarle ne bi bilo dobro, če bi vsaj do neke mere lahko sami upravljali svoj lastni jezik, ima jasen odgovor: ne. V njegovem svetu za to ni ne časa in ne denarja.
Tudi gospod Knjižničar ima v svoji papirni zakladnici veliko slovenščine. A manjkata mu dve ključni stvari: kot prvo, pravica, da bi svoj zaklad sploh lahko komu dal, na primer za učenje slovenskega jezikovnega modela. Vse, kar sme storiti, je to, da svojim članom za nekaj časa posodi potiskan papir. Druga Knjižničarjeva zadrega je stara šele kakih trideset let. Umetna inteligenca se dogaja na računalnikih, v svetu enic in ničel. Da bi slovenske črke s papirja prišle do grafičnih procesnih enot, jih je treba digitalizirati. Tega gospod Knjižničar do sedaj ni naredil, razen digitalizacije dragocenih starin, ki jih avtorske pravice ne bremenijo več. Sedemdeset let po smrti zadnjega avtorja. Na vprašanje, če bi pred morebitno bodočo digitalizacijo lahko kdo dobil vsaj metapodatke, da bi bilo mogoče izračunati, koliko slovenščine je v njegovi zakladnici, ne odgovarja.
Gospa Nacionalka je posebna. Ima neskončne količine gradiva. Sicer ni čisto prepričana, če je vse napisano in posneto res njeno, a odrešil jo je interpret zakona o avtorskih pravicah. Ta ji je povedal, da ima zakon izjemo za take primere: besedilno in tekstovno rudarjenje. Če kdo želi narediti slovenski jezikovni model, ta izjema velja tudi zanj. Še posebej, če gre za odprt, vsem dostopen model. A gospa Nacionalka ni prepričana. Navsezadnje gre samo za eno mnenje, čeprav iz visoke državne ustanove. Poleg tega gospa Nacionalka upa, da bo svojo gromozansko količino slovenščine lahko komu prodala. Saj ima vendar velik minus in množico lačnih ust. Slišala je, da Američani po Evropi kupujejo. Morda še kdo. Na vprašanja ne odgovarja.
Torej, če povzamem parabolo: trenutno kaže, da bo osamljena Slovenska tiskovna agencija reševala modelsko čast slovenske javne tekstovne scene. Za obSTAnek.
Gospa Kultura razume in podpira slovenski jezikovni model. A za digitalno slovenščino nima veliko časa. Toliko dela, toliko različnih nalog, toliko prave, resnične kulture. To je vendar računalniška zadeva. Menda so za to zadolženi nekje drugje. Morda pri gospe Digitalni? Ali pri gospodu Znanstveniku? In konec koncev, gospa Kultura se je pravkar domenila z gospo Knjižno, da bo sofinancirala izdajo tisoč elektronskih knjig in tristo zvočnic. In za model bo gospa Knjižna dala celo polovico financiranega, kakšna žrtev. A gospa Knjižna na vprašanja ne odgovarja.
Torej, če povzamem parabolo: trenutno kaže, da bo osamljena Slovenska tiskovna agencija reševala modelsko čast slovenske javne tekstovne scene. Za obSTAnek.

Povezava na kolumno v časniku Dnevnik