To so moje besede

S septembrom se je v Sloveniji začela obširna akcija zbiranja slovenskih besedil v digitalni obliki za namen izdelave velikega jezikovnega modela za slovenski jezik. Ta bo odprt in dostopen vsem, torej tudi podjetjem za komercialno rabo, kar odpira nekaj dilem, s katerimi se bosta morali spopasti obe strani – zbiralska in darovalska.

Z jezikovnimi modeli je pač tako, da je velikost pomembna: več besedil bo model med treniranjem videl, bolje bo stvar delovala. Na zbiralski strani je Univerza v Ljubljani oziroma njen Center za jezikovne vire in tehnologije, na potencialni darovalski pa dejansko vsakdo, ki je kdajkoli napisal kaj v slovenščini in je ohranil avtorske pravice na svojem besedilu.

Prva dilema je verjetno varnost podatkov. Ugodna okoliščina za obe stranki je dejstvo, da za treniranje slovenskega modela ni treba, da bi besedila kdorkoli kdajkoli zares videl, razen nekaj računalniških strokovnjakov, ki jih bodo predelali v obliko, primerno za treniranje modela, in jih spravili do superračunalnika Vega. Tam se bodo nahajala v času treniranja modela in v obliki, ki je v resnici zelo neugodna za potencialne tatove podatkov. To pomeni, da je pri vprašanju varnosti ključno zaupanje darovalca v kompetentnost zbiralca, da bo znal zagotoviti varno dolgoročno kriptirano hrambo besedil v izvorni obliki. Ker je zaupanje plaha ptica in ker med ljudmi velja, da so pri tem najbolj povedni precedenčni primeri oziroma dosedanje obnašanje stranke, je dobro vedeti, da se manjši jezikovni modeli že zdaj trenirajo na korpusu besedil Gigafida, v katerem so avtorskopravno varovana besedila, ki v petindvajsetih letih niso bila zlorabljena, ta isti korpus pa je pod različnimi imeni skupaj z nekaterimi drugimi v vseh teh letih zagotavljal, da vemo, kaj se dogaja s sodobno slovenščino. Kar pa še ne pomeni, da se zloraba ne more zgoditi.

Še precej večja dilema je – zakaj sploh? Zakaj bi nekomu dovolil, da z mojimi besedili izdela jezikovni model, ki bo sicer na voljo tudi meni, vendar ga bodo lahko uporabljali tudi domači in že tako predebeli tuji kapitalisti, da bi z njim počeli natanko tisto, kar je moj kruh: pisanje besedil? Kaj imam jaz od tega? Odgovora na to v resnici ne more dati posameznik, temveč le družba oziroma skupnost govorcev in govork slovenskega jezika, organiziranih v državi z uradnimi jeziki, zapisanimi v ustavi. Skratka, gre za vprašanje, ali obstaja splošni družbeni konsenz, da bomo dali svoj jezik na skupen kupček in s tem prišli do nečesa boljšega, uporabnejšega za vse. Ali pa je morda bolje, da ta reč sploh ne obstaja, in si vsak vsaj v teoriji prihrani možnost, da naredi svoj lasten, verjetno slabši model s podatki, ki jih nima nihče drug.

Gre za vprašanje, ali obstaja splošni družbeni konsenz, da bomo dali svoj jezik na skupen kupček in s tem prišli do nečesa boljšega. Ali pa je morda bolje, da ta reč sploh ne obstaja?

Nekaj refleksije v zvezi s tem: kot vemo, je slovenščina v obstoječe modele že vključena in količina slovenskih podatkov, ki so na voljo različnim umetnointeligenčnim akterjem, je bolj ali manj edino vprašanje, ki ostaja. S spleta so ameriški (in verjetno tudi kitajski) tehnološki velikani pobrali, kar je bilo slovenščine tam na voljo in kar se njih tiče, je to to. Posebej se z malo slovenščino ne bodo ukvarjali. Kar pomeni, da nadzor, ali bo model za slovenščino deloval boljše ali slabše oportunistično prepuščamo odločitvam korporativnih menedžerjev. Kar pa ni povsem res, saj se je v vmesnem času zmigala Evropska unija z načrtom, da se čim prej izdela prosto dostopen velik jezikovni model za vse evropske jezike. Pri čemer spet pridemo do vprašanja količine podatkov za posamezne uradne in druge evropske jezike, ki naj bi s tem modelom pridobili čim bolj enako komercialno-nekomercialno štartno pozicijo. Vprašanje količine zbranih slovenskih besedil se s tem dejansko zvede na pozicioniranje slovenščine znotraj procesa, ki se bo v vsakem primeru zgodil, in lestvice, ki bo v vsakem primeru nastala. Preprosto je: če bo besedil več, bo pozicija ugodnejša, in obratno.

Nauk o posledicah jezikovno-podatkovnega egoizma in altruizma imamo posredno na voljo v zgodbi o dostopnosti različnih dvojezičnih slovarjev in Slovarja slovenskega knjižnega jezika za komercialno rabo. Kot je bilo že večkrat opisano, so izvorni avtorji SSKJ že trideset let lastniki avtorskih pravic in čeprav so slovar izdelovali v službi na javni ustanovi (ZRC SAZU), ne dovoljujejo rabe slovarja izven dostopa denimo na portalu Fran. Kar pomeni, da podatkov iz slovarja ne smemo vključiti v naš lastni slovenski jezikovni model kot dodatno znanje o slovenščini. Hkrati pa dejstvo, da je SSKJ na spletu, pomeni, da so podatke tehnopodjetja že zdavnaj pobrala od tam in vključila v svoje modele, ne da bi kogarkoli vprašala. Kaj je lahko hujši strel v koleno s stališča jezikovne suverenosti? Nasprotna je zgodba o dvojezičnih slovarjih: pred časom je ministrstvo za kulturo financiralo projekt odkupa podatkov iz različnih slovensko-tujejezičnih slovarjev, ki so od lani v odprtem dostopu in na voljo na portalu Termania, to znanje pa bo vključeno v slovenski jezikovni model. Še letos bodo slovarji po vsej verjetnosti dostopni tudi na novem večjezičnem portalu te iste javne ustanove, ki znanje iz SSKJ zadržuje zase in posredno za ameriško-kitajska podjetja.

Dilema je zoprna: dati, tvegati in morda kaj dobiti. Ali ne dati, nič izgubiti in zavistno pogledovati čez jezikovni plot.

Povezava na kolumno v časniku Dnevnik

jezikolumna jezikolumna - Simon