Skip to content
Trojina
Trojina

Zavod za uporabno slovenistiko

  • Domov
  • O Trojini
Trojina

Zavod za uporabno slovenistiko

Naredimo slovenščino spet veliko?

Simon Krek, 29. aprila, 20252. julija, 2025

Tokrat bom malce pokombiniral osebni komentar s svojim profesionalnim ukvarjanjem z jezikovnimi in tehnološkimi posli. Kot sem pisal v kolumni septembra lani, na Univerzi v Ljubljani že kakšno leto in pol skušamo izdelati vsem dostopen veliki jezikovni model za slovenščino. Ta zdaj v neki solidni obliki že obstaja in po analogiji z velikimi modeli, poimenovanimi po raznih parkljarjih iz Silicijeve doline, ga slovenskemu okolju primerno imenujemo Gams (generativni model za slovenščino). Kdor želi in zna, lahko model uporabi na svojih računalnikih. Mogoče ga je tudi preizkusiti na spletni strani povejmo.si.

Da bo model znal bolje slovensko, smo se desetim milijardam besed, ki jih imamo zbrane v raznih besedilnih zbirkah, namenili dodati še štirideset milijard, da bo naš Gams poznal čim več in čim bolj različnih slovenščin. Priti do take količine slovenskih besedil ni ravno mačji kašelj. V resnici bo to težko doseči brez dveh pomembnih slovenskih ustanov: Narodne in univerzitetne knjižnice in Radiotelevizije Slovenija. V NUK-u so zbrana predvsem tiskana besedila, ki so v precejšnji meri tudi že digitalizirana, RTV Slovenija ima predvsem velik arhiv govorjenih besedil. Ima pa NUK pri uporabi svojih gradiv za naše gamsovske namene težko rešljiv problem: je le zbiratelj in arhivar slovenskih publikacij, ni pa lastnik avtorskih pravic. To pomeni, da brez dovoljenja lastnikov ali kakšne druge zakonske podlage nikomur ne sme omogočiti dostopa do zbranih besedil. Trenutno možnosti za uporabo gradiv iz NUK-a še preučujemo. Po pogovorih se zdi, da je vse odvisno od Urada RS za intelektualno lastnino, ki deluje kot organ v sestavi Ministrstva za gospodarstvo, turizem in šport. Torej: vprašanje je za ministra Hana.

Da evropski graditelji umetne inteligence ne bi preveč zaostali za Američani in Kitajci, sta Evropska komisija in parlament tik pred kovidom sprejela Direktivo o avtorski in sorodnih pravicah na enotnem digitalnem trgu, ki so jo države članice kasneje tako ali drugače vključile v svojo zakonodajo. Direktiva in tudi slovenski zakon načeloma omogočata vsakomur, ki ima zakonit dostop do avtorskih del, »izvajanje besedilnega in podatkovnega rudarjenja za katerikoli namen«. Vendar si lahko imetniki pravic pridržijo pravico, da prepovejo takšno uporabo, če to storijo na ustrezen in jasen način. Kakšen je ta način, se v resnici ne ve. Ko smo se prejšnji mesec s poljskimi kolegi pogovarjali o teh dilemah, so nam povedali, da pred uporabo poljskih besedil za učenje jezikovnih modelov na različne načine preiskujejo, če niso avtorji prepovedi skrili nekam med besedilo, da bi jih potem tožili. Skratka, glede na trenutno stanje bi lahko rekli, da smo glede zbiranja gradiv v slovenskih umetnointeligenčnih vicah – čakamo na poslednjo sodbo lastnikov avtorskih pravic.

Ko smo prejšnji mesec predstavljali novo verzijo modela, so na dogodek prišli tudi predstavniki avtorskih društev, med katerimi so bili Društvo slovenskih književnih prevajalcev, Društvo slovenskih pisateljev, Mednarodno združenje pesnikov, esejistov in pisateljev PEN, Društvo slovenskih literarnih kritikov in drugi. Od društev smo kasneje dobili tudi dopis, v katerem sprašujejo, če bodo jezikovna orodja, ki bodo nastala na podlagi prejetih gradiv, dostopna vsem, brez omejitev oziroma, če lahko jamčimo, da jih v prihodnosti ne bomo tržili. Omenili so tudi, da krovna evropska avtorska združenja menijo, da je direktiva, ki omogoča rabo del za podatkovno rudarjenje brez nadomestila, »odprla možnost za množično krajo avtorskih del, obenem pa se dopušča zelo poljubna razlaga tega specifičnega termina v škodo avtorjev«.

Sam menim, da se bo nekako pač treba odločiti. Če želimo ali ne, poteka tekmovanje med jeziki in tudi tekma s časom, ko se odloča, do katere mere bo ta ali oni jezik podprt z umetno inteligenco. Pri tem je najpomembnejše vprašanje, do kakšne količine podatkov v določenem jeziku bodo imeli dostop veliki jezikovni modeli pri učenju. Jeziki z večjim številom govorcev imajo pri tem povsem nenadomestljivo prednost pred jeziki, kot je slovenščina. Če zberemo vsa besedila, ki so bila kdajkoli v zgodovini napisana v slovenščini, bodo predstavljala le drobcen delček v primerjavi z angleškimi, kitajskimi, španskimi in drugimi besedili, na katerih so naučeni veliki jezikovni modeli. Dejansko gre pri tem vprašanju za kolektivno odločitev govorcev in govork slovenščine, tako v slovenski državni skupnosti, pa tudi v širšem okviru Evropske unije, do katere mere želimo, da bo umetna inteligenca znala slovensko oziroma bo poznala slovensko okolje in kulturo. Če si to želimo, moramo pravzaprav zbrati večino besedil v slovenščini ter na nadzorovan in konsenzualen način omogočiti njihovo vključitev v jezikovne modele.

Kolektivne odločitve od časa do časa preverjamo z referendumi. Kot vemo, bomo kmalu za okrog šest milijonov evrov izvedli anketo, če kakih dvesto umetnikov ali njihovih sorodnikov zares zasluži dodatek k pokojnini za izjemne umetniške dosežke. Morda bi na podobno smiselnem referendumu lahko preverili vprašanje, če smo vsi za to, da iz slovenskih besedil izdelamo jezikovni model. Potem bi tik pred zdajci referendum odpovedali in teh imaginarnih šest milijonov razdelili med avtorje in lastnike avtorskih pravic. Tako bi naredili slovenščino spet veliko, volk in koza bi bila cela in sita.


Povezava na kolumno v časniku Dnevnik

jezikolumna jezikolumna - Simon

Navigacija prispevka

Previous post
Next post

Zadnje objave

  • Slovnica skrbi
  • Spodobnost
  • Udobnost in uvidevnost
  • Resolucijski kuping ali bolj zmarhh?
  • Pravila

Arhiv

  • julij 2025
  • junij 2025
  • maj 2025
  • april 2025
  • marec 2025
  • februar 2025
  • januar 2025
  • december 2024
  • november 2024
  • oktober 2024
  • september 2024
  • avgust 2024
  • julij 2024
  • junij 2024
  • maj 2024
  • april 2024
  • marec 2024
  • februar 2024
  • januar 2024
  • december 2023
  • november 2023
  • oktober 2023
  • september 2023
  • avgust 2023
  • julij 2023
  • junij 2023
  • maj 2023
  • april 2023
  • marec 2023
  • februar 2023
  • januar 2023
  • december 2022
  • april 2021
  • marec 2021

Kategorije

  • jezikolumna
  • jezikolumna – Marko
  • jezikolumna – Simon
  • RAI Trst
©2025 Trojina | WordPress Theme by SuperbThemes