Skip to content
Trojina
Trojina

Zavod za uporabno slovenistiko

  • Domov
  • O Trojini
Trojina

Zavod za uporabno slovenistiko

Daj nam danes naš vsakdanji jezikovni model

Simon Krek, 5. aprila, 202318. oktobra, 2023

Danes nekoliko bolj osebno. V kolumni nizam par misli o pravkar končanem projektu Razvoj slovenščine v digitalnem okolju (RSDO). Informacije o projektu so na spletni strani slovenščina.eu, tukaj pa si lahko preberete par intimnih misli koordinatorja o splošnem stanju stvari.

STA je 23. marca 2017 objavila naslednjo novico: »Vlada je na današnji seji ustanovila Svet za spremljanje razvoja jezikovnih virov in tehnologij, ki bo kot koordinacijsko telo skrbel za podporo celovitim rešitvam na področju digitalizacije slovenskega jezika. Vodil ga bo kulturni minister Anton Peršak.« V omenjenem svetu smo poleg treh ministrov (Peršak, Makovec Brenčič, Koprivnikar, ki so večinoma celo hodili na sestanke) sodelovali še jaz, Kozma Ahačič, takrat še namestnik predstojnika Inštituta za slovenski jezik Frana Ramovša in Marko Robnik Šikonja, profesor na Fakulteti za računalništvo in informatiko Univerze v Ljubljani. Iz debat v tem svetu se je posredno izcimil projekt RSDO, ki se je začel maja 2020. Od takrat, ko je ena od prejšnjih slovenskih vlad začela resno razmišljati, da bi bilo morda dobro kaj narediti za slovenščino v njenih digitalnih dimenzijah, do dejanskega začetka projekta je torej minilo več kot tri leta. To se verjetno zdi pričakovana hitrost, če ste pripadnik slovenskega uradništva, a hitrost besnega polža, če se strokovno ukvarjate s tem področjem.

V okviru evropskih projektov, ki sem jih koordiniral ali v njih sodeloval, se kar precej pogovarjam z ljudmi, ki se ukvarjajo s podobnimi digitalnimi jezikovnimi rabotami v drugih državah. Eden od teh je tudi direktor Inštituta za estonščino, s katerim smo bili skupaj v evropskem projektu ELEXIS in nasploh precej sodelujemo. Ker so Estonci na različnih področjih digitalno dobro organizirani, je vedno dobro vedeti, kaj počnejo in to velja tudi za jezikovno področje. Z malo bolj podrobnim raziskovanjem, kako so glede digitalizacije organizirani po drugih državah oz. jezikih, sem se začel ukvarjati približno pred dvajsetimi leti in tudi takrat so Estonci izstopali, saj imajo od leta 2006 redno in sistematično financiran Nacionalni program za jezikovne tehnologije za estonščino. Trenutna konkretna vrednost tega programa na spletni strani programa (keeletehnoloogia.ee) ni navedena, zato sem vprašal omenjenega direktorja, kakšna je ta številka. Njegov odgovor je bil, da v resnici gre za dva vzporedna programa, da se drugi v prostem prevodu imenuje »estonski jezik in kultura v digitalni dobi« in da je skupna letna vsota obeh tri milijone evrov. Še enkrat: Letna. Vsota. Tri milijone. Evrov. Poleg tega je omenil, da obstajajo tudi drugi viri in da so različna ministrstva v preteklih letih financirala strojno prevajanje z dodatnim milijonov evrov ter da so za samodejno podnaslavljanje namenili nekaj sto tisoč evrov. Slovenski projekt RSDO je trajal dve leti in pol in je bil skupaj vreden štiri milijone evrov. Seštejte leta od 2006 do 2027, kolikor traja estonski program, pomnožite z estonsko številko in primerjavo podprtosti jezikov naredite sami.

Projekt Razvoj slovenščine v digitalnem okolju je končan, naša ministrstva pa molčijo in se igrajo gnilo jajce, kateremu od njih bo za hrbtom zasmrdela pozabljena digitalna slovenščina.

Sam sem kot koordinator projekta RSDO že od leta 2021 opozarjal predvsem bivše Ministrstvo za izobraževanje, znanost in šport, da bi bilo treba te dejavnosti financirati tudi naprej. Da se na področju digitalizacije jezikov veliko dogaja in da večina držav razmišlja o digitalni podpori svojim jezikom. Na začetku oktobra lani je potem tudi rektor Univerze v Ljubljani poslal dopis trem ministrom in ministricam: dr. Asti Vrečko, dr. Emiliji Stojmenovi Duh in dr. Igorju Papiču, da je »ob sedanjem hitrem tehnološkem razvoju slovenščina kot jezik z manjšim številom govorcev v permanentno podrejenem položaju, kar med drugim kažejo empirični podatki, ki jih preko različnih projektov zbira tudi Evropska komisija«, čemur je bil dodan poziv »k razmisleku o ponovni vzpostavitvi podobnega nacionalnega delovnega telesa, ki bi lahko določil prioritete tudi za predlagano nadaljevanje projekta RSDO«. Odgovora do trenutka oddaje te kolumne v tisk ni bilo. Skoraj pol leta.

Kot vemo, se je v tem času med drugim zgodil ChatGPT, ki pomeni tektonsko spremembo glede tega, kaj je mogoče narediti z jeziki in računalniki. ChatGPT je bil izdelan na podlagi jezikovnega modela GPT-3.5. Pred dnevi je bil objavljen GPT-4, ki po meritvah za angleščino deluje petnajst odstotkov bolje, za latvijščino, ki je bolj primerljiva, pa okrog deset. V Evropi niti Evropska komisija niti države članice ne stojijo križem rok. V EU je bil vzpostavljen mehanizem financiranja Language Data Space, v okviru katerega naj bi čim hitreje izdelali odprt evropski jezikovni model, ki bi bil vsaj do neke mere primerljiv z modelom GPT in bo morda temeljil na francoskem modelu BLOOM. Nedavno smo dobili poziv Nemškega inštituta za umetno inteligenco, naj prispevamo jezikovne podatke za jezikovni model OpenGPT-X. Zaradi projekta RSDO smo za slovenščino lahko ponudili količine jezikovnih podatkov v vrhnjem delu »ponudbe«, primerljivo z danščino ali katalonščino.

Projekt RSDO je končan, naša ministrstva pa molčijo in se igrajo gnilo jajce, kateremu od njih bo za hrbtom zasmrdela pozabljena digitalna slovenščina.


Povezava na kolumno v časniku Dnevnik

jezikolumna jezikolumna - Simon

Navigacija prispevka

Previous post
Next post

Zadnje objave

  • Slovnica skrbi
  • Spodobnost
  • Udobnost in uvidevnost
  • Resolucijski kuping ali bolj zmarhh?
  • Pravila

Arhiv

  • julij 2025
  • junij 2025
  • maj 2025
  • april 2025
  • marec 2025
  • februar 2025
  • januar 2025
  • december 2024
  • november 2024
  • oktober 2024
  • september 2024
  • avgust 2024
  • julij 2024
  • junij 2024
  • maj 2024
  • april 2024
  • marec 2024
  • februar 2024
  • januar 2024
  • december 2023
  • november 2023
  • oktober 2023
  • september 2023
  • avgust 2023
  • julij 2023
  • junij 2023
  • maj 2023
  • april 2023
  • marec 2023
  • februar 2023
  • januar 2023
  • december 2022
  • april 2021
  • marec 2021

Kategorije

  • jezikolumna
  • jezikolumna – Marko
  • jezikolumna – Simon
  • RAI Trst
©2025 Trojina | WordPress Theme by SuperbThemes