Kako bi bilo treba financirati jezikovne tehnologije za slovenščino?
Ne morem natančno povedati, kako bi bilo treba financirati jezikovne tehnologije za slovenščino, saj nimam dostopa do podatkov o tem, kakšne so trenutne razmere in potrebe na tem področju. Glede na to, da je jezikovna tehnologija pomemben del razvoja informacijske družbe in da je slovenščina manj razširjen jezik, bi lahko država in drugi javni in zasebni finančni viri prispevali sredstva za razvoj in izboljšanje jezikovnih tehnologij za slovenščino. Prav tako bi lahko raziskovalne institucije in druge organizacije, ki se ukvarjajo s tem področjem, prispevale svoj prispevek k razvoju tehnologij za slovenščino.
Odgovora ni napisal človek, temveč ga je generiral stroj in to v slovenskem jeziku. Imenuje se ChatGPT in je umetnointeligenčni klepetalnik, ki so ga razvili na inštitutu OpenAI v ZDA. Objavljen je bil konec novembra 2022. V imenu klepetalnika je krajšava za jezikovni model GPT 3.5, na katerem temelji delovanje sistema. Če ste tehnološki navdušenec, je ta informacija verjetno že prišla do vas, saj se je novost na začetku decembra bliskovito razširila po družabnih omrežjih, opazili so jo tudi v osrednjih medijih, od Guardiana, New York Timesa, Le Monda, Economista itd.
Ker je zmožnost sistema, da precej smiselno odgovarja na zahtevna vprašanja, generira zanimive zgodbe ali celo piše uporabno računalniško kodo, večino preizkuševalcev presenetila, da ne rečem šokirala, se je poleg navdušenja veliko odzivov vrtelo okrog vprašanja, ali to zdaj pomeni, da so vsi kreativni poklici ogroženi. Da bodo učenci, dijaki in študenti tako ali drugače uporabljali te sisteme za pisanje esejev ali reševanje testov in da bo treba v celoti na novo razmisliti o izobraževanju. Ali da bo nasploh treba uvesti neke vrste pečat ali dokaz pristnosti za besedila, ki jih dejansko napišejo ljudje. In da bom torej moral kulturni redakciji Dnevnika tako ali drugače dokazati, da ji nisem poslal besedila, ki ga je zgeneriral stroj v desetih sekundah.
Podobno so se že pred letošnjim decembrom spraševali prevajalci ali učitelji na fakultetah, kjer poučujejo prevajanje, ko se je poleg Googla in drugih tehnoloških gigantov leta 2019 s svojim strojnim prevajalnikom za slovenščino pojavil DeepL. Ta prevajalnik je naredil kvalitativni preskok in nekako je postalo jasno, da stroj lahko proizvede besedilo, prevod, primerljiv s človeškim – če mu bomo le dali dovolj materiala, iz katerega se bo učil.
In tako pridemo do prve dileme jezikovne digitalizacije: če kot delavec za ročnimi statvami na koncu 18. ali začetku 19. stoletja gledam, kako mi mehanske statve v hipu odvzamejo delo in zaslužek, ali bom sledil čustvenemu impulzu in začel razbijati stroje? Če kot prevajalec gledam, kako se strojni prevajalniki učijo iz mojega dela, ali bom skušal na vse načine preprečiti, da bi bili moji prevodi dostopni za uničevalca moje prihodnosti? Najbrž da. Drugo vprašanje pa je, kakšno odločitev bo glede tega sprejela celotna jezikovna, v našem primeru tudi državna skupnost. Torej, ali bomo rekli – kar se z novimi tehnologijami dogaja poklicu prevajalca, je grozno, prepovedali bomo izdelavo in uporabo strojnih prevajalnikov za slovenščino, postali bomo jezikovni Amiši, tehnološko zamrznjeni v preteklem stoletju? Ali se bo poklic prevajalca prilagodil novi realnosti? Če bo slednje, se bomo kot jezikovna skupnost morali potruditi za razvoj dobrih tehnologij in za dostop do različnih jezikovnih podatkov za učenje vseh mogočih ChatGPT-jev.
Če kot prevajalec gledam, kako se strojni prevajalniki učijo iz mojega dela, ali bom skušal na vse načine preprečiti, da bi bili moji prevodi dostopni za uničevalca moje prihodnosti? Najbrž da.
Nadaljnja dilema, ki se poraja, je: zakaj bi se ukvarjali z razvojem tehnologij za slovenščino, če bodo za nas vse opravila ameriška, nemška in druga podjetja? Odgovor je, vsaj upam: ravno zato, ker gre za podjetja oziroma korporacije. Slovenščina je – kot pravilno ugotavlja ChatGPT – manj razširjen jezik in je v svetu porajajočih se jezikovnih tehnologij tako rekoč »akcidenca«, naključni dodatek s srečo, da je bil v danem trenutku vključen v privilegirano skupino uradnih evropskih jezikov. To pa še ne pomeni, da lahko kdo na račun slovenščine kaj zasluži, trg je – za razliko od angleščine, kitajščine, španščine itd. – enostavno premajhen. Na točkah, kjer »naključnega« korporativnega interesa ne bo, tudi tehnologij ne bo. Torej si na to dilemo lahko odgovorimo bodisi sami (»vsa slovenščina za vse«) ali pač odgovore prepustimo korporativnim klepetalnikom.
Vprašanje: katere jezike govoriš?
ChatGPT: Kot velik jezikovni model sem sposoben razumeti in uporabljati veliko različnih jezikov. Sem sposoben razumeti in odgovarjati na vprašanja v angleščini, španščini, francoščini, nemščini, kitajščini, japonščini in mnogih drugih jezikih. Sem tudi sposoben razumeti in uporabljati različne jezike za obdelavo besedila, kot so HTML, XML in drugi, ki se uporabljajo za oblikovanje spletnih strani in drugih vrst dokumentov. Čeprav sem sposoben uporabljati veliko različnih jezikov, nisem strokovnjak za vsak jezik posebej in ne morem zagotoviti popolnega razumevanja vseh kompleksnosti in subtilnosti vsakega jezika. Vendar pa vam bom poskušal pomagati z vprašanji in težavami, ki jih imate, v najboljši meri, ki mi je na voljo.
Spomnimo, petino te kolumne je napisal stroj. V slovenščini.
Povezava na kolumno v časniku Dnevnik