Kako kot skupnost vemo, kakšen jezik pišemo ali govorimo v danem času? Stvar ni povsem enostavna. V daljni preteklosti smo se ljudje zanašali na izjemne, talentirane posameznike z odličnim spominom. S širjenjem pismenosti tudi na priročnike, ki so jih spisali jezični eruditi. A kako je preddigitalni človek brez fotografskega spomina prišel do zavedanja, kaj neka beseda ali besedna zveza sploh pomeni in kako se uporablja? Ni presenetljivo, da se je začelo s svetimi besedili. Biblija vsebuje okrog osemsto tisoč besed, odvisno od jezika, krščansko-judovske denominacije in še česa. Če bi radi na hiter način prišli do vseh omemb nekega biblijskega pojma, denimo v slovenski Bibliji petnajstkrat uporabljenega »potopa«, skupaj s sobesedilom, potem linearno besedilo, zapakirano v obliko kodeksa, ni najbolj priročno, tudi če je dodan pojmovni indeks. Že nekje v dvanajstem stoletju so se dominikanski menihi domislili, da bi lahko biblijsko besedilo izpisali nekoliko drugače. Vsak pojem, do katerega bi kdo želel dostopati na hiter način, so enega za drugim skupaj s sobesedilom vred prepisali tolikokrat, kot se pojavi v besedilu Biblije. Tako se je rodila tradicija prepisovanja in kasneje tiskanja biblijskih konkordanc. To idejo so kasneje, predvsem od 19. stoletja naprej, posvojili tudi uradni popisovalci besedišča, leksikografi. Za prvi Slovar slovenskega knjižnega jezika, ki je nastajal od sredine šestdesetih let do 1991, so denimo po principu biblijskih konkordanc v celoti izpisali trideset »enot«. Skupaj, kot pravijo avtorji, je bilo na kataložne listke delno izpisano gradivo iz 5.128 knjig, leposlovnih del, revij, časopisov, poljudnoznanstvenih del in šolskih knjig. Približno toliko smo torej v svetu tiska pred pol stoletja vedeli o slovenskem besedišču.
Tako kot še pri marsičem, je digitalizacija tudi beleženje stanja jezika obrnila na glavo. Že v sedemdesetih letih prejšnjega stoletja, predvsem pa v osemdesetih, so za angleščino začeli sestavljati »korpuse«, obsežne zbirke besedil v digitalni obliki, iz katerih je bilo mogoče izpisovati konkordance po poljubnih iskalnih pogojih. Drugi jeziki so s svojimi besedilnimi korpusi večinoma sledili v devetdesetih letih. Slovenski korpus FIDA je bil objavljen leta 2000, vseboval je sto milijonov besed. Danes iz zbirke besedil MetaFIDA, ki vsebuje 4,7 milijarde besed v slovenščini, vsakdo lahko na spletu izpisuje, kar želi. Konkordance pa še zdaleč niso edina stvar, ki jo je mogoče početi s korpusi. Nedavno sem raziskoval statistično podobnost rabe besed v sobesedilu, pri čemer sem za test vzel zmerljivke, s katerimi se obklada levi in desni politični pol, večinoma na spletnih forumih ali socialnih omrežjih. S primerjavo pridemo do dokaj spektakularnih besedotvornih invencij – na levi strani najdemo levuharje (poleg lenuharjev odzvanjajo voluharji), leftarde (komunardi, morda nekje zadaj ždijo tudi retardi(ranci)), levakarje in levake (nesposobni pač). Potem je tu serija referenc na komunizem: komunajzli (picajzel – pogovorno sramna uš), komunajzarji ali paradajzarji (rdeča barva). Nekje vmes med levaki in komunajzarji se znajdejo še levajzarji. Tudi desna scena ima svoje: poleg regularnih desnjakov, desnakov in desnjakarjev najdemo še katolibane (katoliški talibani?) ali domoljupce (neumni domoljubi?). Opranoglavci, koritniki in kravatarji niso neposredno pripisljivi desnemu ali levemu polu, vendar je žaljiva intenca prepoznavna. Zakaj to omenjam?
Za razliko od drugih civilizirano digitaliziranih narodov za slovenščino nimamo zagotovljenega posodabljanja jezikovnega gradiva na sistematičen, stabilen način. Prekopicujemo se od projekta do projekta, od ministrstva do ministrstva, nihče zares te naloge ne prepoznava kot svoje.
Ena od nalog nas, ki se ukvarjamo s korpusi (če smo že pri tem – tisti, ki se jim ta dejavnost ne zdi smiselna, nas zmerjajo s korpusanti, torej smo korpusni cirkusanti ali jezikoslovni klovni), je tudi ta, da moramo omogočiti strojno prepoznavanje sovražnega govora ali strokovno rečeno – DND: družbeno nesprejemljivega diskurza. Potrebe so seveda čedalje večje. Da bi to nalogo lahko izpolnili, bi morali ves čas slediti obilni in stalni človeški sovražni besedilni produkciji, ki se ji bo kaj kmalu pridružila še umetnointeligenčna ChatGPT-jevska, če se ji ni že. Zadnja besedila v korpusu Gigafida, ki naj bi zastopal standardno slovenščino so iz leta 2018, v korpusu MetaFIDA iz leta 2021. Kako zaostajamo s sledenjem, kaj se z jezikom in v jeziku dogaja, pove to, da je v tem največjem slovenskem korpusu ena sama omemba kolesariata, žaljive oznake za udeležence petkove rekreacije na prostem med kovidno krizo, in še ta je iz diplomske naloge na ljubljanski Filozofski fakulteti.
Za razliko od drugih civilizirano digitaliziranih narodov za slovenščino nimamo zagotovljenega posodabljanja jezikovnega gradiva na sistematičen, stabilen način. Prekopicujemo se od projekta do projekta, od ministrstva do ministrstva, nihče zares te naloge ne prepoznava kot svoje. Ker po službeni dolžnosti sledim objavam raznih vladnih aktov, ki so povezani z jezikom, sem avgusta naletel na Akcijski načrt Strategije digitalnih javnih storitev 2030, ki ga je objavilo Ministrstvo za digitalno preobrazbo. In kaj tam piše? Med cilji načrtovanega projekta »Digitalizacije slovenščine« je tudi »nadgradnja organiziranega skladiščenja, vzdrževanja in distribucije jezikovnih virov in tehnologij«. In kdaj naj bi se začelo financiranje projekta: jeseni 2024. Ah. Kot pravi Župančič: »staro pravdo v mrak tulimo, da se pretúlimo skozi to zimo«.

Povezava na kolumno v časniku Dnevnik