[Video] Prof. dr. Marko Robnik Šikonja: Umetna inteligenca po slovensko (Vroča tema, 25. 2. 2026)

Slovenščina se v digitalno dobo prebija tudi na krilih umetne inteligence. Vsebine tega, kako lahko majhen narod dosega in obenem lovi veliki tehnološki preboj, nam bo približala nova epizoda podkasta Vroča tema, v kateri smo se pogovarjali z enim izmed pionirjev slovenskih jezikovnih strojnih modelov in tehnologij, prof. dr. Markom Robnikom Šikonjo z ljubljanske Fakultete za računalništvo in informatiko.

Profesor dr. Marko Robnik Šikonja je uveljavljeno ime v svetu umetne inteligence. Je vodja laboratorija za strojno učenje in jezikovne tehnologije, soavtor prvih slovenskih modelov umetne inteligence in eden tistih, ki verjame, da bo prihodnost slovenskega jezika odvisna od tega, ali se bomo znali z računalniki in umetno inteligenco sporazumevati tudi v svojem maternem jeziku.

Marko Robnik Šikonja. Foto: Facebook, Fakulteta za računalništvo in informatiko

40 milijard besed za prihodnost slovenščine

V središču pogovora je projekt PoVeJMo, na katerem slovenska ekipa z veliko vnemo in voljo gradi prvi veliki generativni jezikovni model za slovenščino – GAMS (generativni model slovenščine). »Želimo zgraditi model, ki bo znal govoriti, razmišljati in razumeti v slovenskem jeziku. Za to pa potrebujemo ogromno količino besedil. Naš cilj je 40 milijard slovenskih besed,« pravi profesor Robnik Šikonja, ki poudarja, da si te številke sicer težko predstavljamo, dokler ne vidimo, koliko truda stoji za tem projektom.

Količina besed, ki jih potrebujemo, je namreč merilo za kakovost modela. Več kot jih je, bolje razume slovnične zakonitosti, narečja in kulturni kontekst. Del besed prihaja iz starejših digitaliziranih virov, del iz sodobnih besedil, nekaj pa jih posredujejo javne institucije, kot sta Slovenska tiskovna agencija (STA) ter Narodna in univerzitetna knjižnica (NUK).

Deset ljudi za velik projekt

Za projektom, ki bo vplival na prihodnost jezika, stoji presenetljivo majhna ekipa. »Samo deset ljudi nas je – polovica zbira podatke, druga polovica čisti in pripravlja besedila za model,« priznava Robnik Šikonja. Kljub temu so že razvili več različic modela, trenutno pa delajo z različico z 12 milijardami parametrov.

Najnovejša različica modela GAMS že zna odgovarjati na vprašanja, reševati naloge in celo prepoznavati slike. Korak za korakom se približuje svetovnim modelom, kot so ChatGPT, Gemini in Claude.

»Samo deset ljudi nas je, polovica zbira podatke, druga polovica čisti in pripravlja besedila za model. A gradimo temelj, da bo slovenščina lahko govorila v svetu umetne inteligence.«

Kako deluje umetna inteligenca, ki razume slovnično dvojino

Profesor nam razloži, kako se model »uči«: iz ogromnih količin besedil predvideva naslednjo besedo v kontekstu stavka. »Ko vas zanima, kdo je pojedel babico v pravljici o Rdeči kapici, bo model razumel, da gre za volka, ker je to najverjetnejši odgovor v okviru zgodbe,« pove profesor.

Toda zavedati se je treba, da umetna inteligenca ni nezmotljiva. »Tudi mi nismo. Pri modelih napačne odgovore imenujemo halucinacije,« pojasni Robnik Šikonja in dodaja, da jih zmanjšujejo z dodatnimi podatkovnimi viri in preverjanjem resničnih informacij.

Suverenost jezika in digitalna prihodnost

Kakšen je smisel vsega tega? Odgovor se skriva v dveh besedah – jezikovna suverenost. Če Slovenija ne razvije lastnega jezika umetne inteligence, bodo podatke in komunikacijo v slovenščini krojile tuje korporacije. S projektoma PoVeJMo in GAMS bomo tako dobili varno evropsko in slovensko orodje, ki bo uporabno v javni upravi, zdravstvu, izobraževanju ter podjetjih, kjer je pošiljanje občutljivih podatkov čez mejo prepovedano. »Želimo si, da bo slovenščina tehnično podprta, a tudi suverena,« poudarja Robnik Šikonja.

Vir: pixabay

Digitalizacija, slovenska domača naloga

Pogovor ne mine brez kritičnosti: Slovenija je pri digitalizaciji zaostala. »Medtem ko so Google in drugi že pred desetletji avtomatizirano skenirali milijone knjig, mi v NUK šele zdaj uvajamo moderne skenerje,« pravi profesor. A počasi prihaja napredek: NUK bo dobila šest novih hitro delujočih naprav, ki bodo množično digitalizirale slovensko pisno zapuščino.

Sogovornik poudarja, da digitalizacija ni namenjena samo akademikom. Gre za ohranjanje naše kulturne dediščine in gradnjo temeljev, na katerih bo lahko rasla vsaka prihodnja različica umetne inteligence po meri Slovenije.

»Če želimo, da bo slovenščina živela v svetu umetne inteligence, jo moramo tja najprej sami pripeljati.«

Umetna inteligenca in družba – orodje ali grožnja?

Pogovor se dotakne tudi vpliva umetne inteligence na trg dela. »Nekateri poklici bodo izginili, predvsem tisti, kjer gre za ponavljajoča administrativna opravila. A ustvarjali se bodo tudi novi. Podjetja, ki želijo biti konkurenčna, bodo morala te tehnologije uporabiti, družba pa mora poskrbeti, da ljudi na ta prehod pripravi,« pravi Robnik Šikonja.

Kot pozitiven primer izpostavi zdravstveni sektor, kjer že nastajajo aplikacije, ki zdravnikove zapiske samodejno prevedejo v urejene elektronske obrazce. »To niso zgodbe prihodnosti, to se dogaja danes,« dodaja.

Slovenija gradi svojo »tovarno umetne inteligence«

Pravi korak naprej predstavlja tudi napovedana gradnja novega superračunalnika Vega 2 v Mariboru. »To bo naša 'tovarna umetne inteligence', ki bo tekla ob hidroelektrarni – z zeleno energijo in minimalnimi izgubami. Omogočila nam bo, da bomo velike modele učili pri nas, ne več v tujini,« pojasnjuje profesor. Slovenija tako dobiva ključno infrastrukturo, ki jo bodo lahko uporabljala tako podjetja kot raziskovalne ustanove.

Slovenščina kot jezik umetne inteligence

Slovenščina ima po uradnih slovarjih okrog 100.000–150.000 besed, a v resnici je petkrat bogatejša, če štejemo tudi narečja in lastna imena. »Zgraditi model, ki bo razumel vse te odtenke, je ena najlepših, a tudi najtežjih nalog,« priznava Robnik Šikonja.

Tudi zato verjame, da bo projekt PoVeJMo živel naprej. »Če želimo, da bo slovenščina živela tudi v svetu umetne inteligence, jo moramo tja najprej sami pripeljati.«

»Naš cilj je 40 milijard slovenskih besed. To niso samo podatki, to je digitalni spomin našega jezika.«
Vir: Shutterstock

Pogovor, ki razširi obzorja o UI

V novi epizodi podkasta Vroča tema boste slišali iskren in poglobljen pogovor o prihodnosti slovenskega jezika, o 40 milijardah slovenskih besed, ki bodo hranile našo umetno inteligenco, in o majhni ekipi entuziastov, ki spreminjajo slovensko digitalno zgodbo. Spoznali boste, kako nastajajo veliki jezikovni modeli, zakaj so ti lahko orodje za napredek in ne grožnja ter kaj pomeni graditi umetno inteligenco, ki razume, razmišlja in čuti v slovenščini.

Poslušajte celoten pogovor na Domovina.je – pogovor, ki lahko dokazuje, da ima tudi majhen jezik lahko veliko in lepo prihodnost, če mu le znamo prisluhniti in ga naučiti pogovora s stroji.

Naroči se Doniraj Vse novice Za naročnike