Menu
Košarica
Zapri

Tvoja košarica je prazna.

Zapri
Iskanje

Vejice od Trubarja do ere računalnikov

Za vas piše:
Veronika Sorokin
Objava: 31. 10. 2021 / 05:00
Čas branja: 4 minute
Nazadnje Posodobljeno: 30.10.2021 / 07:30
Ustavi predvajanje Nalaganje
Vejice od Trubarja do ere računalnikov
Martin Božič, magistrski študent računalništva in informatike, je izdelal računalniško orodje za vstavljanje vejic v slovenskem jeziku. FOTO: Vid Ponikvar, Sportida.

Vejice od Trubarja do ere računalnikov

Ob dnevu reformacije se vsi spominjamo zaslužnega Primoža Trubarja, začetnih prebojev slovenskega knjižnega jezika, opismenjevanja, prvih tiskanih besed v slovenščini in seveda prve tiskane knjige v slovenskem jeziku, Katekizma iz leta 1550.

Ko pomislimo, kako dolgo pot in skozi koliko jezikovnih reform je do danes prehodil naš jezik, nas še toliko bolj navdušijo sodobni, moderni podvigi v korist učenja in osvajanja posebnosti slovenščine, ki še zdaleč ne velja za enostaven jezik.

Ravno slednje in zavedanje dejstva, da je ena težjih veščin v slovenščini pravilno vstavljanje vejic v besedilo, je magistrskega študenta računalništva in informatike na Univerzi v Ljubljani Martina Božiča vodilo k izdelavi spletnega orodja za samodejno vstavljanje vejic, ki uporablja globoke nevronske mreže.

Skok iz računalništva v jezikoslovje

Martin Božič se je izzivalnega in prodornega projekta na področju računalniške obdelave jezika lotil pod mentorstvom prof. dr. Marka Robnika Šikonje s Fakultete za računalništvo in informatiko (FRI). 

Kot je pojasnil, so se modeli procesiranja jezika, znani kot BERT, razvijali že prej, v letih 2018 in 2019, predvsem v drugih jezikih in se nato vse bolj izpopolnjevali.

Slovenščina je zelo poseben jezik, kar je pri razvijanju tovrstnega modela že samo po sebi predstavljalo dodatni izziv, dolgoročno pa je bil moj namen pomagati uporabniku h kakovostnejši rabi jezika. Osnova modela je bila v okviru laboratorija na FRI že dana, v sklopu diplomskega dela pa sem konec avgusta 2020 razvil model, ki je deloval tudi v programskem smislu. Njegova največja dodana vrednost je v tem, da je orodje zaznalo vejico tudi pri vrinjenih stavkih, pastavkih ali pri ločevanju med samostalnikom in pridevnikom. (Martin Božič) 

Tematika večdimenzionalno zastavljene diplomske naloge se je razvijala v sklopu projekta Centra za jezikovne vire in tehnologije in je že v osnovi pritegnila širšo pozornost. Celotni model so vstavili v vmesnik in ga tako naredili prijaznega uporabniku.

Orodje za vstavljanje vejic je na voljo brezplačno in preprosto za uporabo. FOTO: Vid Ponikvar, Sportida.

Lektorji še ne bodo brez dela

Zamisel računalniškega modela, ki ga je za vstavljanje vejic v slovenščini razvil Martin Božič, se laiku sprva zdi težko razumljiva, toda dvomi in nejasnosti se nemudoma razblinijo ob njegovi praktični uporabi. 

Pri doseganju kriterija natančnosti in klasifikacijske točnosti, ki sta bili glavni vodili za nadgradnjo osnovnega modela za vstavljanje vejic, je Božiču najvišjo raven natančnosti zagotovila tehnologija globokih nevronskih mrež. 

Natančnost so v teku razvijanja orodja merili tako, da so za osnovo uporabili lektorirana besedila. Ko so vejice iz teksta odstranili, jih je program sam nato pravilno vstavil v kar 94 odstotkih.

»Na začetku mi je omenjena tehnologija globokih nevronskih mrež zagotavljala 76-odstotno natančnost, z nadaljnjim razvijanjem in dodelavo pa se je natančnost dvignila do 94 odstotkov,« pravi Božič. 

»Stoodstotnega modela brezhibnosti zaenkrat ni, model tudi ni nadomestek za lektorski pregled besedil. Trenutno smo ga dodelali do 96 % natančnosti, nadejam se, da ga lahko izpopolnimo še do 97 %, naprej pa bi bila zagotovljena natančnost že subjektivnega značaja.«

Slovenščina je od Trubarjevih časov močno napredovala. FOTO: Vid Ponikvar, Sportida.

Kaj zna model in kaj mora poznati uporabnik

Pri tako dovršenem orodju, ki namesto tebe v besedilu vstavi vejice, ki, roko na srce, povzročajo preglavice marsikateremu govorcu slovenščine kot maternega jezika, se je vsekakor primerno vprašati, kako ga uporabljati in komu je namenjen. Martin Božič pojasnjuje: »Model temelji na pozornosti, kajti program se poskuša naučiti, pri kakšnem zaporedju besed se v stavku pojavi vejica, pri čemer učenje oziroma računalniška obdelava večje količine teksta zaradi zahtevnosti procesiranja traja neprimerno več časa kot sama preverba besedil.« 

Sogovornik je pojasnil, da je orodje za vstavljanje vejic dostopno poljubnemu uporabniku, na voljo je brezplačno, in sicer na splošni spletni strani.

Za računalniško preverbo pravilnosti vstavljenih vejic v želenem besedilu si mora uporabnik vzeti zgolj par minut. V praksi model deluje tako, da manjkajoče vejice označi s sivo, odvečne pa z modro barvo. Glede avtorske zaščite računalniškega orodja – izdelka je Božič povedal, da je ta zaščiten na način, da se ga ne sme prodajati.


Prispevek je bil v celoti objavljen v tedniku Naša družina (44/2021). 

Nalaganje
Nazaj na vrh