Menu
Košarica
Zapri

Tvoja košarica je prazna.

Zapri
Iskanje

Z jezikovnimi orodji smo bliže vam

Za vas piše:
Katja Cingerle
Objava: 04. 02. 2020 / 12:30
Oznake: Cerkev, Družba
Čas branja: 8 minut
Nazadnje Posodobljeno: 11.02.2020 / 12:54
Ustavi predvajanje Nalaganje
Z jezikovnimi orodji smo bliže vam

Z jezikovnimi orodji smo bliže vam

O eBralcu, ki prebere članke na spletni strani, smo se pogovarjali z Antonom Romšakom iz podjetja Amebis.

Družina stopa po poti vrednot, kot so sočutje, solidarnost, razumevanje ter ljubezen do domovine in slovenske kulture. To izkazuje tudi sintetizator govora eBralec, ki je decembra lani zaživel na spletni strani Družine www.druzina.si. Z njim je posredovanje vsebine precej laže, saj članke prebere kar eBralec sam. Tako je Družina pokazala, da nam je mar za vse bralce, tudi za tiste, ki imajo težave z vidom. Poslušanje članka omogoča tudi, da vam ni treba gledati v zaslon, zato lahko medtem počnete še kaj drugega.



Kako je nastal eBralec, nam je pojasnil Anton Romšak iz podjetja Amebis, ki razvija jezikovne tehnologije za slovenščino, med drugim tudi avtomatsko lektorico Besano, ki bo na Založbi Družina kmalu v pomoč.

Družina je prvi medij v Sloveniji, ki uporablja eBralca. Kako se je začelo sodelovanje?

V Sloveniji je spletna stran Družine prvi medij, ki uporablja eBralca. Lahko vas tudi pohvalim za odlično sodelovanje, ki se še nadaljuje.

Še pred Družino so eBralca imeli v zamejski Sloveniji in tako je zanj izvedela tudi Družina. V Italiji je bil leta 2017 sprejet zakon, da morajo biti mediji prijazni do ljudi z omejitvami, zato so morali vsi spletni mediji omogočiti poslušanje besedil na svojih spletnih straneh z začetkom leta 2018. Tik pred zdajci, ko so bili že v hudi časovni stiski, so na začetku decembra 2017 izvedeli za eBralca. Vse smo jim uredili še pred božičem 2017.

Za eBralca je vse več zanimanja. Zelo verjetno ga bo v letu 2020 na svoje spletne strani vključila tudi večja slovenska medijska hiša.

Kaj ste ugotovili do zdaj o besedilih Družine?

Vodja informatike Primož Jerman nam je poslal nekaj besedil iz časopisa Družina in prilog, ki smo jih spustili skozi svoj jezikovni analizator, da bi ugotovili neznane besede ter njihov obseg. Zaradi neznanih besed lahko pade analiza stavka oz. povedi, kar se nato odraža v slabši kakovosti govora.

Analizator je naletel na cel kup kratic, to so viri za navedke iz Svetega pisma (npr. Lk 3,3). S Primožem smo se že dogovorili, da nam bo poslal seznam pravil izgovarjav teh kratic, da bo eBralec takšne strukture pravilno izgovarjal s celimi besedami, ne pa dobesedno bral kratice.

Upam, da bomo čim več kratic lahko rešili avtomatsko s pravili, verjetno pa nas čaka tudi nekaj ročnega dela.

Za naročnika je zelo pomembno, da se mu čim bolj prilagodimo in mu nudimo čim boljšo podporo.

Lahko rečemo, da ste vodilni v Sloveniji pri sintezi govora?

Da, saj prave konkurence pravzaprav nimamo, še posebej glede kakovosti. Slovenščina je zaradi pregibnosti (sklanjanje samostalnikov, spreganje glagolov, stopnjevanje pridevnikov) pogosto trd oreh za jezikovna orodja, narejena na osnovi angleškega jezika. Dodatno kakovost dosegamo zaradi načina dela na osnovi jezikovnih analiz besedila. Tak način dela nam omogoča že prej omenjena edinstvena baza podatkov slovenskih besed, oblik, pomenov in naglasov ter lasten jezikovni analizator besedil.

S katerimi področji vse se ukvarja podjetje Amebis?

V Amebisu se že vse od ustanovitve dalje, od leta 1991, ukvarjamo z jezikovnimi tehnologijami oz. morda bolj razumljivo povedano z računalniško obdelavo jezika. Začeli smo s slovarji, nadaljevali s črkovalnikom, ki ga Microsoftu dobavljamo že vse od začetka zbirke Office. Nato je sledila avtomatska lektorica Besana, nato prevajalnik za angleški in nemški jezik, sintetizator govora, spletni brezplačni slovarski portal Termania – postavili smo tudi slovarski portal Fran. Sodelovali smo tudi pri izdelavi raznih obsežnih jezikovnih korpusov, npr. Gigafida, bili nosilec velikega projekta Sporazumevanje v slovenskem jeziku itd. Izdelali smo tudi digitalnega pomočnika SecondEGO.

Večina naših orodij, npr. avtomatska lektorica Besana, sintetizator govora eBralec, chatbot SecondEGO, uporabljajo našo jezikovno bazo, ki ji v Sloveniji ni para. V naši bazi je več kot 300.000 besed z vsemi možnimi oblikami besed, okvirno torej 10 milijonov besednih oblik, z vključenimi pomeni in naglasi.



Enake besedne oblike imajo lahko različne pomene in naglase. Vse to mora upoštevati tudi sintetizator govora oz. pretvornik besedila v govor eBralec, ki ga sedaj uporablja Družina na svoji spletni strani. Npr. »Velik je kot drevo« ali »Usedel se je v kót«. Analizator besedila mora vsako besedo prepoznati in jo pravilno naglasiti.

Vse svoje jezikovne programe, orodja in tudi bazo nenehno posodabljamo, da so vse boljši in boljši.

S katerimi jezikoslovci sodelujete?

Z jezikovnimi dilemami se v podjetju največ ukvarja Peter Holozan, ki je na Filozofski fakulteti doktoriral na temo vejic, sicer pa večinoma sodelujemo z Inštitutom za slovenski jezik Frana Ramovša ZRC SAZU, nekaj pa tudi z drugimi.

Kako je nastal eBralec? Kakšnega uporabnika ste imeli v mislih, ko ste ga razvijali?

eBralca smo v Amebisu naredili skupaj v partnerskem sodelovanju s podjetjem Alpineon in Inštitutom Jožef Stefan v okviru razpisa Zveze društev slepih in slabovidnih Slovenije. Vsak partner je imel že prej ali svoj sintetizator govora ali pa izkušnje s sintezo govora. Pri eBralcu smo združili moči, da je iz prejšnjih slabših nastal zelo dober sintetizator govora.

Osnovni uporabniki eBralca so še vedno osebe z omejitvami, slepi in slabovidni in disleksiki. Zaradi zelo dobre izgovarjave pa je eBralec tudi širše uporaben. Lahko ga uporabljajo javne ustanove ali podjetja, kot je npr. Družina.

Slepim, slabovidnim in disleksikom je eBralec na voljo brezplačno. eBralec je brezplačen tudi za vse javne ustanove, npr. v šolah kot pomoč pri učenju za osebe z omejitvami.

Kako ste ustvarili glas eBralca?

Eno od pogostejših vprašanj je, ali eBralec govori z resničnim človeškim glasom. Odgovor je, da.

Za trenutno različico eBralca smo pripravili okvirno 4.000 stavkov, ki naj bi zajeli čim več možnih izgovarjav. Te stavke smo nato posneli s profesionalnima govorcema, moškim in žensko. Govorne posnetke profesionalnih govorcev nato označimo na najmanjše enote, na glasove oz. t. i. foneme. S tem dobimo osnovo za učenje umetne inteligence, ki nato pri sintezi poskrbi za izgovarjavo besedil.



V razvoju je že nova verzija eBralca, ki naj bi bila še mnogo boljša od sedanje verzije. Za to verzijo smo pripravili več deset tisoč stavkov, ki smo jim dodali še izgovarjave datumov, pogostih besednih zvez pa tudi posnetke smeha, kašljanja ..., vse z namenom, da bo glas čim bolj naraven glede na različne situacije.

Kot zanimivost lahko povem, da je snemanje glasov zelo zamudno, saj mora govorec vse stavke prebrati enako, z enako hitrostjo in višino glasu. Za govorca je to tako utrudljivo, da lahko snema največ od ene do dve uri dnevno, vmes pa mora obvezno imeti premore.

Zelo se trudite, da so vaša orodja ne le dobra, ampak čim boljša. Kaj pa menite o jeziku na družbenih omrežjih, ki je precej okoren?

Velikokrat gre za tipičen problem angleške obravnave slovenskega pregibnega jezika. Podpora pregibnosti je seveda možna, kar mi stalno dokazujemo. Vprašanje pa je, ali je za svetovne velikane smiselno podpreti težaven jezik z majhnim številom uporabnikov.

Glede okornosti in površnosti jezika uporabnikov družbenih omrežij pa verjetno ni pomoči, saj je že način komunikacije vse bolj površen. Videti je, da je ljudem vseeno, kaj in kako objavljajo. Važno je, da objavljajo, da jih drugi opazijo.

Menite, da Besana dejansko izboljšuje slovnično znanje piscev?

Besana ima, če poenostavim, dva tipa uporabnikov. Jezikovne strokovnjake, kamor spadajo npr. lektorji in prevajalci ter vse druge. Jezikovni strokovnjaki uporabljajo Besano predvsem zato, da česa ne spregledajo. Vsem drugim Besana popravlja slovnične in slogovne napake in jih pri tem seveda tudi pridno uči.

Nekatera podjetja se vse bolj zavedajo pomembnosti pravilne rabe jezika. Kar nekaj jih je naročilo Besano za vse zaposlene, nekateri tudi za več kot 1.000 zaposlenih. Še vedno pa je ogromno takih, ki so prepričani, da obvladajo slovenski jezik, čeprav s svojim pisanjem to stalno negirajo.

Besano ima večina profesorjev na ljubljanskih fakultetah. Nekateri jo uporabljajo za slovnično preverjanje seminarskih in diplomskih nalog študentov.

Besano bomo v prvi polovici leta 2020 vgradili v uredniški sistem StoryEditor, ki ga uporablja vse več medijskih hiš v Sloveniji, tudi Družina. Novinarji s tem dobijo slovnično podporo pri pisanju člankov, obenem pa se lektorji razbremenijo, da se zares ukvarjajo z lekturo, ne pa le s slovničnim popravljanjem besedil.

Naj omenim še eno vaše orodje – virtualne asistente. Kako nam lahko pomagajo?

Pravilnejši izraz bi bil digitalni pomočnik, saj virtualni asistent v angleškem jeziku pomeni človeka, ki pomaga na daljavo. Digitalni pomočnik (ang. chatbot) pa je pogovorni robot.

Digitalni pomočniki se lahko uporabljajo na spletnih straneh, v različnih komunikacijskih kanalih, lahko pa se uporabljajo tudi znotraj aplikacij oz. programov.

Z uvedbo digitalnega pomočnika uporabniku ni več treba iskati informacij. Uporabnik preprosto vpraša digitalnega pomočnika, podobno kot bi vprašal človeka v klicnem centru, ali prodajalca v trgovini. Ta mu lahko odgovori, odpre stran s podatki, predlaga najprimernejši izdelek ipd. Z uvedbo digitalnega pomočnika poleg uporabnikov pridobi tudi ponudnik. Ponudnik lahko zmanjša stroške z zmanjšanjem števila ljudi v klicnem centru, uporabniku nudi podporo 24/7, poenostavi in pohitri prodajni proces ipd.

Novinarjem bi zelo prav prišel program, ki bi znal prepoznati govor in govorno besedilo pretvoriti v pisno obliko. Morda kaj delate na tem?

Tudi z razpoznavo govora smo se začeli ukvarjati. Prvi konkretni rezultati naj bi bili vidni v drugi polovici leta 2020. Kakovost razpoznave je zelo odvisna od širine besedišča za razpoznavo. Čim širši je obseg besedišča, tem teže je to narediti. Pri novinarjih pa besedišče praktično nima omejitev.

Foto: Tatjana Splichal

Preberite tudi:
Si prebral uvodni članek v Družini? Ne, poslušal sem ga!

Kupi v trgovini

Življenjske težave
Drugi priročniki
4,00€
Nalaganje
Nazaj na vrh