Menu
Košarica
Zapri

Tvoja košarica je prazna.

Zapri
Iskanje

Na voljo nova različica korpusa Gigafida

Za vas piše:
Katja Cingerle
Objava: 14. 06. 2019 / 09:27
Oznake: Cerkev, Družba
Čas branja: 2 minuti
Nazadnje Posodobljeno: 14.06.2019 / 10:24
Ustavi predvajanje Nalaganje

Na voljo nova različica korpusa Gigafida

Center za jezikovne vire in tehnologije je predstavil novo različico korpusa Gigafida, Gigafida 2.0.

V četrtek, 13. junija, je Center za jezikovne vire in tehnologije Univerze v Ljubljani na Filozofski fakulteti predstavil novo različico korpusa Gigafida, imenovano Gigafida 2.0. Gre za korpus Korpus pisne standardne slovenščine, bogatejši predvsem za besedila iz spletnih novičarskih portalov, učbenikov in leposlovja, sicer pa je v korpusu mogoče iskati tudi po besedilih iz časopisov, revij in knjižnih publikacij. Gigafida 2.0 ima 1,1 milijarde besed.




Kako se je korpus razvijal, kako je potekala prenova in kaj je vključeno v prenovljen korpus in kaj izločeno iz njega, je predstavil Simon Krek, o začetkih korpusa in njegovi uporabi je spregovoril Marko Stabej, o pridobivanju gradiva in urejanju avtorskih pravic z besedilodajalci pa Andraž Repar, na kratko je iskanje po Gigafidi 2. 0 prikazala Špela Arhar Holdt.

Korpus pisne standardne slovenščine

Gigafida 2.0 je korpus pisne standardne slovenščine, kar pomeni, da so iz nje izvzeta govorjena besedila (npr. parlamentarne razprave, podnapisi) in nestandardna besedila, kot so komentarji z novičarskih forumov. Odstranili so tudi ponovljena besedila.

Korpus Gigafido 2.0 sestavljajo predvsem časopisi, spletna besedila in revije. Medtem ko so v prejšnji različici Gigafide, ki je širši javnosti na voljo od leta 2012, besedila, ki so nastala med letoma 1990 in 2011, je zdaj v novi več kot četrtina besedil, nastalih po izidu prejšnje različice (2012-2018).

Nove možnosti iskanja

Ne le vsebinsko, tudi oblikovno prenovljen korpus prinaša možnosti osnovnega in naprednega iskanja, kot smo ga poznali že prej, omogočeno pa je preglednejše raziskovanje okolice iskanih besed in seznam najdenih pojavitev različnih oblik. Izboljšali so strojno jezikoslovno označevanje in prenovili uporabniški vmesnik.

Kdo uporablja korpus?

Korpus je namenjen raziskovalcem jezika, izdelovalcem slovarjev, slovnic, učnih gradiv, v pomoč pa je lahko tudi pri razvoju jezikovnih tehnologij za slovenščino. Pri svojem delu jih uporabljajo lektorji, prevajalci, učitelji slovenščine v osnovnih in srednjih šolah, njihovi učenci, tisti, ki se slovenščine učijo kot drugega ali tujega jezika in drugi ljubitelji slovenske besede.

Za jezikoslovno rabo je korpus prosto dostopen tudi v konkordančnikih NoSketchEngine, Kontext in v orodju SketchEngine. V teh orodjih je dosegljiv tudi korpus Gigafida 2.0 Proto, v katerem so ohranili podvojene besedilne fragmente. Proto različica vsebuje 1,8 milijarde besed.

Posodobitev korpusa je finančno podprlo Ministrstvo za kulturo.

Kupi v trgovini

Novo
1945: Dnevnik mojega križevega pota
Zgodovina
29,90€
Nalaganje
Nazaj na vrh