6533b7cffe1ef96bd12588d3
RESEARCH PRODUCT
Latviešu valodas korpusa izveide no emuāru tekstiem
Mārtiņš Laizānssubject
tekstu izgūšanaDatorzinātnekorpusstiešsaistes valodaemuāridescription
Latviešu valodas korpuss sastāv galvenokārt no periodikas un daiļliteratūras, kur lietotā valoda ir atšķirīga no ikdienā lietotās valodas. Emuāri lielākoties stilistiski ir tuvāki sarunvalodai, jo lielākā daļa to autoru nav profesionāli rakstnieki vai žurnālisti, tāpēc šāda materiāla valodas korpuss paver jaunas pētījumu iespējas gan lingvistiem, gan datorlingvistiem. Darba ietvaros izstrādāta sistēma emuāru tekstu izgūšanai un izveidots korpuss ar ~ 12 milj. teksta vienībām. Darba ietvaros veikta izgūto tekstu kvalitātes izvērtēšana, izmantojot vārdu pamatformu īpatsvaru no leksikona un valodas noteikšanu. Iegūtais materiāls tika sadalīts 4 kvalitātes grupās. Darba gaitā izgūtie teksti apkopoti korpusā un pieejami publiski. Arī izveidotas tekstu izgūšanas izejas kods pieejams publiski turpmāku pētījumu veikšanai.
| year | journal | country | edition | language |
|---|---|---|---|---|
| 2015-01-01 |