6533b86ffe1ef96bd12cd6bf

RESEARCH PRODUCT

Mašīnmācīšanās metožu lietojums vārdu sastatīšanā balstītai paralēlo korpusu novērtēšanai un tīrīšanai

Ieva Zariņa

subject

mašīntulkošanaDatorzinātnedatorlingvistikavārdu sastatījumimašīnmācīšanāskorpuss

description

Šajā darbā ir aprakstīta paralēlu korpusu novērtēšanas un tīrīšanas metode, kas automātiski spēj noteikt katra teikuma derīgumu pēc to vārdu sastatījumiem ar paralēlo teikumu. Vārdu sastatījumi teikumā apraksta vārdu atbilstību ar to pašu teikumu iztulkotu citā valodā. Ja tie ir daudz attiecībā pret vārdu daudzumu, tad var pieņemt, ka teikumi ir atbilstīgi. Pazīmju analīzei tiek izmantots mašīnmācīšanās algoritms, kas spēj uzbūvēt laba/slikta teikuma raksturojošu pazīmju modeli. Paralēlu tekstu korpusi ir plaši pielietoti mašīntulkošanas sistēmu izveidē. Tādējādi darbā izvirzīta hipotēze, ka sastatījumos balstīta korpusa novērtēšana un tīrīšana palīdz atbrīvoties no neprecīziem tulkojumiem un uzlabot mašīntulkošanas sistēmu kvalitāti.

https://dspace.lu.lv/dspace/handle/7/35208