0000000000392149

AUTHOR

Kārlis Immers

Latviešu–angļu mašīntulkošanas optimizācija

Pēdējo gadu laikā notikusī straujā dziļās mašīnmācīšanās attīstība ir ļāvusi attīstīties arī mašīntulkošanas nozarei. Lai palīdzētu uzņēmējiem apgūt starptautiskos tirgus un ļautu datortehnikas lietotājiem izmantot tehnoloģijas dzimtajā valodā, ir svarīgi attīstīt latviešu valodas mašīntulkošanas tehnoloģijas. Šajā darbā aprakstīti neirontulkošanas darbības principi un latviešu valodas morfoloģiskās īpatnības. Identificētas metodes, kas pašlaik sniedz labākos rezultātus latviešu valodas tulkošanā. Papildus tam ir veikti eksperimenti ar neirontulkošanas sistēmu trenēšanu un optimizāciju latviešu valodas tulkošanai. Darbā tiek aprakstīts jauns latviešu valodas vārdu segmentācijas algoritms, k…

research product

Semi-automatic Quasi-morphological Word Segmentation for Neural Machine Translation

This paper proposes the Prefix-Root-Postfix-Encoding (PRPE) algorithm, which performs close-to-morphological segmentation of words as part of text pre-processing in machine translation. PRPE is a cross-language algorithm requiring only minor tweaking to adapt it for any particular language, a property which makes it potentially useful for morphologically rich languages with no morphological analysers available. As a key part of the proposed algorithm we introduce the ‘Root alignment’ principle to extract potential sub-words from a corpus, as well as a special technique for constructing words from potential sub-words. We conducted experiments with two different neural machine translation sys…

research product