0000000000392149
AUTHOR
Kārlis Immers
Latviešu–angļu mašīntulkošanas optimizācija
Pēdējo gadu laikā notikusī straujā dziļās mašīnmācīšanās attīstība ir ļāvusi attīstīties arī mašīntulkošanas nozarei. Lai palīdzētu uzņēmējiem apgūt starptautiskos tirgus un ļautu datortehnikas lietotājiem izmantot tehnoloģijas dzimtajā valodā, ir svarīgi attīstīt latviešu valodas mašīntulkošanas tehnoloģijas. Šajā darbā aprakstīti neirontulkošanas darbības principi un latviešu valodas morfoloģiskās īpatnības. Identificētas metodes, kas pašlaik sniedz labākos rezultātus latviešu valodas tulkošanā. Papildus tam ir veikti eksperimenti ar neirontulkošanas sistēmu trenēšanu un optimizāciju latviešu valodas tulkošanai. Darbā tiek aprakstīts jauns latviešu valodas vārdu segmentācijas algoritms, k…
Semi-automatic Quasi-morphological Word Segmentation for Neural Machine Translation
This paper proposes the Prefix-Root-Postfix-Encoding (PRPE) algorithm, which performs close-to-morphological segmentation of words as part of text pre-processing in machine translation. PRPE is a cross-language algorithm requiring only minor tweaking to adapt it for any particular language, a property which makes it potentially useful for morphologically rich languages with no morphological analysers available. As a key part of the proposed algorithm we introduce the ‘Root alignment’ principle to extract potential sub-words from a corpus, as well as a special technique for constructing words from potential sub-words. We conducted experiments with two different neural machine translation sys…