0000000000073656

AUTHOR

Mārcis Pinnis

showing 8 related works from this author

Robust Neural Machine Translation: Modeling Orthographic and Interpunctual Variation

2020

Neural machine translation systems typically are trained on curated corpora and break when faced with non-standard orthography or punctuation. Resilience to spelling mistakes and typos, however, is crucial as machine translation systems are used to translate texts of informal origins, such as chat conversations, social media posts and web pages. We propose a simple generative noise model to generate adversarial examples of ten different types. We use these to augment machine translation systems’ training data and show that, when tested on noisy data, systems trained using adversarial examples perform almost as well as when translating clean data, while baseline systems’ performance drops by…

Machine translationComputer sciencebusiness.industrycomputer.software_genreTranslation (geometry)Consistency (database systems)Robustness (computer science)Web pageNoise (video)Artificial intelligencebusinesscomputerSentenceOrthographyNatural language processing
researchProduct

Data Augmentation for Pipeline-Based Speech Translation

2020

International audience; Pipeline-based speech translation methods may suffer from errors found in speech recognition system output. Therefore, it is crucial that machine translation systems are trained to be robust against such noise. In this paper, we propose two methods for parallel data augmentation for pipeline-based speech translation system development. The first method utilises a speech processing workflow to introduce errors and the second method generates commonly found suffix errors using a rule-based method. We show that the methods in combination allow significantly improving speech translation quality by 1.87 BLEU points over a baseline system.

Machine translationComputer sciencePipeline (computing)media_common.quotation_subjectSpeech recognition[INFO.INFO-LG] Computer Science [cs]/Machine Learning [cs.LG]speech translationSpeech processingcomputer.software_genreneural machine translation[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]robustness to errorsWorkflow[INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG][INFO.INFO-CL] Computer Science [cs]/Computation and Language [cs.CL]Speech translationQuality (business)Noise (video)Suffixcomputermedia_commonHuman Language Technologies – The Baltic Perspective - Proceedings of the Ninth International Conference Baltic HLT 2020
researchProduct

Facilitating terminology translation with target lemma annotations

2021

Most of the recent work on terminology integration in machine translation has assumed that terminology translations are given already inflected in forms that are suitable for the target language sentence. In day-to-day work of professional translators, however, it is seldom the case as translators work with bilingual glossaries where terms are given in their dictionary forms; finding the right target language form is part of the translation process. We argue that the requirement for apriori specified target language forms is unrealistic and impedes the practical applicability of previous work. In this work, we propose to train machine translation systems using a source-side data augmentatio…

FOS: Computer and information sciencesLemma (mathematics)Computer Science - Computation and LanguageMachine translationProcess (engineering)Computer sciencebusiness.industryLatvianTerm (logic)Translation (geometry)computer.software_genrelanguage.human_languageTerminologylanguageArtificial intelligencebusinessComputation and Language (cs.CL)computerNatural language processingSentence
researchProduct

Terminology localization guidelines for the national scenario

2014

The paper is a preprint of the paper accepted to the LREC 2014 : The 9th edition of the Language Resources and Evaluation Conference scheduled May 28, 2014 - May 30, 2014 in Reykjavik (Iceland).

terminology work terminology resources term evaluation corpus analysis
researchProduct

Usage habits of information technology terminology in public communication

2013

Raksts iesniegts publicēšanai 3.Drezena konferences rakstu krājumā.

terminoloģijainformācijas tehnoloģijapubliskā komunikācija
researchProduct

Informācijas tehnoloģijas terminu lietošanas paradumi publiskajā saziņā

2013

Informācijas un komunikācijas tehnoloģijas (IKT) termini galvenokārt tiek radīti angļu valodā un pēc tam lokalizēti citās valodās. Valodu morfoloģisko un terminrades tradīciju atšķirību dēļ šāda lokalizācija mēdz būt diezgan haotiska. Latvijas IKT terminu lokalizētāji ir izstrādājuši samērā stingru, t.s. kvazialgoritmisko pieeju, ko aprobējuši vairāk nekā 15 gadu laikā. Šajā rakstā uz biežāk lietoto terminu piemēra parādīta pieejas dzīvotspēja. Noraidīts izplatītais uzskats, ka IKT terminu lokalizējumi piesārņo latviešu valodu ar svešvārdiem. Analizēta oficiāli apstiprināto terminu lietojamība tekstos un iemesli, kādēļ tie dažkārt sastop ikdienas lietotāju pretestību.

Publiskā saziņaLatviešu valoda - terminu lokalizācijaInformācijas tehnoloģijas termini
researchProduct

Terminoloģijas integrācija statistiskajā mašīntulkošanā

2015

Elektroniskā versija nesatur pielikumus

DatorzinātneInformācijas tehnoloģija datortehnika elektronika telekomunikācijas datorvadība un datorzinātneDatorzinātnes
researchProduct

Konkatenatīvas latviešu valodas runas sintēzes sistēmas izveide

2008

Bakalaura darbā ir aprakstīta autora izstrādāta konkatenatīvas latviešu valodas runas sintēzes sistēma. Bakalaura darba ietvaros tika izstrādāta sistēmas arhitektūra un runas sintēzes bibliotēka, kas nodrošina nepieciešamo funkcionalitāti, lai sistēmu būtu iespējams integrēt ārējos risinājumos. Darbā tiek aprakstīti procesi, kā no teksta latviešu valodā tiek iegūts audio fails, kas satur sākotnējā teksta akustisko reprezentāciju, respektīvi, runu. Darbā tiek arī apskatīti principi, kā no atsevišķiem audio fragmentiem tiek izveidots nepieciešamais audio fails, fragmentus ar dažādām metodēm kombinējot kopā.

Datorzinātne
researchProduct