0000000000961282
AUTHOR
Matīss Rikters
Universālas metodes Twitter datu analīzei
Šī bakalaura darba mērķis ir izpētīt, kā tiek analizēti dati no sociālā tīkla Twitter un atrast lietderīgākās metodes, kas palīdz šādus datus analizēt. Šajā darbā tiks apskatītas metodes, risinājumi un rīki, kas varētu būt noderīgi jebkādas tematikas Twitter datu analīzei. Darba gaitā, pielietojot apskatītās metodes un risinājumus, tiks izveidots un aprakstīts rīks universālai Twitter datu analīzei.
Combining Machine Translated Sentence Chunks from Multiple MT Systems
This paper presents a hybrid machine translation (HMT) system that pursues syntactic analysis to acquire phrases of source sentences, translates the phrases using multiple online machine translation (MT) system application program interfaces (APIs) and generates output by combining translated chunks to obtain the best possible translation. The aim of this study is to improve translation quality of English – Latvian texts over each of the individual MT APIs. The selection of the best translation hypothesis is done by calculating the perplexity for each hypothesis using an n-gram language model. The result is a phrase-based multi-system machine translation system that allows to improve MT out…
C4.5, C5.0 un SVM klasifikācijas algoritmu izpēte un salīdzināšana datorlingvistikas vajadzībām
Maģistra darba mērķis ir izpētīt populāro valodas apstrādes rīku Maltparser, tā teikumu sintaktiskajā analizatorā izmantotos algoritmus – sintaktiskās analīzes algoritmu Arc-Eager Shift-Reduce un mašīnmācīšanās algoritmu SVM. Maģistra darbā SVM algoritms tiks salīdzināts ar citiem mašīnmācīšanās algoritmiem – C4.5 un C5.0 – kas sniedz ievērojamas priekšrocības tieši valodas apstrādes vajadzībām. Maģistra darba gaitā izstrādāta arī autora realizācija minētajam sintaktiskās analīzes algoritmam un mašīnapmācības algoritmam. Šī maģistra darba mērķis ir pārbaudīt, vai teikuma sintaktiskajai analīzei SVM klasifikatoru var veiksmīgi aizstāt ar C5.0 klasifikatoru, kas ģenerēs cilvēkam izlasāmus un …
K-Translate - Interactive Multi-system Machine Translation
The tool described in this article has been designed to help machine translation (MT) researchers to combine and evaluate various MT engine outputs through a web-based graphical user interface using syntactic analysis and language modelling. The tool supports user provided translations as well as translations from popular online MT system application program interfaces (APIs). The selection of the best translation hypothesis is done by calculating the perplexity for each hypothesis. The evaluation panel provides sentence tree graphs and chunk statistics. The result is a syntax-based multi-system translation tool that shows an improvement of BLEU scores compared to the best individual baseli…
Designing the Business Conversation Corpus
While the progress of machine translation of written text has come far in the past several years thanks to the increasing availability of parallel corpora and corpora-based training technologies, automatic translation of spoken text and dialogues remains challenging even for modern systems. In this paper, we aim to boost the machine translation quality of conversational texts by introducing a newly constructed Japanese-English business conversation parallel corpus. A detailed analysis of the corpus is provided along with challenging examples for automatic translation. We also experiment with adding the corpus in a machine translation training scenario and show how the resulting system benef…
Tracing multisensory food experiences on Twitter
How a food, or a dish, is named and how its components and attributes are described can all influence the perception and the enjoyment of the food. Therefore, tracing patterns in food descriptions and determining their role can be of value. The aims of this study were the following: (1) to describe the multisensory food experience as represented in microblog entries concerning food and drink on Twitter, (2) to provide an overview of the changes in the above-mentioned food representations during the period 2011‐20, and (3) to contribute to a broader understanding of the human‐food relationship as reflected on social media ‐ in this case Twitter ‐ and outline its potential utility for the res…
Hibrīda mašīntulkošana, kombinējot vairāku mašīntulkošanas sistēmu rezultātus.
Šis darbs pēta metodes un izstrādā rīkus, lai kombinētu tulkojumus no dažādām mašīntulkošanas (MT) sistēmām, uzlabojot kopējo tulkojuma kvalitāti. Tiek pētīta metožu piemērojamība mazajām, morfoloģiski bagātajām valodām, it īpaši latviešu un igauņu valodai. Analizētas esošās metodes un izstrādātas vairākas jaunas, kuras implementētas un novērtētas, izmantojot automātisko un cilvēka vērtēšanu. Radītas vairākas jaunas metodes, kas: sadala avotvalodas teikumu fragmentos un tos kombinē, izmantojot valodas modeli; kombinē neirontulkojumus, izmantojot neironu MT uzmanības sastatījumus; iteratīvi papildina apmācības datus ar vairākpakāpju tulkošanas pieeju. Galvenie rezultāti ir jaunu tulkojumu kv…
Multi-system machine translation using online APIs for English-Latvian
This paper describes a hybrid machine translation (HMT) system that employs several online MT system application program interfaces (APIs) forming a MultiSystem Machine Translation (MSMT) approach. The goal is to improve the automated translation of English – Latvian texts over each of the individual MT APIs. The selection of the best hypothesis translation is done by calculating the perplexity for each hypothesis. Experiment results show a slight improvement of BLEU score and WER (word error rate).
Klašu un instanču diagrammu redaktora izstrāde, izmantojot rīku definēšanas platformu GrTP
Šis kvalifikācijas darbs izstrādāts saistībā ar programmēšanas praksi Latvijas Universitātes Matemātikas un informātikas institūtā. Darba mērķis bija izstrādāt programmatūru, ar kuru ir ērti zīmēt un strādāt ar klašu un instanču diagrammām. Programmatūra ļauj lietotājam zīmēt diagrammas elementus, palīdz lietotājam, piedāvājot izvēlēties vērtības elementu laukos, kā arī pārbauda, vai dati, ko lietotājs ievadījis elementu laukos, ievadīti korektā formātā, un, vai pati diagramma sastādīta korekti.