Search results for "tietokonelingvistiikka"
showing 3 items of 3 documents
A Qualitative and Quantitative Study on Ancient Latin Texts Concerning the Concept of aether : Some Methodological Considerations
2022
My study focuses on the semantic analysis of an ambiguous Latin word, aether, which may roughly be translated as ‘celestial substance’. The study is carried out by utilising both qualitative and quantitative methods on a digital text corpus containing Latin literature dating from ca. 200 BCE to 200 CE. In this paper, the compilation process and the contents of the corpus are described. Beside qualitative research (close reading), various computational methods are implemented on the corpus (distant reading). Of the latter, cosine similarity and correspondence analysis are discussed in this paper. I will explicate one way of combining qualitative and quantitative methods by assigning numerica…
A Contrastive Evaluation of Word Sense Disambiguation Systems for Finnish
2019
Aiempi saneiden alamerkitysten yksiselitteistämistä käsittelevä työ, kuten monet muut luonnollisen kielen käsittelyyn liittyvät tehtävät, on enimmäkseen keskittynyt englannin kieleen. Vaikka hieman työtä on tehty myös muilla kielillä, mukaan lukien uralilaiset kielet, vertailevaa arviointia suomen kielen saneiden alamerkitysten yksiselitteistämisestä ei ole tähän mennessä julkaistu huolimatta siitä, että tarvittavat leksikaaliset resurssit, erityisesti FinnWordNet, ovat jo pitkään olleet saatavilla. Tämä työ pyrkii korjaamaan tilanteen. Se tarjoaa tuloksia merkittävimpiä lähestymistapoja saneiden alamerkitysten yksiselitteistämiseen edustavista ohjelmista, sisältäen joitakin parhaiten engla…
Dealing with a small amount of data : developing Finnish sentiment analysis
2022
Sentiment analysis has been more and more prominently visible among all natural language processing tasks. Sentiment analysis entails information extraction of opinions, emotions, and sentiments. In this paper, we aim to develop and test language models for low-resource language Finnish. We use the term “low-resource” to describe a language lacking in available resources for language modeling, especially annotated data. We investigate four models: the state-of-the-art FinBERT [1], and competitive alternative BERT models Finnish ConvBERT [2], Finnish Electra [3], and Finnish RoBERTa [4]. Having a comparative framework of multiple BERT variations is connected to our use of additional methods …