Search results for "korpus"
showing 10 items of 98 documents
Mašīnmācīšanās metožu lietojums vārdu sastatīšanā balstītai paralēlo korpusu novērtēšanai un tīrīšanai
2017
Šajā darbā ir aprakstīta paralēlu korpusu novērtēšanas un tīrīšanas metode, kas automātiski spēj noteikt katra teikuma derīgumu pēc to vārdu sastatījumiem ar paralēlo teikumu. Vārdu sastatījumi teikumā apraksta vārdu atbilstību ar to pašu teikumu iztulkotu citā valodā. Ja tie ir daudz attiecībā pret vārdu daudzumu, tad var pieņemt, ka teikumi ir atbilstīgi. Pazīmju analīzei tiek izmantots mašīnmācīšanās algoritms, kas spēj uzbūvēt laba/slikta teikuma raksturojošu pazīmju modeli. Paralēlu tekstu korpusi ir plaši pielietoti mašīntulkošanas sistēmu izveidē. Tādējādi darbā izvirzīta hipotēze, ka sastatījumos balstīta korpusa novērtēšana un tīrīšana palīdz atbrīvoties no neprecīziem tulkojumiem …
Unelmieni päivä -sanasto kehityksellisestä näkökulmasta
2021
Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych
2021
Autor niniejszego artykułu zgromadził ok. 2,7 mln rosyjskojęzycznych newsów internetowych. Zasadnicze cele tego tekstu stanowią: omówienie pojęcia web crawlingu w odniesieniu do pozyskiwania internetowych danych tekstowych, omówienie kwestii strukturyzacji takich danych w nieanotowanych korpusach tekstowych, a także przedstawienie wybranych aspektów analizy danych strukturyzowanych w ten sposób. Autor rozpatruje newsy internetowe jako połączenie tekstu zasadniczego oraz identyfikujących i charakteryzujących go metadanych (wyróżnionych podczas automatycznej ich ekscerpcji ze stron internetowych). Rozdział newsów na tekst zasadniczy i metadane stwarza możliwość przeprowadzenia ich analizy z d…
Geographic imagination and urban-rural binary in online discourses related to the capital region of Finland : A corpus onomastic study of Helsinki, V…
2023
The article focuses on digital discourses related to Helsinki, Espoo and Vantaa, the three biggest municipalities in Finland’s capital region. The data consist of texts from the discussion forum of Suomi24 that was analysed to find out how forum users produce socio-spatial distinctions by categorizing some groups as ‘others’ thus differentiating in-groups and out-groups. The analysis used methods of comprised corpus assisted discourse studies (CADS), including collocation analysis. The results show that discourses related both to native and non-native Helsinkians and to those living in the capital region in contrast to those living elsewhere in Finland are common and the juxtapositions betw…
Slanginimet Hesa ja Stadi Suomi24-keskusteluissa : korpusonomastinen kurkistus
2020
Nimet Hesa ja Stadi mielletään melko latautuneiksi, ja niihin liitetään paljon mielikuvia. Monilla on myös käsitys siitä, ketkä näitä nimiä käyttävät. Mutta millaisia ovat näihin slanginimiin liittyvät keskustelut todellisuudessa? Kurkistus Suomen suosituimmalle keskustelupalstalle paljastaa, mistä puhutaan silloin, kun Helsingistä puhutaan slanginimillä. nonPeerReviewed
Ilmisubjektin esiintyvyys kirjoitetussa oppijansuomessa
2017
Tämä maisterintutkielma selvittää ilmisubjektin esiintyvyyttä kirjoitetussa oppijansuomessa. Tutkimus on aihealueeltaan suomi toisena kielenä -tutkimusta. Ilmisubjektin käyttöä kirjoitetussa oppijansuomessa ei ole vastaavanlaisesti tutkittu. Tutkimus pyrkii selvittämään, miten ilmisubjekti esiintyy yksikön 1. persoonassa Eurooppalaisen viitekehyksen (EVK) eri taitotasoilla. Lisäksi tutkitaan sitä, esiintyykö ilmisubjekti poikkeavasti eri semanttisissa verbiluokissa. Myös selvitetään, vaikuttaako verbin esiintymisfrekvenssi siihen, kuinka usein verbi on ilmisubjektillinen. Ilmisubjektilla tarkoitetaan persoonamuotoisen verbin yhteyteen ilmipantua pronominisubjektia. Tutkimuksessa on eroteltu…
Bewirbt man sich auf, für oder um eine Stelle? Valenzschwankung in Bezug auf die Präpositivergänzung beim Verb sich bewerben
2017
Tutkimuksen teoria pohjautuu valenssiin ja sen eri osa-alueisiin. Kuten monissa muissa kielissä, myös saksan kielessä varsinkin taivutetulla verbillä on keskeinen osa lauseenmuodostuksessa, sillä se kerää ympärilleen tietyn määrän määreitä, joilta se voi vaatia tiettyjä ominaisuuksia. Saksan kieliopissa nämä määreet voidaan jakaa luokkiin, joista tämän työn kannalta merkittävin on prepositiomääre. Se muodostuu prepositiosta ja esimerkiksi nominaaliryhmästä. Prepositiovalintaa on tässä käyttötavassa lähes mahdoton päätellä semanttisesti, mikä tekee siitä kielenopiskelijoille haastavan aiheen. Tutkimuksessa perehdytään verbin sich bewerben (hakea jtak, pyrkiä jhk) valenssiin erityisesti prepo…
"Hämäriä kapistuksia" : sydän ja sielu - sanamerkitysten kontekstuaalisesta rakentumisesta
2012
Tässä tutkielmassa tarkastellaan kahden substantiivin tapaustutkimuksen kautta yksittäisten sanojen merkityksen rakentumista tekstissä. Tutkimuskohteena on merkitykseltään tavalla tai toisella läheisten substantiivien sydän ja sielu merkitysten ja keskinäisen semanttisen suhteen representaatiot erilaisissa käyttökonteksteissa. Pääaineistoina toimivat Raamatun uusimman käännöksen Evankeliumi- ja Psalmitekstit, ja täydentävinä aineistoina kahdeksan nykykielenkäyttäjän suulliset haastattelut sekä viisi erilaista sanakirjaa. Aineistojen sanaesiintymien erilaisten piirteiden teemoittelu ja analyysi mahdollistaa tutkittujen sanojen mahdollisten merkitysten kartoittamisen. Metodi nojaa sanasemanti…
Skaistumkopšanas produktu reklāmas leksika
2016
Šī pētījuma mērķis ir reklāmas valoda. Šajā darbā viens no uzdevumiem ir izpētīt leksikas lietojumu dažādās skaistumkopšanas reklāmās. Lai sasniegtu mērķi tika veikta kvantitatīvā un kvalitatīvā analīze izvēlētajam reklāmas korpusam, kas tika sadalīts pa vairākām kategorijām, kā piemēram matu kopšana, dekoratīvās sejas kosmētika un smaržas. Rezultātā tika secināts, ka visbiežāk lietotais vārds visās trijās grupās bija "jauns".
Verkkokeskustelujen kansa : korpusavusteinen diskurssianalyysi Suomi24-keskustelupalstasta
2018
People 'kansa' in digital discourses. Corpus-assisted discourse analysis on Suomi24 discussion forum. In this paper, our objective is to analyze how participants use the word kansa 'people' on the largest discussion forum in Finland, called Suomi24 (Finland 24). Our main research questions are the following: 1) What kinds of discourses the forum participants relate to kansa 'people' and 2) what kinds of representations the writers attach to kansa and what kinds of meanings they construct for the term on the discussion forum. Our theoretical and methodological approach is based on corpus-assisted discourse analysis and on digital discourse analysis. Studying the data from two different persp…