Search results for "korpus"

showing 10 items of 98 documents

Mašīnmācīšanās metožu lietojums vārdu sastatīšanā balstītai paralēlo korpusu novērtēšanai un tīrīšanai

2017

Šajā darbā ir aprakstīta paralēlu korpusu novērtēšanas un tīrīšanas metode, kas automātiski spēj noteikt katra teikuma derīgumu pēc to vārdu sastatījumiem ar paralēlo teikumu. Vārdu sastatījumi teikumā apraksta vārdu atbilstību ar to pašu teikumu iztulkotu citā valodā. Ja tie ir daudz attiecībā pret vārdu daudzumu, tad var pieņemt, ka teikumi ir atbilstīgi. Pazīmju analīzei tiek izmantots mašīnmācīšanās algoritms, kas spēj uzbūvēt laba/slikta teikuma raksturojošu pazīmju modeli. Paralēlu tekstu korpusi ir plaši pielietoti mašīntulkošanas sistēmu izveidē. Tādējādi darbā izvirzīta hipotēze, ka sastatījumos balstīta korpusa novērtēšana un tīrīšana palīdz atbrīvoties no neprecīziem tulkojumiem …

mašīntulkošanaDatorzinātnedatorlingvistikavārdu sastatījumimašīnmācīšanāskorpuss
researchProduct

Unelmieni päivä -sanasto kehityksellisestä näkökulmasta

2021

nuoret aikuisetnuoretsanavarastosuomen kielikielellinen kehityskorpustutkimuslapset (ikäryhmät)
researchProduct

Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych

2021

Autor niniejszego artykułu zgromadził ok. 2,7 mln rosyjskojęzycznych newsów internetowych. Zasadnicze cele tego tekstu stanowią: omówienie pojęcia web crawlingu w odniesieniu do pozyskiwania internetowych danych tekstowych, omówienie kwestii strukturyzacji takich danych w nieanotowanych korpusach tekstowych, a także przedstawienie wybranych aspektów analizy danych strukturyzowanych w ten sposób. Autor rozpatruje newsy internetowe jako połączenie tekstu zasadniczego oraz identyfikujących i charakteryzujących go metadanych (wyróżnionych podczas automatycznej ich ekscerpcji ze stron internetowych). Rozdział newsów na tekst zasadniczy i metadane stwarza możliwość przeprowadzenia ich analizy z d…

ogranicznik tekstucorpus of text fileszwiązki wielowyrazowetext delimiterreproduktInternet newsmulti-word expressionsweb crawlingre-productkorpus plików tekstowychquotenews internetowycudzysłówPrace Językoznawcze
researchProduct

Geographic imagination and urban-rural binary in online discourses related to the capital region of Finland : A corpus onomastic study of Helsinki, V…

2023

The article focuses on digital discourses related to Helsinki, Espoo and Vantaa, the three biggest municipalities in Finland’s capital region. The data consist of texts from the discussion forum of Suomi24 that was analysed to find out how forum users produce socio-spatial distinctions by categorizing some groups as ‘others’ thus differentiating in-groups and out-groups. The analysis used methods of comprised corpus assisted discourse studies (CADS), including collocation analysis. The results show that discourses related both to native and non-native Helsinkians and to those living in the capital region in contrast to those living elsewhere in Finland are common and the juxtapositions betw…

paikannimetcollocationdigital discoursekorpuslingvistiikkakollokaatiotverkkokeskustelukeskustelupalstatcorpus linguisticskeywordpääkaupunkiseutu (Suomi)paikallisuuscapital regionnimistöntutkimusspatial categorygeographical imaginationcorpus onomastics
researchProduct

Slanginimet Hesa ja Stadi Suomi24-keskusteluissa : korpusonomastinen kurkistus

2020

Nimet Hesa ja Stadi mielletään melko latautuneiksi, ja niihin liitetään paljon mielikuvia. Monilla on myös käsitys siitä, ketkä näitä nimiä käyttävät. Mutta millaisia ovat näihin slanginimiin liittyvät keskustelut todellisuudessa? Kurkistus Suomen suosituimmalle keskustelupalstalle paljastaa, mistä puhutaan silloin, kun Helsingistä puhutaan slanginimillä. nonPeerReviewed

paikannimetnimistöntutkimuskeskustelupalstatkorpustutkimusslangiverkkokeskusteluhelsinkiläisyys
researchProduct

Ilmisubjektin esiintyvyys kirjoitetussa oppijansuomessa

2017

Tämä maisterintutkielma selvittää ilmisubjektin esiintyvyyttä kirjoitetussa oppijansuomessa. Tutkimus on aihealueeltaan suomi toisena kielenä -tutkimusta. Ilmisubjektin käyttöä kirjoitetussa oppijansuomessa ei ole vastaavanlaisesti tutkittu. Tutkimus pyrkii selvittämään, miten ilmisubjekti esiintyy yksikön 1. persoonassa Eurooppalaisen viitekehyksen (EVK) eri taitotasoilla. Lisäksi tutkitaan sitä, esiintyykö ilmisubjekti poikkeavasti eri semanttisissa verbiluokissa. Myös selvitetään, vaikuttaako verbin esiintymisfrekvenssi siihen, kuinka usein verbi on ilmisubjektillinen. Ilmisubjektilla tarkoitetaan persoonamuotoisen verbin yhteyteen ilmipantua pronominisubjektia. Tutkimuksessa on eroteltu…

persoonapronominitkorpustutkimusToplingsemantiikkasuomi toisena kielenäkielen oppiminensubjekti
researchProduct

Bewirbt man sich auf, für oder um eine Stelle? Valenzschwankung in Bezug auf die Präpositivergänzung beim Verb sich bewerben

2017

Tutkimuksen teoria pohjautuu valenssiin ja sen eri osa-alueisiin. Kuten monissa muissa kielissä, myös saksan kielessä varsinkin taivutetulla verbillä on keskeinen osa lauseenmuodostuksessa, sillä se kerää ympärilleen tietyn määrän määreitä, joilta se voi vaatia tiettyjä ominaisuuksia. Saksan kieliopissa nämä määreet voidaan jakaa luokkiin, joista tämän työn kannalta merkittävin on prepositiomääre. Se muodostuu prepositiosta ja esimerkiksi nominaaliryhmästä. Prepositiovalintaa on tässä käyttötavassa lähes mahdoton päätellä semanttisesti, mikä tekee siitä kielenopiskelijoille haastavan aiheen. Tutkimuksessa perehdytään verbin sich bewerben (hakea jtak, pyrkiä jhk) valenssiin erityisesti prepo…

prepositiorakennekorpuslingvistiikkakorpustutkimusrektiovalenssi
researchProduct

"Hämäriä kapistuksia" : sydän ja sielu - sanamerkitysten kontekstuaalisesta rakentumisesta

2012

Tässä tutkielmassa tarkastellaan kahden substantiivin tapaustutkimuksen kautta yksittäisten sanojen merkityksen rakentumista tekstissä. Tutkimuskohteena on merkitykseltään tavalla tai toisella läheisten substantiivien sydän ja sielu merkitysten ja keskinäisen semanttisen suhteen representaatiot erilaisissa käyttökonteksteissa. Pääaineistoina toimivat Raamatun uusimman käännöksen Evankeliumi- ja Psalmitekstit, ja täydentävinä aineistoina kahdeksan nykykielenkäyttäjän suulliset haastattelut sekä viisi erilaista sanakirjaa. Aineistojen sanaesiintymien erilaisten piirteiden teemoittelu ja analyysi mahdollistaa tutkittujen sanojen mahdollisten merkitysten kartoittamisen. Metodi nojaa sanasemanti…

psalmitkorpuslingvistiikkasemantiikkaRaamattuevankeliumitsielu
researchProduct

Skaistumkopšanas produktu reklāmas leksika

2016

Šī pētījuma mērķis ir reklāmas valoda. Šajā darbā viens no uzdevumiem ir izpētīt leksikas lietojumu dažādās skaistumkopšanas reklāmās. Lai sasniegtu mērķi tika veikta kvantitatīvā un kvalitatīvā analīze izvēlētajam reklāmas korpusam, kas tika sadalīts pa vairākām kategorijām, kā piemēram matu kopšana, dekoratīvās sejas kosmētika un smaržas. Rezultātā tika secināts, ka visbiežāk lietotais vārds visās trijās grupās bija "jauns".

reklāmavārdu krājumsValodniecībakorpussskaistumkopšanas produkti
researchProduct

Verkkokeskustelujen kansa : korpusavusteinen diskurssianalyysi Suomi24-keskustelupalstasta

2018

People 'kansa' in digital discourses. Corpus-assisted discourse analysis on Suomi24 discussion forum. In this paper, our objective is to analyze how participants use the word kansa 'people' on the largest discussion forum in Finland, called Suomi24 (Finland 24). Our main research questions are the following: 1) What kinds of discourses the forum participants relate to kansa 'people' and 2) what kinds of representations the writers attach to kansa and what kinds of meanings they construct for the term on the discussion forum. Our theoretical and methodological approach is based on corpus-assisted discourse analysis and on digital discourse analysis. Studying the data from two different persp…

representaatioverkkokeskusteluavainsana-analyysidigitaalinen diskurssianalyysikorpuksetkorpusavusteinen diskurssintutkimusdiskurssintutkimusrepresentation (creation related to information)diskurssianalyysi
researchProduct