0000000000916851

AUTHOR

Jarmo Harri Jantunen

Korpusavusteinen virheanalyysi tarkkuuden kehityksestä EVK:n taitotasoilla A2–B2

Artikkelissa tarkastellaan kielitaidon taitotasoittaista kehittymistä potentiaalisten esiintymien analyysin (Potential Occasion Analysis, Thewissen, 2015) avulla. Kehittymistä analysoidaan tarkkuuden näkökulmasta, ja sitä mitataan kohdekielen muoto- ja käyttökonventioista poikkeavien muotojen määrällä. Tutkimus on korpuspohjaista virheanalyysia (Corpus-aided Error Analysis, Dagneaux, Dennes & Granger, 1998), ja se perustuu taitotasoilla havaittujen, yhdeksään virheluokkaan sijoittuvien virheiden määrien tilastolliseen testaukseen. Aineistona on Kansainvälinen oppijansuomen korpus(ICLFI). Analyysi osoittaa, että merkittävintä kehitys on tasojen B1 ja B2 välillä; tasojen A2 ja B1 välillä tark…

research product

Oppijankieliaineistojen annotointi – esimerkkinä ICLFI:n annotoinnin prosessit, ongelmat ja ratkaisut

This article illustrates the grammatical and error annotation of learner language with the help of the International Corpus of Learner Finnish (ICLFI). In particular, we will focus on issues arising from handling with at least semi-automatic methods a morphologically rich language. What makes this corpus special compared to, for example, English-language material, is the frequent variation in di" erent forms and related errors, both due to the rich morphology of the target language. This article begins with a description of the design and implementation process of both the grammatical and error annotation, followed by a brief introduction to the material for which the annotations were desig…

research product

Mapping Digital Discourses of the Capital Region of Finland : Combining Onomastics, CADS, and GIS

This article discusses the three Finnish city names Helsinki, Espoo, and Vantaa, and the urban discourses that surround them. The study reveals patterns of socio-spatial differentiation by examining what meanings people attach to these capital region cities and investigating how these meanings are expressed in online discourses. Using the methodological approach of corpus-assisted onomastics (CAO), this study incorporates onomastics, geographical information systems (GIS), and corpus linguistics. This interdisciplinary research also examines how corpus-assisted discourse studies (CADS) and GIS can be combined to reveal and visualize the contextual information and discursive patterns of topo…

research product

Homot ja heterot Suomi24:ssä: analyysi digitaalisista diskursseista

Artikkelissani tarkastelen Suomi24-keskustelupalstan homouteen ja heterouteen liittyviä toistuvia diskursseja. Analyysi on toteutettu korpusavusteisena diskurssintutkimuksena (CADS), jossa suureen dataan perustuva tilastollinen avainsana-analyysi nostaa esiin suomalaisen yhteiskunnan sosiaalisesti jaetut diskurssit. Tulokset yhtäältä tukevat aiempia media-analyyseissä tehtyjä havaintoja voimakkaista affekteista ja vihapuheesta sekä homoseksuaalisuuden politisoitumisesta ja uskonnollistumisesta. Toisaalta se myös paljastaa homodiskurssien henkilöitymisen tai liittymisen tiettyihin henkilöryhmiin ja paikkoihin. Heterodiskurssit puolestaan eroavat selvästi homodiskursseista: niille on tyypilli…

research product

Syntisen pääkaupungin viaton äänne : kielipolitiikkaa, kaupunkikielihistoriaa, sukupuolittunutta kielenkäyttöä ja vähän queeriäkin

Arvioitu teos: Mia Halonen, Samu Nyström, Heikki Paunonen & Johanna Vaattovaara: Stadin syntinen s. Helsinki: Art House 2020. 353 s. isbn 978-951-884-755-0.

research product

Understanding Estonian phraseological units on the basis of Finnish : contributing and misleading factors

Vironkielistä tekstiä lukevien suomalaisten on havaittu hyödyntävän monenlaisia strategioita selvittääkseen sukukielen sanojen merkityksiä. Yksi niistä on pohjustaminen (priming). Kun kyseessä on fraseologinen yksikkö, yksi osa (prime) pohjustaa toisen osan eli kohdesanan (targetin) esiintymistä, mikäli prime on tunnistettavissa äidinkielen perusteella. Tässä artikkelissa kuvaamme muutamia erityistilanteita. Miten pohjustimen ja kohdesanan välinen etäisyys tai teemanvaihdos vaikuttavat ’petollisen ystävän’ ymmärtämiseen? Lisäksi tutkimme sitä, miten ahdasrajainen semanttinen kategoria ohjaa siitä puuttuvan jäsenen merkityksen löytämistä ja millaisia perusteita käännösratkaisuille on löydett…

research product

Oppimiskontekstin vaikutus oppijanpragmatiikkaan : astemääritteet leksikaalisina nallekarhuina

Artikkelissa käsitellään oppimisympäristön vaikutusta astemääritteiden käyttöön. Astemääritteet ovat jonkin ominaisuuden asteen suurta, kohtalaista tai vähäistä määrää ilmaisevia, pragmaattista merkitystä kantavia adverbeja (esim. melko, hyvin, tosi). Oppimisympäristön vaikutusta käsitellään artikkelissa korpusten avulla. Vaikka tällä hetkellä käytössä olevat oppijansuomen aineistot eivät ole täysin vertailukelpoisia keskenään esimerkiksi tekstien tehtävänantojen suhteen, voidaan niiden avulla tehdä alustavia havaintoja oppimiskontekstin vaikutuksesta ja edelleen hypoteeseja tulevia tutkimuksia varten. Oppimiskontekstilla tarkoitetaan tässä tutkimuksessa sitä ympäristöä, jossa kieltä opitaa…

research product

Korpusavusteinen diskurssintutkimus (CADS): analyysiesimerkki homouden ja heterouden digitaalisista diskursseista

The article aims at combining two methodological approaches, namely corpus linguistics and discourse studies. Both of these approaches are present in corpus-assisted discourse studies (CADS) which makes use of both quantitative and qualitative methodologies. First, an attempt is made to discuss the differences and similarities of these two traditions based on Leech’s (2000) listing. However, it turns out that this listing does not include all necessary viewpoints, and those are further discussed. In the empirical section of the paper, the Suomi24 corpus is analysed in order to provide an example of CADS. The analysis was carried out through collocation and discourse prosody analyses. The re…

research product

Korpuspohjaista oppijansanakirjaa tekemässä: esimerkkinä ConLexis

Artikkelimme kasittelee korpuspohjaisia oppijansanakirjoja. Sahkoisiin aineistoihin ja kielenkaytosta hankittuun tutkimukselliseen tietoon perustuvat sanakirjat ovat edelleen harvinaisia, ja kielenoppijoille niita on tarjolla hyvin vahan. Suomesta tallaisia sanakirjoja ei ole ollut lainkaan. Esittelemme yleisesti oppijoille suunnattujen sahkoisten sanakirjojen vaatimuksia ja tarkemmin uuden tekeilla olevan ConLexis-verkkosanakirjan suunnittelutyota, tavoitteita ja sisaltoa. ConLexis on suunnattu B1-tason ja sita edistyneemmille kielenoppijoille, mutta sita voivat opettajat kayttaa opetuksensa tukena alemmillakin taitotasoilla. Sana-artikkeleissa esitetty tieto perustuu laajoihin korpusanaly…

research product

Oppijansuomen sähköiset tutkimusaineistot : nykytilanne

[Johdanto] Korpukset tarjoavat kielentutkijoille mahdollisuuden tutkia kieltä laajojen sähköisten aineistojen avulla. Nykyisin suomen kielen tutkijoiden hyödynnettävissä on paitsi korpuksia, jotka koostuvat äidinkielisten suomenpuhujien kielestä, myös useita sellaisia korpuksia, jotka sisältäjät oppijansuomea. Maailmanjaajuisesti oppijankieliaineistot ovat yhä kasvava korpusaineistojen muoto, ja aineistoja on syntynyt runsaasti myös muista kielistä kuin englannista, joka on pitkään ollut ja on edelleenkin korpusten valtakieli. [Jatkuu, ks. artikkeli] peerReviewed

research product

Learner Language

research product

Commenting on poverty online : A corpus-assisted discourse study of the Suomi24 forum

This paper brings new insight to poverty and social exclusion through an analysis of how poverty-related issues are commented on in the largest online discussion forum in Finland: Suomi24 (‘Finland24’). For data, we use 32,407 posts published in the forum in 2014 that contain the word köyhä (‘poor’) or a predefined semantically similar word. We apply the Corpus-Assisted Discourse Studies (CADS) method, which combines quantitative methods and qualitative discourse analysis. This methodological solution allows us to analyse both large-scale tendencies and detailed expressions and nuances on how poverty is discussed. The quantitative analysis is conducted with topic modelling, an unsupervised …

research product

Verkkokeskustelujen kansa : korpusavusteinen diskurssianalyysi Suomi24-keskustelupalstasta

People 'kansa' in digital discourses. Corpus-assisted discourse analysis on Suomi24 discussion forum. In this paper, our objective is to analyze how participants use the word kansa 'people' on the largest discussion forum in Finland, called Suomi24 (Finland 24). Our main research questions are the following: 1) What kinds of discourses the forum participants relate to kansa 'people' and 2) what kinds of representations the writers attach to kansa and what kinds of meanings they construct for the term on the discussion forum. Our theoretical and methodological approach is based on corpus-assisted discourse analysis and on digital discourse analysis. Studying the data from two different persp…

research product

Sanojen sähköiset suhteet

Professorin juhlaluento 11. joulukuuta 2013 Jyväskylän yliopistossa nonPeerReviewed

research product

Kaapin ovet selällään: vuorovaikutuksen heteronormatiivisuutta rikkomassa

Sukupuolivähemmistöihin kuuluvat henkilöt joutuvat elämänsä aikana päättämään useasti, millaisia omaan suuntautumiseensa liittyviä kielellisiä tekoja (perfomatiiveja) he tekevät ja miten nämä vaikuttavat heidän elämäänsä. Yksi tärkeimmiksi koetuista ja samalla vaikeimmista asioista on omasta seksuaali-identiteetistä kertominen eli niin sanottu kaapista ulos tuleminen. Ulostulo koskee yhtä hyvin homoja, lesboja, biseksuaaleja kuin trans- ja intersukupuolisiakin (hlbti-henkilöt). Myös omasta parisuhteesta kertominen voi aiheuttaa omat ongelmansa monissa tilanteissa, kuten viranomaisten kanssa asioidessa. Käytännössä seksuaalivähemmistöön kuuluvan henkilön elämä on läpi elämän kestävää tasapai…

research product

Corpora, phraseology and dictionaries : How does corpus research intersect language teaching and learning?

This article discusses the role of corpus data in language learning and teaching as well as the benefits of using authentic language data in learner dictionary writing. It has been argued that acquiring and teaching a target language and its phraseology would benefit from the usage of naturally occurring language. In the research on learner language phraseology to date, there is a bias towards analyses of collocations and ngrams. The present article attempts, however, to widen this scope to other dimensions of phraseology, namely semantic preference and semantic prosody, which are more abstract and perhaps more difficult to learn than concrete co-occurring lexical items. This article introd…

research product

Slanginimet Hesa ja Stadi Suomi24-keskusteluissa : korpusonomastinen kurkistus

Nimet Hesa ja Stadi mielletään melko latautuneiksi, ja niihin liitetään paljon mielikuvia. Monilla on myös käsitys siitä, ketkä näitä nimiä käyttävät. Mutta millaisia ovat näihin slanginimiin liittyvät keskustelut todellisuudessa? Kurkistus Suomen suosituimmalle keskustelupalstalle paljastaa, mistä puhutaan silloin, kun Helsingistä puhutaan slanginimillä. nonPeerReviewed

research product

The International Comparable Corpus: Challenges in building multilingual spoken and written comparable corpora

This paper reports on the efforts of twelve national teams in building the International Comparable Corpus (ICC; https://korpus.cz/icc) that will contain highly comparable datasets of spoken, written and electronic registers. The languages currently covered are Czech, Finnish, French, German, Irish, Italian, Norwegian, Polish, Slovak, Swedish and, more recently, Chinese, as well as English, which is considered to be the pivot language. The goal of the project is to provide much-needed data for contrastive corpus-based linguistics. The ICC corpus is committed to the idea of re-using existing multilingual resources as much as possible and the design is modelled, with various adjustments, on t…

research product

Lesbonormatiivisuuksien ristipaineessa: Määrällistä ja laadullista analyysiä Suomi24-verkkokeskusteluista

Artikkelissamme identifioimme tilastollisella avainsana-analyysillä Suomi24-keskustelufoorumilla tuotettuja lesboerityisiä diskursseja, joissa – toisin kuin homodiskursseissa – keskitytään seksuaaliseen suuntautumiseen, sukupuoleen ja ulkonäköön. Lesbodiskursseja tarkastelemme edelleen teoriavetoisen kriittisen lähiluvun avulla. Analyysi nostaa esiin keskusteluja, joissa heteronormatiivisuuden kautta määrittyvä lesbous voidaan kokea hyvinkin ristiriitaiseksi ja ahdistavaksi. Käyttämällä hyväksi lesbomatriisin ja lesbonormatiivisuuden käsitteitä osoitamme, kuinka sekä nais- että miesfeminiinistä lesboutta ja lesboparisuhteita koskevissa keskusteluissa nojataan yhtäältä normatiiviseen ajattel…

research product

Korpuspohjaista oppijansanakirjaa tekemässä: esimerkkiinä ConLexis

Artikkelimme käsittelee korpuspohjaisia oppijansanakirjoja. Sähköisiin aineistoihin ja kielenkäytöstä hankittuun tutkimukselliseen tietoon perustuvat sanakirjat ovat edelleen harvinaisia, ja kielenoppijoille niitä on tarjolla hyvin vähän. Suomesta tällaisia sanakirjoja ei ole ollut lainkaan. Esittelemme yleisesti oppijoille suunnattujen sähköisten sanakirjojen vaatimuksia ja tarkemmin uuden tekeillä olevan ConLexis-verkkosanakirjan suunnittelutyötä, tavoitteita ja sisältöä. ConLexis on suunnattu B1-tason ja sitä edistyneemmille kielenoppijoille, mutta sitä voivat opettajat käyttää opetuksensa tukena alemmillakin taitotasoilla. Sana-artikkeleissa esitetty tieto perustuu laajoihin korpusanaly…

research product

Verkkokeskustelujen kansa

People 'kansa' in digital discourses. 
 Corpus-assisted discourse analysis on Suomi24 discussion forum. 
  In this paper, our objective is to analyze how participants use the word kansa 'people' on the largest discussion forum in Finland, called Suomi24 (Finland 24). Our main research questions are the following: 1) What kinds of discourses the forum participants relate to kansa 'people' and 2) what kinds of representations the writers attach to kansa and what kinds of meanings they construct for the term on the discussion forum.  
  Our theoretical and methodological approach is based on corpus-assisted discourse analysis and on digital discourse analysis.  Studying the data…

research product

Korpusonomastinen tutkimus slanginimistä Hesa ja Stadi digitaalisissa diskursseissa

Artikkelissamme selvitämme Helsinkiä tarkoittavien slanginimien, Hesan ja Stadin, käyttöä uudentyyppisen aineiston ja menetelmän avulla. Aiemmissa näitä nimiä koskevissa tutkimuksissa lähtökohta on ollut kvalitatiivinen, mutta tässä tutkimuksessa lähdemme liikkeelle laajasta digitaalisesta aineistosta ja tilastollisista menetelmistä. Tutkimuksemme on uusi avaus nimistöntutkimuksessa, ja nimitämme sitä korpusavusteiseksi nimistöntutkimukseksi, lyhyemmin korpusonomastiikaksi.
 Aineistonamme on laaja Suomi24-keskustelufoorumista muodostettu ja Kielipankista saatava Suomi24-korpus, josta olemme hakeneet Hesa- ja Stadi-nimet. Tutkimus toteutetaan korpusavusteisena diskurssintutkimuksena. Mo…

research product