0000000001229899

AUTHOR

Laine Strankale

OCR Challenges for a Latvian Pronunciation Dictionary

This paper covers the devlopment of a custom OCR solution based on the Tesseract open source engine developed for digitization of a Latvian pronunciation dictionary where the pronunciation data is described using a large variety of diacritic markings not supported by standard OCR solutions. We describe our efforts in training a model for these symbols without the additional support of preexisting dictionaries and illustrate how word error rate (WER) and character error rate (CER) are affected by changes in the dataset content and size. We also provide an error analysis and postulate possible causes for common pitfalls. The resulting model achieved a CER of 2.07%, making it suitable for digi…

research product

Vārdu nozīmju piekārtošana starp leksiskajiem tīkliem

Latvian WordNet ir latviešu valodas leksiskais tīkls – resurss, kurā vārdu nozīmes ir savienotas, balstoties uz to semantiskajām attieksmēm. Pašlaik tiek manuāli veidots pamattīkls, sasaistot ierobežotu skaitu vārdu nozīmju, taču teksta analīzei ir nepieciešams plašs pārklājums. Šī darba mērķis ir papildināt eksistējošo leksisko tīklu, automātiski piesaistot jaunas vārdu nozīmes un piekārtojot tās angļu valodas leksiskajam tīklam Princeton WordNet. Izvēlētā metode identificē angļu un latviešu valodām kopīgo informāciju, izmantojot latviešu skaidrojošās vārdnīcas Tēzaurs.lv un Princeton WordNet datus un salīdzinot ar vārdlietojuma kartējuma (angliski word embeddings) palīdzību nozīmju definī…

research product