0000000000176039
AUTHOR
Pēteris Paikens
Rīku kopa latviešu valodas semantikas analīzei : publikāciju kopa
Promocijas darba pētījuma priekšmets ir automātiskas teksta analīzes metodes, apskatot visus dabiskās valodas apstrādes līmeņus, kas nepieciešami teksta semantiskai analīzei, īpaši pievēršoties risinājumiem, kuri trūka latviešu valodas teksta analīzei. Darbs ir izstrādāts 5 gadu laikā LU MII 4 pētījumu projektu un 2 valsts pētījumu programmu ietvaros. Darbā tiek aprakstītas autora realizētās metodes latviešu valodas nosaukto entitāšu atpazīšanai un piesaistei reālijām. Zināšanu formālās reprezentācijas vajadzībām ir izveidota FrameNet ontoloģija personu un organizāciju datu un attiecību modelēšanai. Darbā ir piedāvāts un realizēts latviešu valodas morfoloģiskās struktūras formāls modelis ar…
Human-in-the-Loop Conversation Agent for Customer Service
This paper describes a prototype system for partial automation of customer service operations of a mobile telecommunications operator with a human-in-the loop conversational agent. The agent consists of an intent detection system for identifying the types of customer requests that it can handle appropriately, a slot filling information extraction system that integrates with the customer service database for a rule-based treatment of the common scenarios, and a template-based language generation system that builds response candidates that can be approved or amended by customer service operators. The main focus of this paper is on the system architecture and machine learning system structure …
Latviešu valodas automatizēta morfoloģiskā un sintaktiskā analīze
Darbā tiek apskatītas pasaulē izmantotās morfoloģiskās un sintaktiskās analīzes metodes, izvērtējot to pielietojuma iespējas brīvu latviešu valodas tekstu automatizētai analīzei. Tiek detalizēti aprakstīts praktiski realizēts risinājums uz leksikona bāzētai morfoloģijas analīzei, kas var nodro ināt kvalitatīvu atpazīšanu 97 % no brīva latviešu valodas teksta vārdiem. Pārējo vārdu atpazīšanai ir izstrādāta metode, kas piekārto iespējamos analīzes variantus, balstoties uz vārda izskaņu, tādējādi ļaujot to efektīvi izmantot citos valodniecības rīkos kā robustu vārdu analīzes slāni. Darbā ir izvērtētas problēmas latviešu valodas sintaktiskajā analīzē, apskatītas dažas praksē realizētas metodes …
OCR Challenges for a Latvian Pronunciation Dictionary
This paper covers the devlopment of a custom OCR solution based on the Tesseract open source engine developed for digitization of a Latvian pronunciation dictionary where the pronunciation data is described using a large variety of diacritic markings not supported by standard OCR solutions. We describe our efforts in training a model for these symbols without the additional support of preexisting dictionaries and illustrate how word error rate (WER) and character error rate (CER) are affected by changes in the dataset content and size. We also provide an error analysis and postulate possible causes for common pitfalls. The resulting model achieved a CER of 2.07%, making it suitable for digi…
LinkedSaeima: A Linked Open Dataset of Latvia’s Parliamentary Debates
This paper describes the LinkedSaeima dataset that contains structured data about Latvia’s parliamentary debates from 1993 until 2017. This information is published at http://dati.saeima.korpuss.lv as Linked Open Data. It is a part of the Corpus of Saeima (the Parliament of Latvia) released as open data for multidisciplinary research. The data model of LinkedSaeima follows the data structure of the LinkedEP dataset with a few modifications. The dataset is augmented with links to the Wikidata knowledge base that provide additional information about the speakers and named entities mentioned in the corpus.