6533b859fe1ef96bd12b71a7

RESEARCH PRODUCT

Automatizācijas rīki mašīntulkošanas treniņdatu vākšanai no tīmekļa

Ritvars Luksis

subject

Datorzinātne

description

Kvalifikācijas darbā “Automatizācijas rīki mašīntulkošanas treniņdatu vākšanai no tīmekļa” aprakstīta automatizētas datu ieguves no tīmekļa un apstrādes rīku kopa un tās izstrādes process. Rīku kopa paredzēta vienvalodu teksta korpusu izveidei un sastāv no tīkla rāpuļa un no tīmekļa ievāktā satura apstrādātāja. Tīkla rāpulis atlasa derīgo tekstu izmantojot tekstveidņu aizvākšanas rīku “jusText” un ir pielāgojams pēc tīmekļa adrešu apstaigāšanas ātruma, dziļuma, adresēs apskatāmo lapu (saišu) skaita un apstaigāšanas progresa saglabāšanas biežuma. Pēcapstrādes rīks ievākto teksta saturu apstrādā, gala rezultātā izdodot 1 līdz 3 teksta failus ar teikumiem latviešu, krievu un/vai angļu valodā – vienvalodu korpusus. Rīku kopa ir paredzēta 64 bitu Linux Ubuntu operētājsistēmai un ir izstrādāta skriptošanas valodās Perl un Bash.

https://dspace.lu.lv/dspace/handle/7/23166