6533b859fe1ef96bd12b71a7
RESEARCH PRODUCT
Automatizācijas rīki mašīntulkošanas treniņdatu vākšanai no tīmekļa
Ritvars Luksissubject
Datorzinātnedescription
Kvalifikācijas darbā “Automatizācijas rīki mašīntulkošanas treniņdatu vākšanai no tīmekļa” aprakstīta automatizētas datu ieguves no tīmekļa un apstrādes rīku kopa un tās izstrādes process. Rīku kopa paredzēta vienvalodu teksta korpusu izveidei un sastāv no tīkla rāpuļa un no tīmekļa ievāktā satura apstrādātāja. Tīkla rāpulis atlasa derīgo tekstu izmantojot tekstveidņu aizvākšanas rīku “jusText” un ir pielāgojams pēc tīmekļa adrešu apstaigāšanas ātruma, dziļuma, adresēs apskatāmo lapu (saišu) skaita un apstaigāšanas progresa saglabāšanas biežuma. Pēcapstrādes rīks ievākto teksta saturu apstrādā, gala rezultātā izdodot 1 līdz 3 teksta failus ar teikumiem latviešu, krievu un/vai angļu valodā – vienvalodu korpusus. Rīku kopa ir paredzēta 64 bitu Linux Ubuntu operētājsistēmai un ir izstrādāta skriptošanas valodās Perl un Bash.
| year | journal | country | edition | language |
|---|---|---|---|---|
| 2014-01-01 |