6533b833fe1ef96bd129c605

RESEARCH PRODUCT

Latviešu valodas morfoloģijas definēšana meklēšanas sistēmai Sphinx

Vitālijs Mikeļevičs

subject

Datorzinātne

description

Viens no pilnteksta meklēšanas pamatiem ir vārdu apstrādes algoritmi, kas atpazīst vārdu formas ar dažādām galotnēm, sufiksiem un prefiksiem, un indeksācijas laikā reducē tos līdz vienai formai, kura tiks izmantota indeksācijas un meklēšanas laikā. Tādi algoritmi tiek saukti par saknes atdalīšanas algoritmiem. Darba ietvaros tika izpētīti vairāki saknes atdalīšanas algoritmu paveidi, izpētīts Portera algoritms, tā realizācija SNOWBALL programmēšanas valodā; izpētīts Kārļa Krēsliņa latviešu valodas sakņu atdalīšanas algoritms, realizēts SNOWBALL programmēšanas valodā, veiksmīgi pārbaudīts uz testu un reālu datu kopām, modificēts labākai darbībai priekš Sphinx meklēšanas sistēmas.

https://dspace.lu.lv/dspace/handle/7/19083