6533b7d9fe1ef96bd126c6c4
RESEARCH PRODUCT
Dažādu teksta izmēru klasifikācija
Artūrs Sosinssubject
Datorzinātnedescription
Mūsdienās strauji pieaug informācijas daudzums, ko var atrast sociālajos portālos. Twitter, Facebook statusi un FourSquare checkin padomi, satur daudzu cilvēku viedokļus, atsauksmes un citu svarīgu informāciju, kā arī daudziem cilvēkiem tas ir kļuvis par primāro jaunas un interesantas informācijas iegūšanas avotu, taču šī informācija satur arī daudz papildus informāciju, kas apgrūtina saistošās informācijas iegūšanu. Šādu informāciju, kā viedokļus, cilvēki intereses, notikumus, utt. ir vērts apstrādāt mēģinot to saklasificēt un strukturēt, lai piemēram, varētu attēlot tikai cilvēkiem interesējošus ierakstus, vai izvilkt viedokļus par noteiktām lietām. Bet lielā šīs informācijas daudzuma dēļ to nevar izdarīt manuāli. Ar standarta automatizētām klasifikācijas metodēm arī nepietiek, jo šādi tekstuāli resursi ir parasti ļoti maza izmēra (140 simboliem un mazāk), līdz ar to ir jāmeklē jauni veidi kā varētu izmantot šādus informācijas avotus un apstrādāt datus ar tik mazu izmēru. Šī darba mērķis ir izpētīt kā klasifikācijas metodes atšķiras darbojoties ar dažāda izmēra tekstiem un atrast metodes un klasifikatorus, kas der vislabāk noteiktiem tekstu izmēriem, un noteiktām tekstu īpašībām, piemēram, dažādiem vārdu daudzumiem vai vārdu atkārtojumiem starp tekstiem, kā arī atrast labāko variantu tieši maza izmēri tekstiem un implementēt to.
| year | journal | country | edition | language |
|---|---|---|---|---|
| 2013-01-01 |