6533b855fe1ef96bd12b0cc6

RESEARCH PRODUCT

Tīmekļa rasmošana

Mārtiņš Balodis

subject

HadoopDatorzinātnerasmošanaHeritrixdatizrace

description

Darbā ir apskatītas Tīmekļa rasmošanas (harvesting) problēmas, ar kurām saskārušās rasmošanas organizācijas, kā arī darba autors, veicot rasmošanas eksperimentus. Tiek aprakstīta hipotētiska uzlabota rasmošanas sistēma, kas varētu izvairīties no noskaidrotajām problēmām. Lietojot Hadoop skaitļošanas platformu, ir analizēti rasmotie dati un ir secināts, ka 67% no lejupielādētā satura satur dublējoša teksta lapas. Ir izstrādāts dublējošo saišu klasifikators, kas spēj klasificēt 80% no dublējošā satura saitēm. Heritrix rasmošanas robotam ir izveidots modulis efektīvākai oriģināla Tīmekļa satura lejupielādei, kas balstīts uz klasifikatora filtriem. Uz praktiski veikto eksperimentu bāzes ir konstatēts, ka izstrādātā risinājuma paredzēto dublējošā satura saišu skaits aug straujāk nekā turpmāk lejupielādējamo saišu skaits.

https://dspace.lu.lv/dspace/handle/7/29482