Search results for "Heritrix"
showing 1 items of 1 documents
Tīmekļa rasmošana
2015
Darbā ir apskatītas Tīmekļa rasmošanas (harvesting) problēmas, ar kurām saskārušās rasmošanas organizācijas, kā arī darba autors, veicot rasmošanas eksperimentus. Tiek aprakstīta hipotētiska uzlabota rasmošanas sistēma, kas varētu izvairīties no noskaidrotajām problēmām. Lietojot Hadoop skaitļošanas platformu, ir analizēti rasmotie dati un ir secināts, ka 67% no lejupielādētā satura satur dublējoša teksta lapas. Ir izstrādāts dublējošo saišu klasifikators, kas spēj klasificēt 80% no dublējošā satura saitēm. Heritrix rasmošanas robotam ir izveidots modulis efektīvākai oriģināla Tīmekļa satura lejupielādei, kas balstīts uz klasifikatora filtriem. Uz praktiski veikto eksperimentu bāzes ir kons…