6533b7d0fe1ef96bd125a7fb

RESEARCH PRODUCT

Daudzu līdzīgu daļēji strukturētu dokumentu saspiešana

Aiga Romāne

subject

Datorzinātne

description

Nozīmīga daļa no elektroniski pieejamajiem dokumentiem tiek klasificēti kā daļēji strukturēti dokumenti, piemēram, HTML vai XML. Un tā kā aizvien palielinās šāda veida dokumentu apjoms, saspiešanas metožu attīstība ir aktuāla pētniecības sfēra. Bakalaura darbā tiek apskatītas gan jau esošās daļēji strukturētu dokumentu saspiešanas metodes, gan arī sniegts jauns risinājums. Izstrādātais saspiešanas algoritms balstās uz saspiežamo dokumentu struktūras īpašībām un ir orientēts nevis uz viena, bet gan uz daudzu līdzīgu daļēji strukturētu dokumentu saspiešanu. Kā jaunu ideju risinājums piedāvā regulāras gramatikas izveidošanu dokumentu struktūrai. Darbā tiek sniegts arī risinājuma novērtējums, kas gūts testējot algoritmu uz vairākām datu kopām un salīdzinot ar esošo saspiešanas rīku rezultātiem.

https://dspace.lu.lv/dspace/handle/7/25536