6533b824fe1ef96bd1281415

RESEARCH PRODUCT

A comparison of HDFS compact data formats: Avro versus Parquet

Laila NiedriteDaiga PlaseRomans Taranovs

subject

Big DataComputer scienceBig dataEnergy Engineering and Power Technology02 engineering and technologyManagement Science and Operations Researchcomputer.software_genreColumn (database)020204 information systemsData query0202 electrical engineering electronic engineering information engineeringHDFSDatabasebusiness.industryPlain textMechanical Engineeringcomputer.file_formatAvroFile formatHiveParquetData formatHadoopBinary data020201 artificial intelligence & image processingbusinesscomputer

description

In this paper, file formats like Avro and Parquet are compared with text formats to evaluate the performance of the data queries. Different data query patterns have been evaluated. Cloudera’s open-source Apache Hadoop distribution CDH 5.4 has been chosen for the experiments presented in this article. The results show that compact data formats (Avro and Parquet) take up less storage space when compared with plain text data formats because of binary data format and compression advantage. Furthermore, data queries from the column based data format Parquet are faster when compared with text data formats and Avro. Article in English. HDFS glaustųjų duomenų formatų palyginimas: Avro prieš Parquet Santrauka Straipsnyje vertinamas duomenų užklausų našumas lyginant Avro ir Parguet failų formatus su teksto failų formatu. Tyrimuose taikytos įvairios duomenų užklausų formos, naudota Cloudera atvirojo kodo Apache Hadoop CDH 5.4 versijos programinė įranga. Tyrimo rezultatai patvirtina, kad glaustieji duomenų formatai (Avro ir Parguet) dėl galimybės įterpti dvejetainį kodą ir naudoti glaudą taupo atmintį. Parodoma, kad duomenų užklausos įvykdomos sparčiau naudojant Parquet nei Avro ar teksto failų formatus. Reikšminiai žodžiai: didieji duomenys, Hadoop, HDFS, Hive, Avro, Parquet.

10.3846/mla.2017.1033http://journals.vgtu.lt/index.php/MLA/article/view/500