Apache Parquet

Caractéristiques
Extension	.parquet
Type MIME	application/vnd.apache.parquet
PUID	fmt/2023
Signature	50 41 52 31 (hexa)
Développé par	Apache Software Foundation
Version initiale	13 mars 2013, 13 mai 2015
Site web	(en) parquet.apache.org

Informations
Développé par	Apache Software Foundation
Première version	13 mai 2015
Dernière version	1.16.0 (3 septembre 2025)
Dépôt	github.com/apache/parquet-java
Écrit en	Java
Type	Projet de la fondation Apache (d); Format de fichier (en)
Licence	Licence Apache 2.0
Documentation	parquet.apache.org/docs
Site web	parquet.apache.org

Apache Parquet est un format de fichiers orienté colonne, initialement développé pour l'écosystème de calcul distribué Apache Hadoop. Il est similaire aux autres formats de fichiers de stockage colonnaires disponibles dans Hadoop, à savoir RCFile et Optimized RCFile. Il est compatible avec la plupart des frameworks de traitement de données de l'environnement Hadoop. Il fournit des schémas efficaces de compression et de codage de données avec des performances améliorées pour gérer des données complexes en masse.

Historique

Le projet open source qui a abouti à Apache Parquet vient des efforts conjoints entre Twitter^[3] et Cloudera^[4]. La première version de Apache Parquet 1.0 sort en juillet 2013. Depuis le 27 avril 2015 Apache Parquet devient un projet top-level de la Apache Software Foundation ^[5]^,^[6]

Fonctionnalités

Apache Parquet utilise l’algorithme de fragmentation et d’assemblage des enregistrements (« record-shredding and assembly »), qui permet de gérer les structures de données complexes utilisées pour le stockage des données^[7]. Les valeurs de chaque colonne sont stockées dans des emplacements mémoire contigus, offrant les avantages suivants :

La compression par colonne optimise l’espace de stockage.
Des techniques d’encodage et de compression spécifiques au type de données de chaque colonne peuvent être appliquées.
Les requêtes ciblant des valeurs de colonnes spécifiques n’ont pas besoin de lire l’intégralité de la ligne, ce qui améliore les performances.

Apache Parquet est implémenté à l’aide du framework Apache Thrift, ce qui accroît sa flexibilité : il est compatible avec plusieurs langages de programmation comme C++, Java, Python, PHP, etc. En août 2015, Parquet supportait les frameworks de traitement de données massives suivants : Apache Hive, Apache Drill, Apache Impala, Apache Crunch, Apache Pig, Cascading, Presto et Apache Spark. Il s’agit également de l’un des formats de données externes utilisés par les bibliothèques pandas et polars de Python, dédiées à la manipulation et à l’analyse de données.

Compression et encodage

Avec Parquet, la compression s'effectue colonne par colonne, ce qui permet d'utiliser différents schémas d'encodage pour les données textuelles et les données entières. Cette stratégie permet également d'ouvrir la voie à la mise en œuvre de nouveaux schémas d'encodage plus performants à mesure qu'ils sont inventés.

Parquet prend en charge divers formats de compression : snappy, gzip, LZO, brotli, zstd et LZ4^[8].

Encodage par dictionnaire

Parquet dispose d'un encodage par dictionnaire automatique activé dynamiquement pour les données comportant un petit nombre de valeurs uniques (c'est-à-dire inférieur à 105), ce qui permet une compression importante et augmente la vitesse de traitement^[9].

Compression par bits

Le stockage des entiers s'effectue généralement avec 32 ou 64 bits dédiés par entier. Pour les petits entiers, le regroupement de plusieurs entiers dans le même espace rend le stockage plus efficace^[9].

Codage par plages (RLE)

Afin d'optimiser le stockage de plusieurs occurrences d'une même valeur, on utilise un encodage par plages, qui consiste à stocker une seule fois une valeur unique avec le nombre d'occurrences^[9].

Parquet met en œuvre un hybride de bit packing et de RLE, dans lequel le codage bascule en fonction de celui qui produit les meilleurs résultats de compression. Cette stratégie fonctionne bien pour certains types de données entières et se combine bien avec le codage par dictionnaire^[9].

Data Lakes et autres stockages Cloud

Le format Apache Parquet est largement utilisé comme format de fichier sous-jacent dans les architectures modernes de lacs de données. Des systèmes de stockage dans le cloud tels qu'Amazon S3, Azure Data Lake Storage et Google Cloud Storage stockent généralement les données au format Parquet en raison de ses capacités efficaces de représentation et de récupération en colonnes. Les environnements de data lakehouse, notamment Apache Iceberg, Delta Lake et Apache Hudi , ajoutent une couche de métadonnées supplémentaire aux fichiers Parquet afin de prendre en charge des fonctionnalités telles que l'évolution des schémas, les requêtes temporelles et les transactions conformes à l'ACID. Dans ces architectures, les fichiers Parquet servent de couche de stockage immuable, tandis que les formats de table gèrent le versionnage des données et l'intégrité transactionnelle.

Comparaison

Apache Parquet est comparable aux formats de fichiers RCFile et Optimized Row Columnar (ORC) : tous trois appartiennent à la catégorie des formats de stockage de données en colonnes dans l'écosystème Hadoop. Ils offrent tous une meilleure compression et un meilleur encodage, ainsi que des performances de lecture améliorées, au détriment d'une vitesse d'écriture plus lente. En plus de ces fonctionnalités, Apache Parquet prend en charge une évolution limitée du schéma^[10], c'est-à-dire que le schéma peut être modifié en fonction des changements apportés aux données. Il offre également la possibilité d'ajouter de nouvelles colonnes et de fusionner des schémas qui n'entrent pas en conflit.

Apache Arrow est conçu comme un complément en mémoire aux formats en colonnes sur disque tels que Parquet et ORC. Les projets Arrow et Parquet comprennent des bibliothèques qui permettent la lecture et l'écriture entre les deux formats^[11].

Articles connexes

Notes et références

↑ « https://projects.apache.org/json/projects/parquet.json » (consulté le 8 avril 2020)
↑ « Release 1.16.0 », 3 septembre 2025 (consulté le 12 septembre 2025)
↑ « Announcing Parquet 1.0 : Columnar Storage for Hadoop », sur twitter.com (consulté le 13 septembre 2020).
↑ (en) « Cloudera Blog - », sur Cloudera Blog (consulté le 13 septembre 2020).
↑ (en) « Apache Parquet paves the way for better Hadoop data storage », sur InfoWorld (consulté le 13 septembre 2020).
↑ (en) « The Apache Software Foundation Announces Apache™ Parquet™ as a Top-Level Project », sur The Apache Software Foundation Blog, 27 avril 2015 (consulté le 17 novembre 2023).
↑ https://github.com/julienledem/redelm/wiki/The-striping-and-assembly-algorithms-from-the-Dremel-paper
↑ https://parquet.apache.org/docs/file-format/data-pages/compression/
↑ ^{a b c et d} https://blog.twitter.com/2013/announcing-parquet-10-columnar-storage-for-hadoop
↑ https://medium.com/data-engineering-with-dremio/all-about-parquet-part-04-schema-evolution-in-parquet-c2c2b1aa6141
↑ https://arrow.apache.org/docs/python/parquet.html

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Apache Parquet » (voir la liste des auteurs).

[wikidata-0537a5fa90197adb2b0005683655600588df746f-1] « https://projects.apache.org/json/projects/parquet.json » (consulté le 8 avril 2020)

[wikidata-0e19184e83113fd7bb86e735247a9774a97ab0c6-2] « Release 1.16.0 », 3 septembre 2025 (consulté le 12 septembre 2025)

[3] « Announcing Parquet 1.0 : Columnar Storage for Hadoop », sur twitter.com (consulté le 13 septembre 2020).

[4] (en) « Cloudera Blog - », sur Cloudera Blog (consulté le 13 septembre 2020).

[5] (en) « Apache Parquet paves the way for better Hadoop data storage », sur InfoWorld (consulté le 13 septembre 2020).

[6] (en) « The Apache Software Foundation Announces Apache™ Parquet™ as a Top-Level Project », sur The Apache Software Foundation Blog, 27 avril 2015 (consulté le 17 novembre 2023).

[7] ttps://github.com/julienledem/redelm/wiki/The-striping-and-assembly-algorithms-from-the-Dremel-paper

[8] ttps://parquet.apache.org/docs/file-format/data-pages/compression/

[ref_auto_1-9] {a b c et d} https://blog.twitter.com/2013/announcing-parquet-10-columnar-storage-for-hadoop

[10] ttps://medium.com/data-engineering-with-dremio/all-about-parquet-part-04-schema-evolution-in-parquet-c2c2b1aa6141

[11] ttps://arrow.apache.org/docs/python/parquet.html

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

v · m Écosystème Hadoop
Distributions Hadoop	Cloudera Hortonworks MapR
Base de données	HBase
Flux de données	Apache Sqoop Apache Flume Apache Kafka Apache Storm Apache Flink
Interrogation	Apache Hive Spark SQL Pig
Machine Learning	Apache Mahout Apache Spark ML
SQL	Presto Apache Hive Apache Impala Apache Drill
Gestionnaire de cluster	Hadoop YARN Apache Mesos Apache Spark
Format de fichier	RCFile Apache Avro Apache Parquet Apache ORC Apache Iceberg
Vrac	Presto Impala Kudu Pig Apache ZooKeeper