DuckDB
| Créateur | Hannes Mühleisen (d) |
|---|---|
| Développé par | Hannes Mühleisen (d) et Mark Raasveldt (d) |
| Dernière version | 1.5.0 ()[1],[2] |
| Dépôt | github.com/duckdb/duckdb |
| Écrit en | C++ |
| Formats écrits | DuckDB database file (d) |
| Type | Système de gestion de base de données |
| Licence | Licence MIT |
| Site web | duckdb.org |
DuckDB est un logiciel libre de gestion de bases de données.
DuckDB est performant pour le traitement analytique en ligne (OLAP) notamment grâce à son format de stockage par colonnes.
Le logiciel a été créé par Mark Raasveldt (d) et Hannes Mühleisen (d) au Centrum voor Wiskunde en Informatica (CWI) aux Pays-Bas[3].
Historique
[modifier | modifier le code]DuckDB a été initialement développé par Mark Raasveldt et Hannes Mühleisen (d) au Centrum Wiskunde & Informatica (CWI) aux Pays-Bas[3]. Les co-fondateurs du projet ont conçu DuckDB pour répondre au besoin d'une solution de base de données OLAP en processus[4]. DuckDB est sortie fois en 2019[5]. La version 1.0.0 de DuckDB a été publiée le 3 juin 2024, sous le nom de code SnowDuck[6].
Fonctionnalités
[modifier | modifier le code]DuckDB utilise un moteur de traitement des requêtes vectorisé. DuckDB est particulier parmi les systèmes de gestion de bases de données car il n'a aucune dépendance externe et peut être construit avec uniquement un compilateur C++[7]. DuckDB s'écarte également du modèle client-serveur traditionnel en s'exécutant à l'intérieur d'un processus hôte. Le parseur SQL de DuckDB est dérivé de la bibliothèque pg_query développée par Lukas Fittl, qui elle-même provient du parseur SQL de PostgreSQL, simplifié au maximum.>[8] DuckDB utilise un format de stockage en fichier unique pour conserver les données sur disque, conçu pour permettre des scans efficaces ainsi que des mises à jour en masse, des ajouts et des suppressions. DuckDB est également compilé en WebAssembly à l'aide d'emscripten, ce qui permet à DuckDB d'exécuter SQL dans des outils d'analyse basés sur le navigateur[9],[10].
Sources de données
[modifier | modifier le code]DuckDB est en mesure d’interagir avec différentes sources de données, notamment des formats de fichiers, des protocoles réseau ainsi que des systèmes de gestion de bases de données. Parmi les sources prises en charge figurent[11] :
- Fichiers
- les fichiers CSV
- les fichiers texte
- les fichiers Excel
- les fichiers JSON
- les fichiers Delta Lake
- les fichiers Iceberg
- les fichiers Parquet
- Base de données
- Protocoles réseau
- Les Buckets S3
- Azure Blob Storage
- Cloudflare R2
- des fichiers accessibles en http
Extensions
[modifier | modifier le code]L'architecture de DuckDB prend en charge les extensions, permettant d'ajouter des fonctionnalités supplémentaires de manière dynamique[12]. De nombreuses extensions populaires sont maintenues par l'équipe principale de DuckDB, et il existe plus de 30 extensions communautaires maintenues par des tiers[13],[14],[15].
Les extensions peuvent être activées à l'aide de la commande INSTALL. Certaines sources de données pré-citées sont accessibles au travers d'extensions [16]. Les extensions permettent principalement d'utiliser des formats de fichiers supplémentaires, mais pas uniquement elles peuvent aussi d'étendre la gamme de fonctionnalités .
Extensions Core notable
[modifier | modifier le code]- ui offre une interface utilisateur graphique de type notebook accessible via un navigateur Web.

- postgres, mysql, sqlite permettent l'accès à des bases de données externes.
- ducklack permet de crée un mini DataLake en local. DuckLake[17] offre des fonctions de lac de données sans la complexité des datalake traditionnels. Il utilise des fichiers Parquet pour le stockage des données. La gestion des métadonnées s'effectue dans une base de données SQL centrale telle que PostgreSQL. Pour les cas d'utilisations simples, DuckDB lui-même suffit comme base de données de métadonnées.
- Vortex Nouveau format de la fondation duckdb et de Spiraldb , qui s'inspire entre autres de apache iceberg.
Comparaison
[modifier | modifier le code]DuckDB, dans son créneau OLAP, ne concurrence pas les systèmes de gestion de bases de données traditionnels tels que MSSQL, PostgreSQL ou Oracle. Bien qu'il utilise SQL pour les requêtes, DuckDB vise les applications serverless et offre des réponses extrêmement rapides en utilisant par exemple des fichiers Apache Parquet , JSON, ou son propre format de stockage. Ces caractéristiques en font un choix populaire pour l'analyse de grands ensembles de données en mode interactif[18].
DuckDB Foundation
[modifier | modifier le code]La fondation indépendante à but non lucratif DuckDB Foundation assure la maintenance et le développement à long terme de DuckDB. La fondation détient une grande partie de la propriété intellectuelle du projet et est financée par des dons caritatifs[19]. Les statuts de la Fondation DuckDB garantissent que DuckDB reste open source sous licence MIT license à perpétuité[20].
Prise en charge des langages
[modifier | modifier le code]En plus des API natives C et C++, DuckDB prend en charge un large éventail de langages de programmation.
| Langage | Notes | Référence |
|---|---|---|
| Java | L’API Java est implémentée à l’aide de la JNI[21]. Une intégration avec le format Apache Arrow[22] est fournie. | [23] |
| Python | L’API Python implémente la prise en charge des bibliothèques Pandas[24], Apache Arrow[25] et Polars pour l'analyse de données. | [26] |
| Rust | L’API Rust est distribuée sous forme de crate Rust qui expose un élégant wrapper autour de l’API C native. | [27] |
| Node.JS | API Node | [28] |
| R | API R | [29] |
| Julia | API Julia | [30] |
| Swift | API Swift | [31] |
| WebAssembly | API WASM | [32] |
| Go | API Go | [33] |
Articles connexes
[modifier | modifier le code]Notes et références
[modifier | modifier le code]- ↑ « https://github.com/duckdb/duckdb/releases/tag/v1.5.0 »
- ↑ « https://duckdb.org/2026/03/09/announcing-duckdb-150 »
- Chris Kamphuis, Advances in Information Retrieval, vol. 12036, Cham, Springer International Publishing, coll. « Lecture Notes in Computer Science », , 608–612 p. (ISBN 978-3-030-45441-8, PMCID 7148032, DOI 10.1007/978-3-030-45442-5_79), « Graph Databases for Information Retrieval »
- ↑ Leendert van der Ent, « DuckDB: Introducing a New Class of Data Management Systems », ICT Research Platform Nederland, (lire en ligne, consulté le )
- ↑ (en) Lindsay Clark, « DuckDB reaches version 0.5.0 » [archive du ], sur www.theregister.com (consulté le )
- ↑ Mark Raasveldt et Hannes Mühleisen, « Announcing DuckDB 1.0.0 », (consulté le )
- ↑ « DuckDB Building Instructions » (consulté le )
- ↑ Marco Slot, « How We Fused DuckDB into Postgres with Crunchy Bridge for Analytics », (consulté le )
- ↑ « Introducing Universal SQL » (consulté le )
- ↑ « How we evolved our query architecture with DuckDB » (consulté le )
- ↑ (en) GitHub User, « Data Sources », sur DuckDB (consulté le )
- ↑ « DuckDB Extensions Overview », sur www.duckdb.org (consulté le )
- ↑ « Core Extensions » [archive du ], sur duckdb.org, (consulté le )
- ↑ « List of Community Extensions », sur www.duckdb.org (consulté le )
- ↑ « DuckDB Extension Radar », sur www.github.com (consulté le )
- ↑ https://duckdb.org/docs/stable/extensions/overview
- ↑ https://ducklake.select/
- ↑ M. Bannert, Research Software Engineering: A Guide to the Open Source Ecosystem, CRC Press, coll. « Chapman & Hall/CRC Data Science Series », (ISBN 978-1-04-000513-2, lire en ligne [archive du ]), p. 25
- ↑ « DuckDB Foundation » (consulté le )
- ↑ « DuckDB Project FAQs » (consulté le )
- ↑ (en) « Java JNI Source Code », sur www.github.com (consulté le )
- ↑ « DuckDB Java Arrow Source Code », sur www.github.com (consulté le )
- ↑ (en) « DuckDB Java Source Code », sur www.github.com (consulté le )
- ↑ (en) « DuckDB Pandas Source », sur www.github.com (consulté le )
- ↑ (en) « DuckDB PyArrow Source », sur www.github.com (consulté le )
- ↑ (en) « DuckDB Python Source Code », sur www.github.com (consulté le )
- ↑ (en) « DuckDB Rust Source Code », sur www.github.com (consulté le )
- ↑ (en) « DuckDB Node Source Code », sur www.github.com (consulté le )
- ↑ (en) « DuckDB R Source Code », sur www.github.com (consulté le )
- ↑ (en) « DuckDB Julia Source Code », sur www.github.com (consulté le )
- ↑ « DuckDB Swift Source Code », sur www.github.com (consulté le )
- ↑ « DuckDB WASM Source Code », sur www.github.com (consulté le )
- ↑ « DuckDB Go Source Code », sur www.github.com (consulté le )