Classification et catégorisation de documents

La classification et catégorisation de documents est l'activité du traitement automatique des langues naturelles qui consiste à classer de façon automatique des ressources documentaires, généralement en provenance d'un corpus.

Cette classification peut prendre une infinité de formes. On citera ainsi la classification par genre, par thème, ou encore par opinion. La tâche de classification est réalisée avec des algorithmes spécifiques, mis en œuvre par des systèmes de traitement de l'information. C'est une tâche d'automatisation d'un processus de classement, qui fait le plus souvent appel à des méthodes numériques (c'est-à-dire des algorithmes de recherche d'information ou de classification de type mathématique).

L'activité de classification de documents est essentielle dans de nombreux domaines économiques : elle permet d'organiser des corpus documentaires, de les trier, et d'aider à les exploiter dans des secteurs tels que l'administration, l'aéronautique, la recherche sur internet, les sciences.

Méthodologie

Le déploiement d'un système de classification repose sur plusieurs étapes. On peut les schématiser ainsi :

Définition des classes (exemple : catégories "Sport", "Politique", "Diplomatie", ou encore Opinion "bonne/mauvaise")
Apprentissage des classes avec un système de classification en utilisant un corpus d'apprentissage
Évaluation des performances du système avec un corpus de test

Méthodes algorithmiques

Comme toute tâche de classification, la catégorisation de documents peut être réalisée à partir d'Apprentissage supervisé, ou d'Apprentissage non supervisé. En mode supervisé, des éléments prédéfinis seront utilisés pour classer un document : ce peut être un index, ou encore un dictionnaire de mots correspondant à une classe particulière et servant à préétiqueter les documents. En mode non supervisé, c'est sur la phase d'apprentissage que reposera l'entraînement du classifieur, et ses performances ultérieures.

On utilise dans les systèmes de classification de document des algorithmes numériques. Les plus performants sont ceux à base de SVM ou encore de Boosting (qui reposent sur AdaBoost). D'autres méthodes de mesure de similarité (tel que la similarité cosine), ou encore probabiliste (les classifieurs bayésiens naïfs) peuvent également être mises en œuvre. L'identification de documents ou de textes importants peut être faite à partir d'une combinaison de plusieurs systèmes de classification, départagés par une méthode de vote^[1]^,^[2].

La classification peut aussi se faire en se basant sur des méthodes de résumé de features par vectorisation de texte ou transformé sous forme matricielle tel :

la sémantique vectoriel ou modèle vectoriel du texte,
l'Analyse sémantique latente,
les méthodes doc2vec^[3] ou sentence2vec, basé sur word2vec.

Ou la classification peut directement se faire par réseau de neurones récurrents impliquant généralement word2vec.

Les grands modèles de langage sont également utilisés pour l'annotation ou la classification automatique^[4]^,^[5]. Cependant l'utilisation des modèles génératifs comme simple annotateur, sans révision humaine, reste critiquée^[6].

Mesures de performances

Métriques

On évalue les performances des systèmes de classification de documents avec des mesures telles que la précision et le rappel, ou encore le F-Score.

Évaluation scientifique

Les chercheurs qui travaillent sur la classification de documents participent à des conférences nationales ou internationales, ainsi qu'à des campagnes d'évaluation. En France, la campagne DEFT (Défi fouille de texte) permet chaque année à des équipes de chercheurs de mesurer les performances de classification sur des tâches variées (genre, catégories, opinions, segmentation).

En Amérique du Nord, la conférence la plus connue est Trec.

Références

↑ H. S. Seung, M. Opper et H. Sompolinsky, « Query by committee », Proceedings of the fifth annual workshop on Computational learning theory, Association for Computing Machinery, cOLT '92,‎ 1^er juillet 1992, p. 287–294 (ISBN 978-0-89791-497-0, DOI 10.1145/130385.130417, lire en ligne, consulté le 16 janvier 2026)
↑ (en) Burr Settles, « Active Learning », Synthesis Lectures on Artificial Intelligence and Machine Learning,‎ 2012 (ISSN 1939-4608 et 1939-4616, DOI 10.1007/978-3-031-01560-1, lire en ligne, consulté le 16 janvier 2026)
↑ (en) Quoc Le et Tomas Mikolov, « Distributed Representations of Sentences and Documents », Proceedings of the 31st International Conference on Machine Learning, PMLR,‎ 18 juin 2014, p. 1188–1196 (lire en ligne, consulté le 18 avril 2024)
↑ Tom B. Brown, Benjamin Mann, Nick Ryder et Melanie Subbiah, Language Models are Few-Shot Learners, 2020 (DOI 10.48550/ARXIV.2005.14165, lire en ligne)
↑ Fabrizio Gilardi, Meysam Alizadeh et Maël Kubli, « ChatGPT outperforms crowd workers for text-annotation tasks », Proceedings of the National Academy of Sciences, vol. 120, n^o 30,‎ 25 juillet 2023, e2305016120 (PMID 37463210, PMCID 10372638, DOI 10.1073/pnas.2305016120, lire en ligne, consulté le 16 janvier 2026)
↑ Joachim Baumann, Paul Röttger, Aleksandra Urman et Albert Wendsjö, Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation, 2025 (DOI 10.48550/ARXIV.2509.08825, lire en ligne)

Articles connexes

Précision et rappel : Précision, rappel et F-Score
Défi fouille de texte (DEFT) : campagne d'évaluation francophone de systèmes de catégorisation de documents
Plan de classement
Gestion électronique des documents (GED)

[1] H. S. Seung, M. Opper et H. Sompolinsky, « Query by committee », Proceedings of the fifth annual workshop on Computational learning theory, Association for Computing Machinery, cOLT '92,‎ 1^er juillet 1992, p. 287–294 (ISBN 978-0-89791-497-0, DOI 10.1145/130385.130417, lire en ligne, consulté le 16 janvier 2026)

[2] (en) Burr Settles, « Active Learning », Synthesis Lectures on Artificial Intelligence and Machine Learning,‎ 2012 (ISSN 1939-4608 et 1939-4616, DOI 10.1007/978-3-031-01560-1, lire en ligne, consulté le 16 janvier 2026)

[3] (en) Quoc Le et Tomas Mikolov, « Distributed Representations of Sentences and Documents », Proceedings of the 31st International Conference on Machine Learning, PMLR,‎ 18 juin 2014, p. 1188–1196 (lire en ligne, consulté le 18 avril 2024)

[4] Tom B. Brown, Benjamin Mann, Nick Ryder et Melanie Subbiah, Language Models are Few-Shot Learners, 2020 (DOI 10.48550/ARXIV.2005.14165, lire en ligne)

[5] Fabrizio Gilardi, Meysam Alizadeh et Maël Kubli, « ChatGPT outperforms crowd workers for text-annotation tasks », Proceedings of the National Academy of Sciences, vol. 120, n^o 30,‎ 25 juillet 2023, e2305016120 (PMID 37463210, PMCID 10372638, DOI 10.1073/pnas.2305016120, lire en ligne, consulté le 16 janvier 2026)

[6] Joachim Baumann, Paul Röttger, Aleksandra Urman et Albert Wendsjö, Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation, 2025 (DOI 10.48550/ARXIV.2509.08825, lire en ligne)

[1]

[2]

[3]

[4]

[5]

[6]