eScriptorium
| Dernière version | V1.0.0 ()[1] |
|---|---|
| Dépôt | gitlab.com/scripta/escriptorium |
| Écrit en | Python, JavaScript et HTML |
| Système d'exploitation | GNU/Linux et macOS |
| Formats lus | ALTO-XML (d), PAGE (XML) et Portable Document Format |
| Formats écrits | ALTO-XML (d), PAGE (XML), TEI/XML (d) et fichier texte |
| Type |
Application web Logiciel à sources consultables (en) |
| Licence | Licence MIT |
eScriptorium est une plateforme de segmentation et de reconnaissance de texte manuelle ou automatisée pour les manuscrits et imprimés historiques.
Description
[modifier | modifier le code]eScriptorium est un logiciel open source développé à l'Université Paris Sciences et Lettres dans le cadre des projets Scripta[2] et RESILIENCE[3] avec des contributions d'autres institutions. Il est partiellement financé par le programme de financement Horizon 2020 de l'Union européenne et une subvention de la fondation Andrew W. Mellon (en).
Les images numérisées de manuscrits ou d'imprimés importées dans eScriptorium sont exportées sous forme de texte dans différents formats (texte, ALTO ou PAGE XML, TEI). La segmentation des zones et lignes de texte à l'intérieur des images est manuelle ou automatique. Les lignes de texte sont ensuite elles-mêmes transcrites manuellement ou automatiquement[4].
La segmentation automatique et la reconnaissance de texte automatique peuvent toutes deux être entraînées à l'aide d'exemples créés ou corrigés manuellement (ground truth (en) ou « vérité terrain » en français). Les modèles ainsi créés sont faciles à partager et réutiliser[5].
eScriptorium s'appuie sur un logiciel de reconnaissance optique de caractères, le logiciel libre Kraken de Benjamin Kiessling, dérivé d'OCRopus, qui convient aux textes manuscrits et imprimés et prend en charge des écritures qui s'écrivent de droite à gauche telles que l'hébreu et l'arabe[6].
Ses fonctions sont similaires à celles de programmes comparables tels qu'OCR4All[7] et Transkribus.
Notes et références
[modifier | modifier le code]- ↑ « Release eScriptorium v1.0.0 — first stable release featuring the new UI, Kraken 6 support and other features » (consulté le )
- ↑ (en) « Scripta-PSL. History and practices of writing » (consulté le )
- ↑ (en) « RESILIENCE - The Religious Studies Research Infrastructure » (consulté le )
- ↑ « eScriptorium Documentation » (consulté le )
- ↑ « Export data - eScriptorium Documentation » (consulté le )
- ↑ (en) « lunch/kraken: OCR engine for all the languages » (consulté le )
- ↑ « OCR4all | forTEXT » (consulté le )