Aller au contenu

eScriptorium

Un article de Wikipédia, l'encyclopédie libre.

EScriptorium
Description de l'image Logo escriptorium.png.
Description de cette image, également commentée ci-après
Capture d'écran avec transcription eScriptorium du journal de Johann Reinhold Forster, Journal d'un voyage à bord du Resolution 1772-1774, vol. 1
Informations
Dernière version V1.0.0 ()[1]Voir et modifier les données sur Wikidata
Dépôt gitlab.com/scripta/escriptoriumVoir et modifier les données sur Wikidata
Écrit en Python, JavaScript et HTMLVoir et modifier les données sur Wikidata
Système d'exploitation GNU/Linux et macOSVoir et modifier les données sur Wikidata
Formats lus ALTO-XML (d), PAGE (XML) et Portable Document FormatVoir et modifier les données sur Wikidata
Formats écrits ALTO-XML (d), PAGE (XML), TEI/XML (d) et fichier texteVoir et modifier les données sur Wikidata
Type Application web
Logiciel à sources consultables (en)Voir et modifier les données sur Wikidata
Licence Licence MITVoir et modifier les données sur Wikidata

eScriptorium est une plateforme de segmentation et de reconnaissance de texte manuelle ou automatisée pour les manuscrits et imprimés historiques.

Description

[modifier | modifier le code]

eScriptorium est un logiciel open source développé à l'Université Paris Sciences et Lettres dans le cadre des projets Scripta[2] et RESILIENCE[3] avec des contributions d'autres institutions. Il est partiellement financé par le programme de financement Horizon 2020 de l'Union européenne et une subvention de la fondation Andrew W. Mellon (en).

Les images numérisées de manuscrits ou d'imprimés importées dans eScriptorium sont exportées sous forme de texte dans différents formats (texte, ALTO ou PAGE XML, TEI). La segmentation des zones et lignes de texte à l'intérieur des images est manuelle ou automatique. Les lignes de texte sont ensuite elles-mêmes transcrites manuellement ou automatiquement[4].

La segmentation automatique et la reconnaissance de texte automatique peuvent toutes deux être entraînées à l'aide d'exemples créés ou corrigés manuellement (ground truth (en) ou « vérité terrain » en français). Les modèles ainsi créés sont faciles à partager et réutiliser[5].

eScriptorium s'appuie sur un logiciel de reconnaissance optique de caractères, le logiciel libre Kraken de Benjamin Kiessling, dérivé d'OCRopus, qui convient aux textes manuscrits et imprimés et prend en charge des écritures qui s'écrivent de droite à gauche telles que l'hébreu et l'arabe[6].

Ses fonctions sont similaires à celles de programmes comparables tels qu'OCR4All[7] et Transkribus.

Notes et références

[modifier | modifier le code]

Sur les autres projets Wikimedia :

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « eScriptorium » (voir la liste des auteurs).
  1. « Release eScriptorium v1.0.0 — first stable release featuring the new UI, Kraken 6 support and other features » (consulté le )
  2. (en) « Scripta-PSL. History and practices of writing » (consulté le )
  3. (en) « RESILIENCE - The Religious Studies Research Infrastructure » (consulté le )
  4. « eScriptorium Documentation » (consulté le )
  5. « Export data - eScriptorium Documentation » (consulté le )
  6. (en) « lunch/kraken: OCR engine for all the languages » (consulté le )
  7. « OCR4all | forTEXT » (consulté le )