OCR17: Ground Truth and Models for 17th c. French Prints (and hopefully more)

Machine learning begins with machine teaching: in the following paper, we present the data that we have prepared to kick-start the training of reliable OCR models for 17th century prints written in French. The construction of a representative corpus is a major challenge: we need to gather documents...

Full description

Saved in:
Bibliographic Details
Published in:Journal of data mining and digital humanities Vol. 2023; no. Dataset
Main Authors: Gabay, Simon, Clérice, Thibault, Reul, Christian
Format: Journal Article
Language:English
Published: INRIA 28-06-2023
Nicolas Turenne
Subjects:
Online Access:Get full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Machine learning begins with machine teaching: in the following paper, we present the data that we have prepared to kick-start the training of reliable OCR models for 17th century prints written in French. The construction of a representative corpus is a major challenge: we need to gather documents from different decades and of different genres to cover as many sizes, weights and styles as possible. Historical prints containing glyphs and typefaces that have now disappeared, transcription is a complex act, for which we present guidelines. Finally, we provide preliminary results based on these training data and experiments to improve them. L'apprentissage machine commence avec l'enseignement machine : dans cet article, nous présentons les données que nous avons préparées pour entraîner des modèles OCR fiables pour les imprimés du XVIIe siècle écrits en français. La construction d'un corpus représentatif est un enjeu majeur : il faut rassembler des documents de différentes décennies et de différents genres pour couvrir un maximum de tailles, de graisse et de styles. Les imprimés historiques contenant des glyphes et des caractères aujourd'hui disparus, la transcription est un acte complexe, pour lequel nous présentons des lignes directrices. Enfin, nous fournissons des résultats préliminaires basés sur ces données d'entraînement et des expériences pour les améliorer.
ISSN:2416-5999
2416-5999
DOI:10.46298/jdmdh.6492