Exploiter un corpus de données textuelles sans post-traitement : l’écriture burlesque de la Fronde
Les « mazarinades » burlesques de la Fronde sont des écrits bien connus des littéraires et des historiens mais peu étudiés systématiquement, en raison notamment de leur difficulté d’accès et de constitution en corpus. Nous cherchons d’abord à délimiter ce corpus et à définir des corpus contrastifs p...
Saved in:
Published in: | Humanités numériques (Lille) Vol. Revue Humanités numériques; no. n° 4 |
---|---|
Main Authors: | , , |
Format: | Journal Article |
Language: | French |
Published: |
Humanistica
21-12-2021
Bruxelles: Humanistica |
Subjects: | |
Online Access: | Get full text |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Summary: | Les « mazarinades » burlesques de la Fronde sont des écrits bien connus des littéraires et des historiens mais peu étudiés systématiquement, en raison notamment de leur difficulté d’accès et de constitution en corpus. Nous cherchons d’abord à délimiter ce corpus et à définir des corpus contrastifs propres à révéler les spécificités de l’écriture burlesque dans ce contexte politique. Ensuite, nous abordons le problème de l’acquisition des données textuelles et nous exposons le processus d’océrisation d’imprimés anciens et son évaluation. Puis, nous choisissons d’exploiter ces données brutes, sans traitement, ce qui semble bien permettre d’obtenir des résultats (dans des domaines tels que le lexique, la métrique ou l’énonciation), en employant différentes méthodes (fouille textométrique et observation des n-grammes de caractères). Nous montrons ainsi la spécificité, dans l’écriture burlesque de la Fronde, de certains motifs littéraires et de certaines rimes. Il s’agit donc ici de présenter l’approche d’un corpus dans toutes les phases du processus : depuis la sélection des données, leur acquisition, leur constitution en corpus, jusqu’à leur exploitation statistique et algorithmique et l’interprétation de cette fouille. |
---|---|
ISSN: | 2736-2337 2736-2337 |
DOI: | 10.4000/revuehn.2355 |