Supprimer les en-têtes et pieds de pages d’un fichier OCR

Je suis toujours dans Windows, plus précisément dans Word que j’utilise pour me préparer un ebook, un recueil de nouvelles de Hemingway : The First Forty Nine Stories, à partir du texte brut de scan/OCR.

Un des problèmes de ce fichier, c’est que le scan a aussi enregistré les en-têtes et numéros de pages qui, une fois passés à l’OCR, viennent entrelarder la prose de l’ami Ernest de références inutiles :

Je vais le lire sur un Kindle (ou sur l’ordi) et je me fiche de savoir que le texte qui suit correspond à la page 97 de l’édition papier. Je me fiche aussi d’avoir un rappel du titre de la nouvelle que je lis.

Il y a pas mal d’erreurs dues à l’OCR (c’est inévitable), et je ne vais pas tenter de les corriger toutes automatiquement (je corrigerai celles qui me sauteront à la figure au fur et à mesure de ma lecture), mais ce problème d’en-têtes inutiles est relativement simple à corriger, à l’aide d’un chercher-remplacer dans Word :

Si vous avez du mal à lire le texte de la capture, dans le champ de Rechercher j’ai tapé :

^13[!a-z^13]@[0-9]@ ^13

Ce qui se lit : cherche tout saut de ligne suivi de tout caractère qui n’est pas en minuscule (peu importe leur nombre) et qui se termine par un nombre suivi d’un espace et d’un saut de ligne. Que tu remplaces par un saut de ligne (^p, dans le champ Remplacer).

Ce n’est pas parfait, il faudra le passer plusieurs fois, mais ça ira infiniment plus vite qu’une recherche manuelle.

Notez aussi que, si vous le laissez faire, il supprimera aussi le sommaire au début du fichier, mais ça n’est pas dramatique : il suffit de le recoller depuis la source, après le nettoyage.

Et pour chercher la même chaine inversée (saut de ligne + un nombre suivi d’un espace et de caractères en majuscules + saut de ligne), on inverse les deux valeurs entre crochets. Dans mon cas, ça donne ça :

^13[0-9]@ [!a-z^13]@^13

Il y a probablement des méthodes plus efficaces que celles-ci, mais ça me convient : avec quelques chercher/remplacer bien définis, je règle la masse des problèmes les plus grossiers : espaces ou saut de lignes multiples, saut de lignes forcés (c’est souvent le cas des fichiers issus du projet Gutenberg), etc. je n’échapperai pas à une relecture attentive, qui ne suffira de toute façon même pas à corriger toutes les erreurs et coquilles, mais c’est déjà tellement plus agréable comme ça.

6 comments » Write a comment