{"id":12763,"date":"2012-06-05T23:51:58","date_gmt":"2012-06-05T21:51:58","guid":{"rendered":"http:\/\/davidbosman.fr\/blog\/2012\/06\/05\/supprimer-les-en-ttes-et-pieds-de-pages-dun-fichier-ocr\/"},"modified":"2012-06-05T23:54:39","modified_gmt":"2012-06-05T21:54:39","slug":"supprimer-les-en-ttes-et-pieds-de-pages-dun-fichier-ocr","status":"publish","type":"post","link":"https:\/\/www.davidbosman.fr\/blog\/2012\/06\/05\/supprimer-les-en-ttes-et-pieds-de-pages-dun-fichier-ocr\/","title":{"rendered":"Supprimer les en-t&ecirc;tes et pieds de pages d&rsquo;un fichier OCR"},"content":{"rendered":"<p>Je suis toujours dans Windows, plus pr\u00e9cis\u00e9ment dans Word que j\u2019utilise pour me pr\u00e9parer un ebook, un recueil de nouvelles de Hemingway : <a href=\"http:\/\/archive.org\/details\/firstfortyninest030256mbp\">The First Forty Nine Stories<\/a>, \u00e0 partir du texte brut de scan\/OCR.<\/p>\n\n<p>Un des probl\u00e8mes de ce fichier, c\u2019est que le scan a aussi enregistr\u00e9 les en-t\u00eates et num\u00e9ros de pages qui, une fois pass\u00e9s \u00e0 l\u2019OCR, viennent entrelarder la prose de l\u2019ami Ernest de r\u00e9f\u00e9rences inutiles :<\/p>\n\n<p><a href=\"http:\/\/davidbosman.fr\/blog\/wp-content\/uploads\/2012\/06\/Virer-les-en-ttes-et-pieds-de-pages-dun-_14579\/ocr001.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; border-right-width: 0px; padding-left: 0px; padding-right: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px; padding-top: 0px\" title=\"ocr001\" border=\"0\" alt=\"ocr001\" src=\"http:\/\/davidbosman.fr\/blog\/wp-content\/uploads\/2012\/06\/Virer-les-en-ttes-et-pieds-de-pages-dun-_14579\/ocr001_thumb.jpg\" width=\"445\" height=\"357\" \/><\/a><\/p>\n\n<p><em>Je vais le lire sur un Kindle (ou sur l\u2019ordi) et je me fiche de savoir que le texte qui suit correspond \u00e0 la page 97 de l\u2019\u00e9dition papier. Je me fiche aussi d\u2019avoir un rappel du titre de la nouvelle que je lis.<\/em><\/p>\n\n<p>Il y a pas mal d\u2019erreurs dues \u00e0 l\u2019OCR (c\u2019est in\u00e9vitable), et je ne vais pas tenter de les corriger toutes automatiquement (je corrigerai celles qui me sauteront \u00e0 la figure au fur et \u00e0 mesure de ma lecture), mais ce probl\u00e8me d\u2019en-t\u00eates inutiles est relativement simple \u00e0 corriger, \u00e0 l\u2019aide d\u2019un chercher-remplacer dans Word :<\/p>\n\n<p><a href=\"http:\/\/davidbosman.fr\/blog\/wp-content\/uploads\/2012\/06\/Virer-les-en-ttes-et-pieds-de-pages-dun-_14579\/ocr002.jpg\"><img loading=\"lazy\" decoding=\"async\" style=\"background-image: none; border-right-width: 0px; padding-left: 0px; padding-right: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px; padding-top: 0px\" title=\"ocr002\" border=\"0\" alt=\"ocr002\" src=\"http:\/\/davidbosman.fr\/blog\/wp-content\/uploads\/2012\/06\/Virer-les-en-ttes-et-pieds-de-pages-dun-_14579\/ocr002_thumb.jpg\" width=\"496\" height=\"368\" \/><\/a><\/p>\n\n<p>Si vous avez du mal \u00e0 lire le texte de la capture, dans le champ de <strong>Rechercher<\/strong> j\u2019ai tap\u00e9 :<\/p>\n\n<blockquote>   <p><font face=\"Courier New\">^13[!a-z^13]@[0-9]@ ^13<\/font><\/p> <\/blockquote>\n\n<p>Ce qui se lit : cherche tout saut de ligne suivi de tout caract\u00e8re qui n\u2019est pas en minuscule (peu importe leur nombre) et qui se termine par un nombre suivi d\u2019un espace et d\u2019un saut de ligne. Que tu remplaces par un saut de ligne (<font face=\"Courier New\">^p<\/font>, dans le champ <strong>Remplacer<\/strong>).<\/p>\n\n<p>Ce n\u2019est pas parfait, il faudra le passer plusieurs fois, mais \u00e7a ira infiniment plus vite qu\u2019une recherche manuelle. <\/p>\n\n<p>Notez aussi que, si vous le laissez faire, il supprimera aussi le sommaire au d\u00e9but du fichier, mais \u00e7a n\u2019est pas dramatique : il suffit de le recoller depuis la source, apr\u00e8s le nettoyage.<\/p>\n\n<p>Et pour chercher la m\u00eame chaine invers\u00e9e (saut de ligne + un nombre suivi d\u2019un espace et de caract\u00e8res en majuscules + saut de ligne), on inverse les deux valeurs entre crochets. Dans mon cas, \u00e7a donne \u00e7a : <\/p>\n\n<blockquote>   <p><font face=\"Courier New\">^13[0-9]@ [!a-z^13]@^13<\/font><\/p> <\/blockquote>\n\n<div align=\"center\"><img decoding=\"async\" style=\"border-right-width: 0px; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px\" alt=\"\" src=\"http:\/\/davidbosman.fr\/images\/zen.png\" zen=\"zen\" \/><\/div>\n\n<p>Il y a probablement des m\u00e9thodes plus efficaces que celles-ci, mais \u00e7a me convient : avec quelques chercher\/remplacer bien d\u00e9finis, je r\u00e8gle la masse des probl\u00e8mes les plus grossiers : espaces ou saut de lignes multiples, saut de lignes forc\u00e9s (c\u2019est souvent le cas des fichiers issus du projet Gutenberg), etc. je n\u2019\u00e9chapperai pas \u00e0 une relecture attentive, qui ne suffira de toute fa\u00e7on m\u00eame pas \u00e0 corriger toutes les erreurs et coquilles, mais c\u2019est d\u00e9j\u00e0 tellement plus agr\u00e9able comme \u00e7a.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Je suis toujours dans Windows, plus pr\u00e9cis\u00e9ment dans Word que j\u2019utilise pour me pr\u00e9parer un ebook, un recueil de nouvelles de Hemingway : The First Forty Nine Stories, \u00e0 partir du texte brut de scan\/OCR. Un des probl\u00e8mes de ce &hellip; <a href=\"https:\/\/www.davidbosman.fr\/blog\/2012\/06\/05\/supprimer-les-en-ttes-et-pieds-de-pages-dun-fichier-ocr\/\">Read more &rarr;<\/a><\/p>","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[13,12],"tags":[26],"class_list":["post-12763","post","type-post","status-publish","format-standard","hentry","category-ebooks","category-trucs-et-astuces","tag-windows"],"_links":{"self":[{"href":"https:\/\/www.davidbosman.fr\/blog\/wp-json\/wp\/v2\/posts\/12763","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.davidbosman.fr\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.davidbosman.fr\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.davidbosman.fr\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.davidbosman.fr\/blog\/wp-json\/wp\/v2\/comments?post=12763"}],"version-history":[{"count":1,"href":"https:\/\/www.davidbosman.fr\/blog\/wp-json\/wp\/v2\/posts\/12763\/revisions"}],"predecessor-version":[{"id":12764,"href":"https:\/\/www.davidbosman.fr\/blog\/wp-json\/wp\/v2\/posts\/12763\/revisions\/12764"}],"wp:attachment":[{"href":"https:\/\/www.davidbosman.fr\/blog\/wp-json\/wp\/v2\/media?parent=12763"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.davidbosman.fr\/blog\/wp-json\/wp\/v2\/categories?post=12763"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.davidbosman.fr\/blog\/wp-json\/wp\/v2\/tags?post=12763"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}