Supprimer les en-têtes et pieds de pages d’un fichier OCR

Je suis toujours dans Windows, plus précisément dans Word que j’utilise pour me préparer un ebook, un recueil de nouvelles de Hemingway : The First Forty Nine Stories, à partir du texte brut de scan/OCR.

Un des problèmes de ce fichier, c’est que le scan a aussi enregistré les en-têtes et numéros de pages qui, une fois passés à l’OCR, viennent entrelarder la prose de l’ami Ernest de références inutiles :

ocr001

Je vais le lire sur un Kindle (ou sur l’ordi) et je me fiche de savoir que le texte qui suit correspond à la page 97 de l’édition papier. Je me fiche aussi d’avoir un rappel du titre de la nouvelle que je lis.

Il y a pas mal d’erreurs dues à l’OCR (c’est inévitable), et je ne vais pas tenter de les corriger toutes automatiquement (je corrigerai celles qui me sauteront à la figure au fur et à mesure de ma lecture), mais ce problème d’en-têtes inutiles est relativement simple à corriger, à l’aide d’un chercher-remplacer dans Word :

ocr002

Si vous avez du mal à lire le texte de la capture, dans le champ de Rechercher j’ai tapé :

^13[!a-z^13]@[0-9]@ ^13

Ce qui se lit : cherche tout saut de ligne suivi de tout caractère qui n’est pas en minuscule (peu importe leur nombre) et qui se termine par un nombre suivi d’un espace et d’un saut de ligne. Que tu remplaces par un saut de ligne (^p, dans le champ Remplacer).

Ce n’est pas parfait, il faudra le passer plusieurs fois, mais ça ira infiniment plus vite qu’une recherche manuelle.

Notez aussi que, si vous le laissez faire, il supprimera aussi le sommaire au début du fichier, mais ça n’est pas dramatique : il suffit de le recoller depuis la source, après le nettoyage.

Et pour chercher la même chaine inversée (saut de ligne + un nombre suivi d’un espace et de caractères en majuscules + saut de ligne), on inverse les deux valeurs entre crochets. Dans mon cas, ça donne ça :

^13[0-9]@ [!a-z^13]@^13

Il y a probablement des méthodes plus efficaces que celles-ci, mais ça me convient : avec quelques chercher/remplacer bien définis, je règle la masse des problèmes les plus grossiers : espaces ou saut de lignes multiples, saut de lignes forcés (c’est souvent le cas des fichiers issus du projet Gutenberg), etc. je n’échapperai pas à une relecture attentive, qui ne suffira de toute façon même pas à corriger toutes les erreurs et coquilles, mais c’est déjà tellement plus agréable comme ça.

Windows, jour 2 : mon royaume pour un Trackpad

bidulerouge

J’aime bien le petit bidule des ThinkPad (dont j’oublie toujours le nom, TrackPoint ?), c’est très précis. Mais, sur un portable, la précision du curseur n’est pas ce dont j’ai le plus besoin. Par contre, faire facilement défiler une page, zoomer, me déplacer d’un bout de l’écran à l’autre, etc. voilà ce dont j’ai besoin. J’ai besoin d’un Trackpad de Mac, quoi.

(edit: oui je sais, le Thinkpad a aussi un Trackpad, mais il est juste… pas à la hauteur (même après avoir activé les options multitouch: prévoir du temps et de la patience). Il est saccadé et d’une surface trop petite, il n’offre pas le confort d’un Trackpad de Mac. Sans parler du nombre de fois où je le touche par inadvertance et où ça fait n’importe quoi. j’ai préféré le désactiver.)

 

Pour parler d’autre chose, ce ne sera pas un scoop pour les fidèles du blog, l’écran brillant du MacBook Air, lui, ne me manque pas du tout. Au contraire, l’écran mat du PC est tellement plus confortable.

Apple, par saint Jobs, offre-nous les écrans matt en option, comme tu l’as fait sur la gamme des MacBook Pro… On peut rêver.

Windows, jour 1 : prendre ses marques

Windows est livré avec tout ce qu’il faut pour démarrer. Et si ce n’est pas déjà installé par défaut, il suffit de le télécharger (gratuitement) sur le site de Microsoft.

Qu’il s’agisse des application “Live” (gestionnaire d’images, messagerie, email, logiciel de montage vidéo, outil de rédaction de blog), de Windows Security Essentials (un antivirus basique) ou même d’un (gros) espace de stockage en ligne (SkyDrive). On peut aussi se créer une adresse email sur Hotmail (avec la promesse d’un espace de stockage apparemment illimité, mais ce n’est pas très clair), ou utiliser une adresse existante pour se connecter aux services de Microsoft. On se retrouve alors avec un ensemble d’outils rassemblés sous une même identité. C’est plutôt pas mal.

Je ne vais pas tous les présenter, voici juste quelques commentaires.

Read more →

Immersion dans Windows

On me reproche parfois de me moquer de Windows, voire même de n’être qu’un troll anti-Microsoft.

C’est faux. Je ne vais pas rappeler que j’ai écrit plusieurs manuels consacrés à Windows (ha ben si, tiens, je viens de le rappeler… Mais ne vous ruez surtout pas dessus si vous espérez ainsi me montrer votre soutien, en les achetant : je ne touche pas un centime sur les ventes), ni que je l’ai utilisé pendant des années et l’utilise encore à l’occasion.

Mais je dois bien admettre que j’ai pris l’habitude de plus souvent rigoler des défauts et des incohérences de Windows (et de Microsoft en général) que de parler de ce qui me semble bon.

Du coup, je me suis demandé s’il serait possible de dire du bien de Microsoft ? Je veux dire de façon intéressante : comment, et en parlant de quoi ?

Je pourrais faire une liste de ce que je trouve bien. L’Explorateur de fichiers par exemple qui, s’il est un vrai foutoir, enterre le Finder qui équipe OS X. Microsoft Word (hé oui. J’y reviendrai surement, vu que cette simple remarque d’un “pro” TXT/Markdown comme moi  suffira sans doute à me faire lyncher). Windows Live Writer (pour blogger, c’est avec lui que je rédige ce billet). Ou encore Microsoft OneNote, qui est aussi génial qu’il n’est pas beau et qu’il est bordélique (c’est dire à quel point il est génial). Etc. Windows 7 lui même a pas mal de qualités.

Mais une telle liste serait abstraite, un pur et simple appel à troller : j’aime vs j’aime pas.

Bref, au diable la liste : j’ai décidé de remplacer mon Mac par un PC sous Windows… pour sept jours (sept jours parce que Windows 7, je sais c’est très subtil). On verra comment ça se passe. S’il y a des trucs intéressants à dire durant cette expérience, j’en parlerais ici. En mal, comme en bien.

Aucun Mac jusque dimanche prochain. Sauf, parce qu’il faut bien une exception à cette règle, pour une application bien spécifique : FaceTime, que j’utilise intensivement avec ma jeune nièce (trop jeune pour que je l’embête en lui demandant de changer d’outil juste pour que nous puissions continuer à bavarder comme nous en avons pris l’habitude). FaceTime dont je ne dis pas que du bien, notez.

Si je l’estime nécessaire, j’installerais des applications tierces (c’est déjà fait : Microsoft Office 2010, AutohotKey et Windows Security Essential), mais toujours en privilégiant les outils made in Microsoft quand ils existent. Et on verra comment ça se passe.

J’aurais aimé pouvoir tester en même temps un téléphone Windows, à la place de l’iPhone, mais je ne suis pas Crésus (Microsoft France, si tu passes dans le coin et si tu veux jouer le jeu : aucun souci pour recevoir un téléphone en prêt, au contraire). J’aurais aimé aussi tester Windows 8 (pendant huit jours, haha) sur un PC/tablette mais… voir remarque précédente.

Voilà.

Tel un Neil Armstrong 2.0, ce n’est pas sans une certaine émotion dans la voix, que je vous annonce donc ce voyage au pays de Microsoft, ce “tout petit pas pour l’homme, mais un pas de géant pourdont se fiche l’humanité” Clignement d'œil

windows2

Clic = grand

Considérations techniques (au cas où vous trouveriez que je râle trop sur d’éventuels problèmes de performances ou, à l’inverse, que je me montre trop enthousiaste) : Windows 7 64 bits Pro, fraichement installé sur un Thinkpad X220 Core i5 2,5ghz, 4Go de RAM, avec le disque dur de base à 5400t de 320Go (j’ai donc viré mon SSD).