Je viens de commencer à numériser mon mémoire de maîtrise. C’était une idée que j’avais depuis longtemps, que je suis en train de mettre en oeuvre ; il y a des périodes dans la vie où l’on est plus enclin aux comportements néoténiques…
J’ai d’abord longuement séparé les feuilles d’un exemplaire de mon mémoire. Je suppose qu’il est possible d’utiliser un gros massicot pour faire un tel travail, mais n’en disposant pas, je me suis résolu à employer une règle plate en guise de coupe-papier.
L’étape suivante consistait à numériser les pages ainsi séparées. A ce point, j’ai été surpris : je m’attendais à un travail difficile, fastidieux et il n’en a rien été. Je pensais que le chargeur du scanner allait mal fonctionner, provoquer des bourrages sans nombre etc. mais cela ne s’est pas produit ; seule une page, que j’avais malencontreusement froissée pendant le transport, n’a pas pu passer automatiquement. En outre, ce traitement a été très rapide : il ne m’a guère fallu plus d’une demi-heure (en plusieurs fois) pour numériser l’ensemble des 240 pages du document.
Le “pilotage” du scanner était assuré par le logiciel XnView qui possède une fonction “Acquérir dans…” qui permet de scanner un ensemble de pages, en les numérotant et en les enregistrant automatiquement.
Cette rapidité de la numérisation a perturbé le processus de travail que j’avais envisagé : je pensais ne pouvoir numériser que 10 ou 15 pages par jour (je précise que je ne travaille pas à temps plein sur ce projet… j’exerce également une activité salariée Mon plan était donc de passer 15-20 minutes entre midi et 14 h pour numériser le document et 1 h ou 1 h 30 le soir pour faire la reconnaissance de caractères) que je pourrais, dans la soirée du même jour, transformer en texte (OCR et corrections manuelles). En réalité, au bout de deux jours l’ensemble était numérisé, mais il faut plus d’1 h 30 pour corriger 10-15 pages…
J’ai fait différents tests pour trouver le logiciel d’OCR le plus adapté et je dois dire que j’ai été déçu. Ma première idée était d’utiliser une ancienne version d’Omnipage Pro que j’avais eu jadis avec un scanner, mais comme l’ordinateur que j’utilise le plus est désormais sous Linux et que ce système m’est plus familier, j’ai cherché s’il n’y avait pas moyen de faire plutôt la reconnaissance de caractères avec lui. J’ai découvert cette page et ai testé plusieurs des logiciels qui y sont mentionnés. Ceux qui m’ont donné le plus de satisfaction sont Tesseract et Ocropus (qui dans son état actuel est une sorte de surcouche de Tesseract). Toutefois, aucun des deux n’est capable de restituer les caractères accentués, ce qui peut être rapidement fastidieux pour un texte en français. Au final, j’ai pris la résolution d’utiliser Omnipage, qui est celui qui donne les meilleurs résultats et j’ai ainsi “OCRisé” une vingtaine de pages, en utilisant la vérification interactive du logiciel, puis en reprenant les documents ainsi créés, en les regroupant logiquement et en les corrigeant dans OpenOffice.
Comme on peut s’y attendre, certains passages sont mal ou pas du tout reconnus par l’OCR, c’est le cas des passages en grec, c’est aussi le cas des chiffres (numéros de pages dans les références par exemple).
Pour fluidifier le processus et ne pas m’obliger à ne travailler à ce projet que quand je suis sur l’ordinateur sur lequel Omnipage est installé, j’ai “OCRisé” l’ensemble des pages et je vérifierai plus tard.
Je suis donc au tout début du travail d’édition de ce document. J’envisage de mettre en ligne une première version “image”, mais je ne sais pas si ça peut avoir un intérêt. En tout cas, je vous tiendrai au courant de l’évolution de ce projet et des raisons qui m’ont poussé à m’y lancer.