Les programmes de reconnaissance de caractères (ROC en français, OCR en anglais) sont pour moi depuis leurs débuts des outils un peu magiques.
Pensez: ils lisent véritablement le texte que vous leur soumettez via un scanner, un appareil de photo numérique, et hop, ils vous retapent tout ça à la vitesse de l'éclair dans votre programme préféré avec désormais bien peu de fautes.
J'aimerais juste être très clair: après avoir passé un texte quelconque à la moulinette d'un OCR, vous pouvez changer des mots, retravailler le texte, à la grande différence d'une photocopie.
Jusqu'à ce jour, je ne jurais que par OmniPage X, testé ici. Manque de bol, il a bien de la peine à s'installer depuis l'avènement de Jaguar, et Panther n'a rien arrangé. En fait, il faut installer le logiciel en démarrant en utilisateur Root, ce qui n'est pas simple pour un débutant.
Et rendez-vous compte! Ces problèmes n'ont toujours pas été résolus, plus d'un an après.
L'alternative existe, elle s'appelle ReadIris Pro 9
Ne cherchez pas le numéro de série, je l'ai effacé…
Je précise que la société belge IRIS m'avait envoyé il y a un peu plus d'un an une version de son ReadIris Pro 7 que je n'ai jamais pu faire fonctionner via mon scanner Epson, raison pour laquelle je ne l'ai pas testée.
Il faut dire qu'à l'époque, au début de MacOSX, les scanners posaient pas mal de problèmes, mais je pouvais travailler avec OmniPage. Alors pourquoi pas avec ReadIris 7?
Heureusement, ReadIris Pro 9 ne pose plus de problèmes.
Enfin, quand je dis plus de problèmes, ce n'est pas tout à fait exact.
En effet, si l'installation du programme se fait sans aucun problème (on peut l'installer pour OSX et OS9, en ce cas, il faut démarrer sous l'ancien système), il faut savoir, et c'est assez incroyable, que le fait de le lancer par tout autre moyen qu'en double-cliquant sur son icône lance bien le programme, mais que celui-ci n'affiche qu'une bête barre de menus, et que nous ne pouvons strictement rien faire.
Ainsi, lancer ReadIris via DragThing ou LaunchBar est impossible: il faut, comme je l'ai dit, double-cliquer sur le programme lui-même. Problème de bundle que l'éditeur ne semble pas vouloir corriger pour des raisons obscures ("c'est comme ça, et puis, DragThing est-il vraiment utile m'a-t-on dit?").
No comment.
Cette limitation passée, notre logiciel est une petite merveille, pour autant qu'on dispose d'un scanner compatible Twain ou disposant d'un plug-in Photoshop. La plupart des scanners (Epson, HP et Canon) disponibles sur le marché répondent à ces deux nécessités.
Une interface toute neuve toute belle
ReadIris 9 intègre une toute nouvelle interface, aérée, esthétique et véritablement simple à utiliser.
En effet, si tout est réglable via des menus traditionnels, la plupart des fonctions sont paramétrables via des boutons parlants ou un clic de souris.
Tout commence par les réglages dans la zone de gauche de la fenêtre. Il faudra choisir ce qui va être reconnu: un fichier (sous forme d'image ou PDF) ou, s'il faut numériser, le scanner qui va se charger de ce travail.
Seuls les scanners Epson sont installés sur mon disque…
Toujours dans cette zone de paramétrage, on choisit ce qui va advenir de notre reconnaissance:
Comme vous le constatez, le formats importants sont présents, nous reparlerons du PDF et du HTML plus bas.
ReadIris vous propose également d'ouvrir, pour chaque format, une application dans laquelle vous verrez le résultat de la recherche:
Ici, le logiciel fait preuve d'intelligence. Pourquoi vouloir réinventer la roue et montrer le résultat dans un éditeur "maison", comme le fait OmniPage? Iris a plutôt choisi d'ouvrir automatiquement l'application dans laquelle vous travaillez, avec tous ses outils de correction, ménageant ainsi vos petites habitudes.
On peut choisir de travailler de manière automatique: une fois que l'on appuie sur la zone acquérir. et que l'on aura défini via l'interface du scanner, quoi numériser, ReadIris prend tout en mains, jusqu'à la sortie sur le programme désiré.
Personnellement, je ne le recommande pas.
Tous les outils pour bien préparer sa reconnaissance
Pour assurer une bonne reconnaissance, il vaut mieux que la numérisation soit au top, ou pour le moins la meilleure possible. Une résolution de 300 points par pouce est recommandée, 400 si le texte est très petit.
Il se peut que notre document n'ait pas été introduit bien droit dans le scanner, ou que des taches soient apparues.
Les différents outils disponibles pour préparer la reconnaissance…
Pour pallier ces problèmes, ReadIris 9 propose quelques options bien pratiques, comme un redressement de la page extrêmement efficace, une détection automatique de l'orientation qui l'est tout autant, et une suppression du bruit qui fait tout ce qu'elle peut, mais qui n'est pas capable de faire des miracles sur un document trop détérioré.
Avant, après redressement…
Et puis, vous pourrez laisser le programme choisir tout seul les zones à reconnaître. De manière automatique, ReadIris sait quand nous avons à faire à une zone de texte, une zone graphique ou un tableau.
L'analyse d'une page complexe est assez exceptionnelle, et le logiciel reconnaît souvent de manière très correcte le sens de lecture.
Observez l'ordre trouvé tout seul par notre logiciel, c'est épatant!
Néanmoins, je préfère souvent choisir de sélectionner les zones de manière manuelle. Il suffit pour ce faire de tirer des rectangles sur la zone scannée présentée à l'écran.
Chaque zone peut être affublée de l'attribut texte, tableau ou graphique. Il est possible de changer l'odre des zones à reconnaître à tout moment.
De plus, il est possible de créer des zones irrégulières en faisant simplement se chevaucher deux zones (voir ci-dessus)!
Pour faciliter notre travail, différents zooms sont possibles, et une loupe permet de se rendre compte de la qualité de la reconnaissance. C'est bien réalisé et agréable.
Il est encore possible, en cas de document difficile, d'indiquer à ReadIris quel type de caractères composent notre page.
Si vous avez plusieurs documents de même type, composés de la même manière (par exemple un livre dont vous désirez supprimer les hauts et bas de page), vous pouvez sauver votre découpage de zones pour le réutiliser plusieurs fois.
Lorsque nos pages sont numérisées, elles sont stockées et atteignables dans une zone située entre les outils et la fenêtre du document. Un clic sur une vignette affiche la page correspondante.
Une option supplémentaire est disponible: reconnaissance à partir d'un appareil de photo. Le logiciel pourra corriger un manque de netteté dans certaines zones du document, si votre appareil n'était pas bien à niveau par rapport au document.
Les langues, et elles sont nombreuses!
ReadIris 9 est compatible avec la plupart des langues. En effet, 104 sont présentes, et il est même possible de reconnaître, en ajoutant quelques éléments supplémentaires, les langues asiatiques.
En ce qui nous concerne, le français est parfaitement reconnu avec ses accents et cédilles si particuliers.
Plus même, ReadIris peut reconnaître du texte en plusieurs langues. Au cas où vous feriez une reconnaissance de texte contenant par exemple du français et de l'anglais, il vaudrait mieux choisir la langue française comme langue de reconnaissance, justement pour que les accents ne posent pas de problème particulier au logiciel. Les mots anglais seront reconnus sans problème.
après avoir cliqué sur "Autre" à gauche, les "quelques" langues disponibles à droite…
Un apprentissage interactif si jamais…
Imaginez que vous ayez un document important, comportant de très nombreuses pages à reconnaître. Imaginons toujours que le "l" (lettre L en minuscule) soit toujours reconnu comme un "1" (un). Et que le "e" soit reconnu comme un "c". Dans tout le document…
L'horreur!
Et bien, avec Read Iris, aucun problème puisque vous pouvez demander un apprentissage interactif des caractères.
Vous pourrez sauver cet apprentissage dans un dictionnaire spécifique que vous rappellerez chaque fois que vous avez un document de même type à reconnaître.
Et les résultats?
Les résultats? Ils sont bons, vraiment. Prenons quelques exemples:
Reconnaissance d'une circulaire sortie d'une imprimante laser: incroyable! Trois secondes à peine après avoir lancé la reconnaissance (hors temps de numérisation), tout est repris de manière pratiquement parfaite, y compris les styles et l'alignement des paragraphes. Il n'y a aucune erreur mis à part une espace de trop dans l'en-tête, juste un changement de police intempestif à constater.
à gauche, l'original scanné, à droite, dans Word, le même document reconnu…
Notez que ma signature n'a pas passé, ce qui est normal!
Reconnaissance de la même page passée dans un fax, pour voir ce que le logiciel est capable de faire avec de mauvais documents: et bien il fait pratiquement aussi bien! Il y a un" i" qui est deux fois pris pour un "t". Un petit passage par Antidote, ProLexis, ou même le correcteur intégré à Word nous indique immédiatement ces erreurs. Ici, ReadIris change trop souvent de polices, mais là également, il s'agit de sélectionner le texte et de lui donner une police pour que tout soit résolu.
Reconnaissance d'un texte sorti d'un quotidien (Coopération) donc sur papier journal de piètre qualité.
À gauche, la page originale, à droite, la même, reconnue dans Word
Mais qu'est-ce que vous voulez que j'ajoute, moi! Le résultat est bluffant, il y a de quoi se poser des questions! Tout ça en cinq secondes…
ReadIris a oublié une espace, et fait quelques changements de taille de caractères intempestifs. Grandiose.
Une page d'un hebdomadaire, l'Hebdo, sur papier glacé.
Comme toujours, à gauche l'original, à droite le résultat dans Word
Cette fois, j'ai délibérément choisi de laisser tomber certaines zones. ReadIris prend en effet la découpe de la page pour des zones graphiques, autant ne pas le perturber avec ça.
Il m'a suffi de cliquer dans l'ordre sur les zones que je voulais reconnaître (en utilisant ce que ReadIris avait fait comme découpage).
Là encore, le résultat est excellent. Quelques mots mal séparés, vite repérés grâce à nos outils de correction, aucune faute d'orthographe.
On pourrait souhaiter, pour être un peu pénible, que ReadIris sache qu'entre un nombre et du texte, il faut une espace insécable et non pas une espace simple, mais pour le reste, on touche la perfection.
Notez que les tirets de césure sont retranscrits dans Word comme des tirets conditionnels. Cela peut perturber si l'on a choisi d'afficher les caractères invisibles. Bien entendu, ils ne seront pas imprimés.
Enfin, deux colonnes étaient écrites en blanc sur fond bleu sur cette page. La reconnaissance a été excellente là aussi.
Les tableaux
J'ai testé ReadIris sur toutes sortes de tableaux. Là encore, pour autant qu'on lui ait spécifié qu'il s'agissait d'une zone de tableau, les résultats sont très bons.
Comme toujours! À gauche, l'orignal, à droite la sortie dans Word. Aucune faute!
Les zones ont été reconnues automatiquement par ReadIris
Les tableaux les plus compliqués sont repris de manière presque correcte. Les cellules fusionnées dans l'original sont rendues de même manière en sortie. Par contre, il faut parfois lier certaines cellules entre elles. En effet, ReadIris prend de temps en temps chaque retour de ligne pour une nouvelle cellule. Pour le reste, c'est tout bon.
Généralités
La reconnaissance, comme vous venez de le voir, est très bonne. Il faut noter que l'italique est bien lue également, aussi bien que sur OmniPage par exemple, alors que cette déclinaison d'une police a été longtemps une source d'énormes problèmes pour les OCR.
Parfois, il vaudra mieux demander de ne pas reconstituer le document original au niveau de la mise en page. En effet, ReadIris s'en sort bien, mais c'est dans Word que les problèmes se posent. La plupart du temps, la reconnaissance des styles est largement suffisante et facilite l'édition après coup.
L'export
Comme je l'ai écrit plus haut, une reconnaissance peut donner un document texte, RTF, mais aussi PDF et HTML.
En effet, ReadIris sait lire les formats PDF, mais également en créer, avec signets s'il vous plaît. Pour ce faire, il se base à la fois sur les images et sur les titres des paragraphes, à ce que j'ai pu constater.
J'ai même pu prendre un manuel au format PDF qui ne disposait pas de signets, le faire reconnaître par ReadIris, et lui demander de ressortir le même fichier mais avec les signets cette fois. Rigolo…
Au niveau HTML, nous obtenons des fichiers parfaitement lisibles par Safari (ici, une page de l'Hebdo).
En conclusion
Vous avez compris que ReadIris Pro 9 est un excellent logiciel de reconnaissance de caractères. Le meilleur je pense à l'heure actuelle.
OmniPage est également très bon, mais n'est pas suivi de manière correcte sur nos machines. Ce n'est pas le cas de ReadIris qui est souvent mis à jour, et qui a véritablement considérablement évolué dans cette version 9.
Vous l'avez compris, mon choix est fait. S'il faut vous en conseiller un, c'est ReadIris 9, c'est clair!
Et si vous aimez la musique, un programme de reconnaissance de partitions est aussi disponible chez Iris. Il va falloir que je l'essaie, celui-là!