La reconnaissance optique de caractères (ROC), ou encore appelé vidéo-codage (traitement postal, chèque bancaire) désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte.
Il existe plusieurs logiciels sous GNU/Linux spécialement dédiés, et il est aussi possible d'employer les logiciels existants sous Windows via Wine.
Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir.
Voir également :
cuneiform est un OCR multi-plateforme, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, jpg, png, tiff, Il peut exporter en format texte, html, rtf, et d'autres.
Le projet est en attente de nouveaux développeurs depuis mai 2011 1). Il dispose toujours d'une page Launchpad qui héberge le code et est maintenue.
Une application avec une interface graphique a également été développée : cuneiform-qt.
Voir la documentation en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract.
Pour l'utiliser installez le paquet cuneiform.
Il est aussi possible de lancer cuneiform sur un fichier image par l'intermédiaire d'un script nautilus tel que celui-ci :
#!/bin/sh printf %s "$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS" | while read -r arg do convert -colorspace GRAY "$arg" tmp.tiff cuneiform -l fra -f rtf -o "$arg".rtf tmp.tiff rm tmp.tiff done
Il peut être utilisé dans l'interface graphique XSane.
OCRopus (page détaillée) : ROC avec prise en compte de la mise en page (en développement). Très utile pour les vieux manuscrits.
Voir la page tesseract-ocr pour plus d'informations sur l'installation et l'utilisation.
Pour l'utiliser installer le paquet tesseract-ocr.
Donne de très bons résultats si l'image est bonne, bons dans tous les cas. Ce qu'il peut faire :
Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d'erreur par document.
Installez le paquet gocr et gocr-tk pour avoir une interface graphique. Ce qu'il sait faire :
Ocrad est un élément du projet GNU. Son développement semble arrêté (ou très ralenti) depuis 2011.
Pour l'utiliser installer le paquet ocrad.
Cependant, les résultat sont médiocres par rapport aux autres moteurs. Peut s'utiliser en ligne de commande ou avec Skanlite et OCRFeeder.
(en) OCRthyPDF-Essentials est une application directement installable depuis le centre d'applications.
Xsane (page détaillée) est une application graphique très complète pour scanner, qui utilise gocr, tesseract ou cuneiform.
Pour utiliser la ROC il faudra avoir installé l'un des paquets gocr ou cuneiform ou bien le moteur tesseract-ocr avec XSane, dont les indications se trouvent sur la page xsane2tess.
Pour faire de la ROC avec Xsane il faut :
gocr -f UTF8
xsane2tess -l fra
cuneiform -l fra
Ensuite :
cuneiform est le moteur (voir plus haut), paramétré sous Xsane qui a donné les meilleurs résultats, reconnaissance optique presque parfaite, avec une détection excellente des colonnes.
Interface graphique permettant notamment de réaliser de la Reconnaissance Optique de Caractères avec les moteurs gocr et tesseract. Son développement dynamique lui permet d'intégrer les outils les plus performants sous GNU/Linux, dont bientôt OCRopus.
Voir chapitre utilisation de la page détaillée gscan2pdf.
OCRFeeder est une interface graphique simple, permettant de choisir entre plusieurs moteurs : par défaut installe tesseract, fonctionne aussi avec gocr, ocrad et cuneiform.
Attention, le paquet tesseract est installé pour la reconnaissance de l'anglais uniquement. Voir les paquet langues supplémentaires sur tesseract-ocr.
sudo sed -i 's/ocrfeeder -i %f/ocrfeeder/' /usr/share/applications/ocrfeeder.desktop
Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois).
Installez le paquet ocrfeeder.
Ce qu'il sait faire :
Ce qu'il ne sait pas faire :
Voir la page dédiée : skanlite.
xsane2tess: un adaptateur tesseract pour XSane.
gImageReader est une interface graphique très simple d'emploi pour tesseract-ocr.
YAGF est une interface graphique pour cuneiform (donc une bonne capacité de reconnaissance comme indiqué plus haut) et tesseract.
Lios est une interface graphique pour cuneiform et tesseract. Pour l'utiliser installez le paquet lios. Si vous souhaitez avoir la dernière version en français :
Voir les solutions de Gestion Électronique des Documents (GED)
Non libre mais gratuit. Basé sur WOCAR , image non PDF
Racheté par ScanSoft software. Une fiche sans aucun commentaire est néanmoins disponible pour la version 5.Tout retour, ici ou sur WineHQ serait grandement apprécié.
Certaines versions anciennes de FineReader fonctionnent plus ou moins sous Wine.
Non libre, versions d'évaluation 30 jours des logiciels sur le site officiel.