Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
ocr [Le 08/08/2017, 22:51] 41.105.120.250 [gImageReader] |
ocr [Le 27/06/2024, 10:19] (Version actuelle) 92.184.110.136 [OCRthyPDF-Essentials] |
||
---|---|---|---|
Ligne 18: | Ligne 18: | ||
====Cuneiform ==== | ====Cuneiform ==== | ||
- | [[http://cognitiveforms.com/ru/products_and_services/Cuneiform.html#1189-Cuneiform|cuneiform]] (en russe, ou en [[http://en.cognitiveforms.ru/products/cuneiform/|anglais]]) est un OCR multi-plateforme, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, png, tiff, Il peut exporter en format texte, html, rtf, et d'autres. | + | [[https://cuneiform.ru/eng/|cuneiform]] est un OCR multi-plateforme, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, jpg, png, tiff, Il peut exporter en format texte, html, rtf, et d'autres. |
Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://code.launchpad.net/cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://launchpad.net/cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue. | Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://code.launchpad.net/cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://launchpad.net/cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue. | ||
+ | |||
+ | Une application avec une interface graphique a également été développée : [[https://github.com/sibskull/cuneiform-qt|cuneiform-qt]]. | ||
Voir la [[http://wiki.ubuntuusers.de/Cuneiform-Linux?highlight=cuneiform#Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract. | Voir la [[http://wiki.ubuntuusers.de/Cuneiform-Linux?highlight=cuneiform#Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract. | ||
Ligne 29: | Ligne 31: | ||
<file bash>#!/bin/sh | <file bash>#!/bin/sh | ||
- | printf %s "$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS" | | + | printf %s "$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS" | |
while read -r arg | while read -r arg | ||
do | do | ||
- | convert -colorspace GRAY $arg tmp.tiff | + | convert -colorspace GRAY "$arg" tmp.tiff |
- | cuneiform -l fra -f rtf -o $arg.rtf tmp.tiff | + | cuneiform -l fra -f rtf -o "$arg".rtf tmp.tiff |
rm tmp.tiff | rm tmp.tiff | ||
done</file> | done</file> | ||
Ligne 48: | Ligne 50: | ||
Voir la page [[:tesseract-ocr]] pour plus d'informations sur l'installation et l'utilisation.\\ | Voir la page [[:tesseract-ocr]] pour plus d'informations sur l'installation et l'utilisation.\\ | ||
Pour l'utiliser [[:tutoriel:comment_installer_un_paquet|installer le paquet]] **[[apt>tesseract-ocr]]**.\\ | Pour l'utiliser [[:tutoriel:comment_installer_un_paquet|installer le paquet]] **[[apt>tesseract-ocr]]**.\\ | ||
- | Donne de très bonnes résultats si l'image est bonne, bonne dans tous les cas. Ce qu'il peut faire : | + | Donne de très bons résultats si l'image est bonne, bons dans tous les cas. Ce qu'il peut faire : |
* Accepte beaucoup de format d'images (Utilise Leptonica) ; | * Accepte beaucoup de format d'images (Utilise Leptonica) ; | ||
* Gère plusieurs langues dont le français (avec les accents) ; | * Gère plusieurs langues dont le français (avec les accents) ; | ||
Ligne 56: | Ligne 58: | ||
==== Gocr ==== | ==== Gocr ==== | ||
- | Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d'erreur par document. | + | Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d'erreur par document. |
Installez le paquet **[[apt>gocr]]** et **[[apt>gocr-tk]]** pour avoir une interface graphique. Ce qu'il sait faire : | Installez le paquet **[[apt>gocr]]** et **[[apt>gocr-tk]]** pour avoir une interface graphique. Ce qu'il sait faire : | ||
* Reconnaît les fichiers png ; | * Reconnaît les fichiers png ; | ||
- | * Aide correcte ; | + | * Aide correcte. |
- | * La reconnaissance optique est fonctionnelle sur des fichiers images pour lesquelles tesseract ne donne aucun résultat. Par exemple une capture d'écran en mode console réalisée avec [[:fbgrab]]. | + | |
[[http://jocr.sourceforge.net/|Site officiel]] | [[http://jocr.sourceforge.net/|Site officiel]] | ||
Ligne 73: | Ligne 74: | ||
===== Interfaces graphiques ===== | ===== Interfaces graphiques ===== | ||
+ | |||
+ | ==== OCRthyPDF-Essentials ==== | ||
+ | **(en)** [[https://github.com/digidigital/OCRthyPDF-Essentials|OCRthyPDF-Essentials]] est une application directement installable depuis le centre d'applications. | ||
+ | |||
+ | |||
==== Xsane ==== | ==== Xsane ==== | ||
Ligne 79: | Ligne 85: | ||
Pour faire de la ROC avec Xsane il faut : | Pour faire de la ROC avec Xsane il faut : | ||
- | * Choisir son moteur d'OCR : ouvrir Xsane et dans //Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par : | + | * Choisir son moteur d'OCR : ouvrir Xsane et dans //Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par : |
* pour **gocr** avec la reconnaissance des caractères accentués <code>gocr -f UTF8</code> | * pour **gocr** avec la reconnaissance des caractères accentués <code>gocr -f UTF8</code> | ||
- | * pour **tesseract** <code >xsane2tess -l fra</code> | + | * pour **tesseract** <code >xsane2tess -l fra</code> |
* pour **cuneiform** <code >cuneiform -l fra</code> | * pour **cuneiform** <code >cuneiform -l fra</code> | ||
* dans la zone à droite de la cible, sélectionner //Enregistrer// ; | * dans la zone à droite de la cible, sélectionner //Enregistrer// ; | ||
Ligne 110: | Ligne 116: | ||
Attention, le paquet tesseract est installé pour la reconnaissance de l'anglais uniquement. Voir les paquet langues supplémentaires sur [[:tesseract-ocr]]. | Attention, le paquet tesseract est installé pour la reconnaissance de l'anglais uniquement. Voir les paquet langues supplémentaires sur [[:tesseract-ocr]]. | ||
+ | |||
+ | <note important>OCRFeeder, après installation, ne se lance pas. Pour résoudre ce problème, entrez la commande suivante dans un [[terminal]] : <code bash>sudo sed -i 's/ocrfeeder -i %f/ocrfeeder/' /usr/share/applications/ocrfeeder.desktop</code></note> | ||
Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois). | Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois). | ||
Ligne 124: | Ligne 132: | ||
Ce qu'il ne sait pas faire : | Ce qu'il ne sait pas faire : | ||
* La rotation de l'image obtenue via le scanner (gênant quand on scanne un livre au format A5 où deux pages = A4 paysage => il faut faire deux scans au lieu d'un) | * La rotation de l'image obtenue via le scanner (gênant quand on scanne un livre au format A5 où deux pages = A4 paysage => il faut faire deux scans au lieu d'un) | ||
+ | |||
+ | |||
Ligne 132: | Ligne 142: | ||
[[xsane2tess]]: un adaptateur tesseract pour XSane. | [[xsane2tess]]: un adaptateur tesseract pour XSane. | ||
- | koudri | + | ==== gImageReader ==== |
- | + | [[gimagereader|gImageReader]] est une interface graphique très simple d'emploi pour **[[:tesseract-ocr|tesseract-ocr]]**.\\ | |
- | {{ gimagereader_xenial.png?450}} | + | |
- | [[https://github.com/manisandro/gImageReader|gImageReader]] est une interface graphique pour **tesseract-ocr** sous [[:Gnome]]. Il est très simple d'emploi.\\ | + | |
- | Pour l'utiliser, [[:tutoriel:comment_installer_un_paquet|installez le paquet]] ** [[apt>gimagereader]]** et pour avoir la reconnaissance du français le paquet **[[apt>tesseract-ocr-fra]]**. | + | |
- | + | ||
- | + | ||
- | Fonctionnalités : | + | |
- | -Traite images et fichiers PDF, | + | |
- | -Acquisition depuis scanner, | + | |
- | -Sélection des parties de l'image à traiter, | + | |
- | -Supporte différentes langues, | + | |
- | -Comparaison cote à cote de la source et du résultat, | + | |
- | -Supprime les saut de lignes dans le texte résultant, | + | |
- | - prise en charge des dictionnaires myspell, | + | |
- | - lecture des lignes tordues, | + | |
- | - interface graphique ergonomique. | + | |
==== YAGF ==== | ==== YAGF ==== | ||
[[YAGF]] est une interface graphique pour [[#cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#tesseract|tesseract]]. | [[YAGF]] est une interface graphique pour [[#cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#tesseract|tesseract]]. | ||
- | **(en)** [[http://symmetrica.net/cuneiform-linux/yagf-en.html|Site officiel du logiciel]] | + | **(en)** [[https://sourceforge.net/projects/yagf-ocr/|Site officiel du logiciel]] |
+ | ==== LIOS ==== | ||
+ | Lios est une interface graphique pour [[#cuneiform]] et [[#tesseract]]. Pour l'utiliser [[:tutoriel:comment_installer_un_paquet|installez le paquet]] **[[apt>lios]]**. Si vous souhaitez avoir la dernière version en français : | ||
+ | * [[:PPA|Ajouter le PPA]] **ppa:nalin-x-linux/lios**((https://launchpad.net/~nalin-x-linux/+archive/ubuntu/lios)) dans vos sources de logiciels; | ||
+ | * puis [[:tutoriel:comment_modifier_sources_maj#recharger_la_liste_des_paquets|rechargez la liste des paquets]], | ||
+ | * puis installez le paquet **[[apt>lios]]**. | ||
=====OCR en ligne===== | =====OCR en ligne===== | ||
- | ====Free OCR==== | + | Voir les solutions de [[:ged|Gestion Électronique des Documents (GED)]] |
- | Le site [[http://www.free-ocr.com/|Free OCR]] permet de faire de la reconnaissance de caractères en ligne. Il est gratuit et utilise tesseract pour la reconnaissance. | + | |
- | + | ||
- | Points forts : | + | |
- | * gratuit | + | |
- | * performant | + | |
- | * gère plusieurs langues | + | |
- | * reconnait les textes en colonne | + | |
- | + | ||
- | Points faibles : | + | |
- | * nécessité d'entrer un captcha à chaque texte soumis | + | |
- | * on ne peut faire reconnaître que dix pages ( 2 Mo maximum ). Au bout de dix, il faut attendre une heure avant de pouvoir recommencer | + | |
- | + | ||
- | Voir également : | + | |
- | * Les solutions de [[:ged|Gestion Électronique des Documents (GED)]] | + | |
====WatchOCR - Server PDF et OCR du contenu==== | ====WatchOCR - Server PDF et OCR du contenu==== | ||
Ligne 181: | Ligne 165: | ||
===== Programmes Windows utilisables sous GNU/Linux via Wine ===== | ===== Programmes Windows utilisables sous GNU/Linux via Wine ===== | ||
- | Simple OCR : image non PDF | + | |
==== SimpleOCR ==== | ==== SimpleOCR ==== | ||
- | * [[http://www.01net.com/telecharger/windows/Multimedia/scanner_ocr/fiches/32246.html|Lien de téléchargement]] | + | * [[https://www.01net.com/telecharger/windows/Multimedia/scanner_ocr/fiches/32246.html|Lien de téléchargement]] |
Non libre mais gratuit. Basé sur WOCAR | Non libre mais gratuit. Basé sur WOCAR | ||
, image non PDF | , image non PDF | ||
Ligne 190: | Ligne 174: | ||
==== WebOCR ==== | ==== WebOCR ==== | ||
- | * [[http://appdb.winehq.org/appview.php?iAppId=829|Fiche sur Winehq.org]] | + | * [[https://appdb.winehq.org/appview.php?iAppId=829|Fiche sur Winehq.org]] |
==== Recognita ==== | ==== Recognita ==== | ||
Ligne 198: | Ligne 182: | ||
==== ReadIris ==== | ==== ReadIris ==== | ||
- | [[http://appdb.winehq.org/objectManager.php?sClass=application&iId=2543|Fiche sur WineHQ.org]] | + | [[https://appdb.winehq.org/objectManager.php?sClass=application&iId=2543|Fiche sur WineHQ.org]] |
==== ABBY FineReader 8.0 OCR ==== | ==== ABBY FineReader 8.0 OCR ==== | ||
Ligne 211: | Ligne 195: | ||
==== Myscript (GNU/Linux et win) ==== | ==== Myscript (GNU/Linux et win) ==== | ||
- | * [[http://appdb.winehq.org/objectManager.php?sClass=application&iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] | + | * [[https://appdb.winehq.org/objectManager.php?sClass=application&iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]] |
- | * [[http://appdb.winehq.org/objectManager.php?sClass=application&iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://www.visionobjects.com/handwriting_recognition/downloadstylus3.htm#Linux|existe pour GNU/Linux]] ), reconnaît l'écriture attachée | + | * [[https://appdb.winehq.org/objectManager.php?sClass=application&iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://www.visionobjects.com/handwriting_recognition/downloadstylus3.htm#Linux|existe pour GNU/Linux]] ), reconnaît l'écriture attachée |
- | Non libre, [[http://www.visionobjects.com/handwriting_recognition/onlinestore.htm|versions d'évaluation 30 jours]] des logiciels sur le site officiel. | + | Non libre, [[http://www.visionobjects.com/handwriting_recognition/onlinestore.htm|versions d'évaluation 30 jours]] des logiciels sur le site officiel. |
===== Voir aussi ===== | ===== Voir aussi ===== | ||
- | * [[http://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum à propos de l'OCR]] | + | * [[https://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum à propos de l'OCR]] |
---- | ---- | ||
//Contributeurs : [[:utilisateurs:Teolemon|Pierre S.]] et [[:utilisateurs:Sorbus]] --- [[:utilisateurs:L'Africain|L'Africain]] Le 14/07/2017, 21:06.// | //Contributeurs : [[:utilisateurs:Teolemon|Pierre S.]] et [[:utilisateurs:Sorbus]] --- [[:utilisateurs:L'Africain|L'Africain]] Le 14/07/2017, 21:06.// |