Différences

Ci-dessous, les différences entre deux révisions de la page.

--- ocr [Le 08/08/2017, 22:51]
41.105.120.250 [gImageReader]
+++ ocr [Le 27/06/2024, 10:19] (Version actuelle)
92.184.110.136 [OCRthyPDF-Essentials]
@@ Ligne 18: / Ligne 18: @@
 ====Cuneiform ====
-[[http://cognitiveforms.com/ru/products_and_services/Cuneiform.html#1189-Cuneiform|cuneiform]] (en russe, ou en [[http://en.cognitiveforms.ru/products/cuneiform/|anglais]]) est un OCR multi-plateforme, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, png, tiff,  Il peut exporter en format texte, html, rtf, et d'autres.
+[[https://cuneiform.ru/eng/|cuneiform]] est un OCR multi-plateforme, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats très satisfaisants avec une marge d'erreur entre 2 et 3 %. De plus, il semble être le seul à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, jpg, png, tiff,  Il peut exporter en format texte, html, rtf, et d'autres.
 Le projet est en attente de nouveaux développeurs depuis mai 2011 (([[https://code.launchpad.net/cuneiform-linux|Stepping down as maintainer]])). Il dispose toujours d'une [[https://launchpad.net/cuneiform-linux|page Launchpad]] qui héberge le code et est maintenue.
+Une application avec une interface graphique a également été développée : [[https://github.com/sibskull/cuneiform-qt|cuneiform-qt]].
 Voir la  [[http://wiki.ubuntuusers.de/Cuneiform-Linux?highlight=cuneiform#Einbindung-in-XSane|documentation]] en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract.
@@ Ligne 29: / Ligne 31: @@
 <file bash>#!/bin/sh
 printf %s "$NAUTILUS_SCRIPT_SELECTED_FILE_PATHS" |
 while read -r arg
 do
-	convert -colorspace GRAY $arg tmp.tiff
+	convert -colorspace GRAY "$arg" tmp.tiff
-	cuneiform -l fra -f rtf -o $arg.rtf tmp.tiff
+	cuneiform -l fra -f rtf -o "$arg".rtf tmp.tiff
 	rm tmp.tiff
 done</file>
@@ Ligne 48: / Ligne 50: @@
 Voir la page [[:tesseract-ocr]] pour plus d'informations sur l'installation et l'utilisation.\\
 Pour l'utiliser [[:tutoriel:comment_installer_un_paquet|installer le paquet]] **[[apt>tesseract-ocr]]**.\\
-Donne de très bonnes résultats si l'image est bonne, bonne dans tous les cas. Ce qu'il peut faire :
+Donne de très bons résultats si l'image est bonne, bons dans tous les cas. Ce qu'il peut faire :
   * Accepte beaucoup de format d'images (Utilise Leptonica) ;
   * Gère plusieurs langues dont le français (avec les accents) ;
@@ Ligne 56: / Ligne 58: @@
 ==== Gocr ====
 Logiciel qui donne des résultats de qualité médiocre, entre 7 et 8 % d'erreur par document.
 Installez le paquet **[[apt>gocr]]** et **[[apt>gocr-tk]]** pour avoir une interface graphique. Ce qu'il sait faire :
   * Reconnaît les fichiers png ;
-  * Aide correcte ;
+  * Aide correcte.
-   * La reconnaissance optique est fonctionnelle sur des fichiers images pour lesquelles tesseract ne donne aucun résultat. Par exemple une capture d'écran en mode console réalisée avec [[:fbgrab]].
 [[http://jocr.sourceforge.net/|Site officiel]]
@@ Ligne 73: / Ligne 74: @@
 ===== Interfaces graphiques =====
+==== OCRthyPDF-Essentials ====
+**(en)** [[https://github.com/digidigital/OCRthyPDF-Essentials|OCRthyPDF-Essentials]] est une application directement installable depuis le centre d'applications.
 ==== Xsane ====
@@ Ligne 79: / Ligne 85: @@
 Pour faire de la ROC avec Xsane il faut :
   * Choisir son moteur d'OCR : ouvrir Xsane et dans //Préférence -> Configuration -> OCR// il faut, dans la commande OCR, remplacer **gocr** par :
       * pour  **gocr** avec la reconnaissance des caractères accentués <code>gocr -f UTF8</code>
-      * pour **tesseract** <code >xsane2tess  -l  fra</code>
+      * pour **tesseract** <code >xsane2tess -l fra</code>
       * pour **cuneiform** <code >cuneiform -l fra</code>
   * dans la zone à droite de la cible, sélectionner //Enregistrer// ;
@@ Ligne 110: / Ligne 116: @@
 Attention, le paquet tesseract est installé pour la reconnaissance de l'anglais uniquement. Voir les paquet langues supplémentaires sur [[:tesseract-ocr]].
+<note important>OCRFeeder, après installation, ne se lance pas. Pour résoudre ce problème, entrez la commande suivante dans un [[terminal]] : <code bash>sudo sed -i 's/ocrfeeder -i %f/ocrfeeder/' /usr/share/applications/ocrfeeder.desktop</code></note>
 Traite les images, les fichiers PDF et les sorties de scanner. On peut ajouter le contenu d'un dossier (plusieurs fichiers à la fois).
@@ Ligne 124: / Ligne 132: @@
 Ce qu'il ne sait pas faire :
    * La rotation de l'image obtenue via le scanner (gênant quand on scanne un livre au format A5 où deux pages = A4 paysage => il faut faire deux scans au lieu d'un)
@@ Ligne 132: / Ligne 142: @@
 [[xsane2tess]]: un adaptateur tesseract pour XSane.
-koudri
+==== gImageReader ====
+[[gimagereader|gImageReader]] est une interface graphique très simple d'emploi pour **[[:tesseract-ocr|tesseract-ocr]]**.\\
-{{ gimagereader_xenial.png?450}}
-[[https://github.com/manisandro/gImageReader|gImageReader]] est une interface graphique pour **tesseract-ocr** sous [[:Gnome]]. Il est très simple d'emploi.\\
-Pour l'utiliser, [[:tutoriel:comment_installer_un_paquet|installez le paquet]] ** [[apt>gimagereader]]** et pour avoir la reconnaissance du français le paquet **[[apt>tesseract-ocr-fra]]**.
-Fonctionnalités :
-    -Traite images et fichiers PDF,
-    -Acquisition depuis scanner,
-    -Sélection des parties de l'image à traiter,
-    -Supporte différentes langues,
-    -Comparaison cote à cote de la source et du résultat,
-    -Supprime les saut de lignes dans le texte résultant,
-    - prise en charge des dictionnaires myspell,
-    - lecture des lignes tordues,
-    - interface graphique ergonomique.
 ==== YAGF ====
 [[YAGF]] est une interface graphique pour [[#cuneiform|cuneiform]] (donc une bonne capacité de reconnaissance comme indiqué plus haut) et [[#tesseract|tesseract]].
-**(en)** [[http://symmetrica.net/cuneiform-linux/yagf-en.html|Site officiel du logiciel]]
+**(en)** [[https://sourceforge.net/projects/yagf-ocr/|Site officiel du logiciel]]
+==== LIOS ====
+Lios est une interface graphique pour [[#cuneiform]] et [[#tesseract]]. Pour l'utiliser [[:tutoriel:comment_installer_un_paquet|installez le paquet]] **[[apt>lios]]**. Si vous souhaitez avoir la dernière version en français :
+  * [[:PPA|Ajouter le PPA]] **ppa:nalin-x-linux/lios**((https://launchpad.net/~nalin-x-linux/+archive/ubuntu/lios)) dans vos sources de logiciels;
+  * puis [[:tutoriel:comment_modifier_sources_maj#recharger_la_liste_des_paquets|rechargez la liste des paquets]],
+  * puis installez le paquet **[[apt>lios]]**.
 =====OCR en ligne=====
-====Free OCR====
+Voir les solutions de [[:ged|Gestion Électronique des Documents (GED)]]
-Le site [[http://www.free-ocr.com/|Free OCR]] permet de faire de la reconnaissance de caractères en ligne. Il est gratuit et utilise tesseract pour la reconnaissance.
-Points forts :
-  * gratuit
-  * performant
-  * gère plusieurs langues
-  * reconnait les textes en colonne
-Points faibles :
-  * nécessité d'entrer un captcha à chaque texte soumis
-  * on ne peut faire reconnaître que dix pages ( 2 Mo maximum ). Au bout de dix, il faut attendre une heure avant de pouvoir recommencer
-Voir également :
-   * Les solutions de [[:ged|Gestion Électronique des Documents (GED)]]
 ====WatchOCR - Server PDF et OCR du contenu====
@@ Ligne 181: / Ligne 165: @@
 ===== Programmes Windows utilisables sous GNU/Linux via Wine =====
-Simple OCR : image non PDF
 ==== SimpleOCR ====
-  * [[http://www.01net.com/telecharger/windows/Multimedia/scanner_ocr/fiches/32246.html|Lien de téléchargement]]
+  * [[https://www.01net.com/telecharger/windows/Multimedia/scanner_ocr/fiches/32246.html|Lien de téléchargement]]
 Non libre mais gratuit. Basé sur WOCAR
 , image non PDF
@@ Ligne 190: / Ligne 174: @@
 ==== WebOCR ====
-  * [[http://appdb.winehq.org/appview.php?iAppId=829|Fiche sur Winehq.org]]
+  * [[https://appdb.winehq.org/appview.php?iAppId=829|Fiche sur Winehq.org]]
 ==== Recognita ====
@@ Ligne 198: / Ligne 182: @@
 ==== ReadIris ====
-[[http://appdb.winehq.org/objectManager.php?sClass=application&iId=2543|Fiche sur WineHQ.org]]
+[[https://appdb.winehq.org/objectManager.php?sClass=application&iId=2543|Fiche sur WineHQ.org]]
 ==== ABBY FineReader 8.0 OCR ====
@@ Ligne 211: / Ligne 195: @@
 ==== Myscript (GNU/Linux et win) ====
-  * [[http://appdb.winehq.org/objectManager.php?sClass=application&iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]]
+  * [[https://appdb.winehq.org/objectManager.php?sClass=application&iId=7180|Fiche de Myscript Note (reconnaissance écriture) sur WineHQ.org]]
-  * [[http://appdb.winehq.org/objectManager.php?sClass=application&iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://www.visionobjects.com/handwriting_recognition/downloadstylus3.htm#Linux|existe pour GNU/Linux]] ), reconnaît l'écriture attachée
+  * [[https://appdb.winehq.org/objectManager.php?sClass=application&iId=8569|Fiche de Myscript Stylus (logiciel interactif) sur WineHQ.org]] ([[http://www.visionobjects.com/handwriting_recognition/downloadstylus3.htm#Linux|existe pour GNU/Linux]] ), reconnaît l'écriture attachée
 Non libre, [[http://www.visionobjects.com/handwriting_recognition/onlinestore.htm|versions d'évaluation 30 jours]] des logiciels sur le site officiel.
 ===== Voir aussi =====
-  * [[http://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum à propos de l'OCR]]
+  * [[https://forum.ubuntu-fr.org/viewtopic.php?id=78804|le fil de discussion du forum à propos de l'OCR]]
 ----
 //Contributeurs : [[:utilisateurs:Teolemon|Pierre S.]] et [[:utilisateurs:Sorbus]] --- [[:utilisateurs:L'Africain|L'Africain]] Le 14/07/2017, 21:06.//