YAGF est une interface graphique (nécessite la bibliothèque Qt4) pour les outils de reconnaissance cuneiform et tesseract.
Pour installer ce logiciel, il suffit d'installer le paquet yagf.
Lancez l'application en faisant une recherche dans votre tableau de bord avec le mot clé "YAGF".
Aller dans le menu Édition → Réglages → OCR et langues et choisir le moteur OCR (dans Engine OCR) : cuneiform ou tesseract.
Pour supprimer cette application, il suffit de supprimer son paquet.
Pour éviter que Yagf plante à l'ouverture d'un ficher aller dans le menu Édition → Réglages → Traitement des images et décochez la caser Recadrer les images lors de l'ouverture des fichiers.
Si vous ne voyez pas cette option pensez à déplacer la barre inférieure de la fenêtre. La case Traitement des images est après celle sur OCR et langues.
/usr/share/tesseract-ocr/4.00 qui contient d'ailleurs le sous dossier tessdata pour « L’accès aux données de tesseract »
aucune reconnaissance ne démarre et j'ai un message d'erreur tesseract lié à la langue : "Vous avez choisi reconnaissant Française langue à l'aide tesseract OCR. Actuellement, les données pour cette langue n'est pas installé sur votre système. S'il vous plaît installer les fichiers de données de tesseract pour \"fra\" de votre référentiel système."
Initialement, dans le dossier /usr/share/tesseract-ocr/4.00, on trouve un sous-dossier tessdata qui contient les cinq fichiers suivants :
deu.traineddata
eng.traineddata
fra.traineddata
osd.traineddata
pdf.ttf
Il faut les copier, en mode administrateur, dans le dossier /usr/share/tesseract-ocr/4.00