L’OCR sous les distributions GNU/Linux ? Merci xsane2tess et tesseract :)

Si vous avez besoin de récupérer un texte dactylographié, il existe des logiciels dit d’OCR (Optical Character Recognition) ou Reconnaissance Optique de Caractère, il existe un excellent moteur libre qui s’appelle Tesseract.

Il m’arrive d’utiliser un script pour automatiser le lancement de tesseract, histoire d’éviter la ligne de commande. C’est XSane2tess dont j’ai jadis parlé en… octobre 2011 🙂

Je maintiens toujours le script sur AUR, trouvé via une page sur le wiki d’ubuntu-fr.org. Un simple script qu’il est très simple d’installer dans Xsane. Je vous renvoie à l’article d’octobre 2011 pour les détails techniques.

Outre le fait qu’il faut être équipé d’un scanner capable de monter en 300 ppp (ou dpi), de rester en niveaux de gris, et surtout d’avoir des documents pas trop épais à numériser, pour éviter les zones d’ombres.

Mais le mieux est de vous montrer l’ensemble en action.

En dehors de Xsane2tess, il y a l’outil gimagereader (disponible sur AUR pour les utilisateurs de Archlinux et apparentés) et sûrement dans les autres distributions, au moins des paquets pour ubuntu et apparentés (via un PPA) et pour la Fedora (dans les dépots officiels).

Une raison de moins pour casser les distributions GNU/Linux qui sont incapables d’être utilisable au quotidien, si on en croit certaines braves personnes…

Car comme disait feu Georges Brassens :

2 réflexions sur « L’OCR sous les distributions GNU/Linux ? Merci xsane2tess et tesseract :) »

  1. Merci pour le clin d’oeil, je dois dire que cela n’a pas été aussi simple que dans ta vidéo. je suis malgré tout arrivé à un résultat en visitant cette page.
    http://www.equinoxefr.org/post/2008/07/05/xsane-et-tesseract-locr-qui-marche-tres-bien-sous-linux/
    Un rapide essai plus tard cela semble fonctionner.
    En 2011, tu choisissais  » TEXT » alors que maintenant c’est « TIFF » pour le type ?
    A pluche et merci pour ton test, gocr ne donne pas de bons résultats avec Xsane sous Debian.

    1. Le format TIFF permet de scinder les étapes et de proposer un meilleur résultat au final. Ce qui compte, c’est d’avoir du 300 ppp dès le départ.

      Gocr n’est pas le meilleur outil pour l’ocr, malheureusement.

Les commentaires sont fermés.