Tesseract + gscan2pdf : l’ocr 5 étoiles.

Je me suis basé sur un article publié par « Linux on the root« , en l’adaptant pour mon archlinux.

L’installation des logiciels est assez simple :

yaourt -S tesseract gscan2pdf

Ensuite, en lançant gscan2pdf, on peut numériser – 300 dpi étant pratique pour avoir une bonne reconnaissance – ou récupérer une image numérisée.

Et j’avoue que le résultat est franchement… étonnant. Bref, mon précédent billet semble être un peu trop « éjaculation précoce » 😉

Mais que va-t-il rester aux logiciels propriétaires, mis à part les bonnes grosses daubes ludiques ? 😉

Ajout du 10 janvier, 20h08 :

Voici le résultat de tesseract :

1
IT WAS a bright cold day in April, and the clocks were
striking thirteen. Winston Smith, his chin nuzzled into his
breast in an effort to escape the vile wind, slipped quickly
through the glass doors of Victory Mansions, though not
quickly enough to prevent a swirl of gritty dust from
entering along with him.
The hallway smelt of boiled cabbage and old rag mats.
At one end of it a coloured poster, too large for indoor
display, had been tacked to the wall. It depicted simply an
enormous face, more than a metre wide: the face of a man
of about forty—five, with a heavy black moustache and
ruggcdly handsome features. Winston made for the stairs.
It was no use trying the lift. Even at the best of times it was
seldom working, and at present the electric current was cut
ull`during daylight hours. It was part ofthe economy drive
un preparation for Hate Week. The Hat was seven flights
up, mul Winston, who was thirty-nine and had a varicose
ulcer nhovc his right ankle, went slowly, resting several
Ilmes on thc way. On each landing, opposite the lift shaft,
the poster with the enormous face gazed from the wall. It
WAH an ie ufthose pictures which are so contrived that the eyes
hollow you about when you move. BIG BROTHER
li W /\’l`( II IING YOU, the caption beneath it ran.
Iusule the Flat a fruity voice was reading out a list of
flguteu which had something to do with the production of
pig in in. ‘l`l1e voice came from an oblong metal plaque like
S tlulleil mirror which formed part of the surface of the
Eiglitelmnal wall. Winston turned a switch and the voice
QQHL nmm·w|ml, though the words were still distinguish-

« Bien » numériser un document avec XSane et gocr

Même si tesseract est surement le meilleur des moteurs d’ocr libre, gocr se défend aussi, bien qu’étant moins puissant par moment. tesseract est aussi puissant qu’ennuyeux à mettre en oeuvre 🙁

J’utilise gocr 0.45 en liaison avec XSane pour récupérer les données.

Pour cet essai, j’ai pris mon exemplaire de « 1984 » en anglais. Pour installer Xsane et gocr, sous mon archlinux, il m’a suffit d’entrer un petit :

yaourt -S xsane gocr

Quand aux réglages utilisés, le plus simple est encore la capture d’écran ci-dessous :

reglage xsane pour l'OCR

Après avoir sélectionné la zone à numériser, j’ai lancé la récupération, puis le visionneur m’a donné l’image png à analyser.

Essai de xsane pour de l'ocr

Il m’a suffit de cliquer sur le bouton concernant l’OCR, et voici le résultat :

IT wAs a bright cold day Ap, and the clocks were
striking thirteen. Winston Smth, his chin nuzzle to his
breast an efort to escape the vile wind, slipped qckly
through the glass doors of Victo Msions, tho4gh not
qckly enough to prevent a swirl of gtty d4st from
Lnteng along with hîm.
The hlway smelt of boiled cabbage d old rag mats.
At one end of it a colo4red poster, too large for indoor
Iî’play, had been tacked to the wa. It depicted simply an
’11cro4s face, more th a metre wide: the face ofa man
n bo4t forty-five, with a heavy black mo4stache and
1’1d1y hdsome features. Winston made for the stairs.
l t w no 4se trying the lift. Even at the best ofmes it was
rIc{cn worke, and at present the electc c4rrent was c4t
l l’l Lre daylight ho4rs. It was part ofthe economy drive
1 rt;ration for Hate Week. The Aat was seven ghts-
11l ;1l Wston, who was thjrty-nine and had a varicose
ll’c’ lvc his right kle, went slowly, resig several
l c’ 1 m way. On each lding, opposite the lift shaft,
l33 ‘l’r with the enormo4s face gazed fiom the wall. It
I ‘ c l’s’ pires which are so contved at the eyes
Ilw yl ;34t when you move. BIG BhOTHE
l W n ‘ l'(; l l I NG YOU, the caption beneath it r.
ll’ LI t a fity voice was reang o4t a list of
glr3 wlic’I I,d sumetg to do with the production of
g a; l1. ‘ I 1 L vicc came from oblong metal plaq4e like
u t3lll’l li- -rr which formed part of the surface of the
_ ght-tu1l w;ll. Winston tumed a switch d the voice
tl3wll tlceh e words were s di gsh-

Le résultat est loin d’être parfait, mais au moins, il reste lisible 😉

Pour l’image PNG, cliquez ici. Pour le texte obtenu, cliquez ici. Il reste encore du chemin à faire, mais tant que l’on est pas obligé de tout retaper à la main, c’est le principal 😉

Swfdec 0.5.5 : enfin un flash libre potable ?

Au moins, pour visionner les sites de vidéos en ligne comme Dailymotion ou encore youtube. Contrairement à l’usine à gaz qu’est devenu Gnash, Swfdec fonctionne avec Dailymotion. Enfin, ne plus avoir besoin de NsPluginWrapper sur les linux 64 bits 😉

Pour installer le greffon dans Firefox ou Epiphany sous Archlinux :

sudo pacman -S swfdec-mozilla

Ensuite, il suffit de lancer Firefox ou Epiphany, et de voir le résultat :

Swfdec en action avec Epiphany sous ArchLinux 64 bits.

Le seul gros problème est qu’il faut lancer manuellement les vidéos via un clic droit puis « play ».

Si NsPluginWrapper – donc distribution en 64 bits – avait été installé auparavant, il suffit d’enlever les dépendances, en utilisant yaourt :


$ yaourt -R nspluginwrapper-flash
$ yaourt -R lib32

La deuxième ligne virant les paquets lib32 (32 bits) s’ils ne sont pas utilisé par d’autres logiciels ayant des dépendances comme Wine par exemple.

Aider une communauté d’utilisateurs via un wiki ?

Fraichement converti – et avec grand plaisir – à la distribution ArchLinux, j’ai décidé d’aider la communauté.

Ne sachant pas coder – ni même faire un simple « hello world ! » en langage C – je cherchais à apporter ma pierre à l’édifice. Une remarque d’Afby sur une précédente note m’a donné l’idée magique.

Participer au Wiki d’Archlinux.fr pour améliorer la documentation qui fait peine à voir en comparaison de celle d’un site comme ubuntu-fr.org.

J’ai donc rédiger des pages concernant l’installation de Gnome et une autre sur l’installation de fluxbox. Même si c’est l’adaptation des pages anglophones, c’est déjà un bon point de départ.

Et c’est un moyen d’aider au développement du logiciel libre, après tout 😉

Retrouver sudo sous ArchLinux.

A vrai dire, une chose me manquait : le sudo qui me permettait d’avoir un accès à root.

Je n’aime pas outre mesure avoir accès à root de manière complète pour les opérations touchant aux tripes du système. L’approche d’ubuntu dans ce domaine me plait particulièrement.

En jetant un oeil sur le wiki anglophone d’Archlinux, j’ai pu trouver cette page qui explique la méthode à appliquer.

Voici une traduction rapide.

D’abord, en utilisant pacman (ou encore l’excellent yaourt) en mode root, dans une console.

pacman -S sudo

Et ensuite, il suffit d’ajouter l’utilisateur courant au fichier /etc/sudoers. Il suffit d’utiliser la commande visudo.

Et d’ajouter la ligne :

USER_NAME ALL=(ALL) ALL

En remplaçant USER_NAME par son nom d’utilisateur.

Une autre option est d’ajouter le groupe wheel à l’utilisateur courant :

gpasswd -a USER_NAME wheel

Et de décommenter la ligne suivante via visudo :

%wheel ALL=(ALL) SETENV: ALL

Fermez le terminal en cours, et ouvrez-en un nouveau 😉

Mieux comprendre la philosophie Open-source.

En fouillant sur la toile pour un quelconque sujet, je suis tombé sur cette page proposant la vidéo d’un documentaire datant de début 2002. « Nom de Code Linux », passé jadis sur la 5ième, devenu France 5 par la suite.

Pourquoi 2002 ? A un moment, on voit une capture rapide d’écran d’ordinateur qui dit utiliser un noyau Linux 2.4.8. Or cette version est sortie courant août 2001.

Cette vidéo dure une cinquantaine de minutes et est aussi téléchargeable pour une lecture plus tranquille hors ligne.

J’allais oublier l’adresse : http://video.google.fr/videoplay?docid=-3699763257121592701

Bon visionnage 😉

Le 64 bits est utilisable sous Linux…

Si l’on regarde la quasi-totalité des ordinateurs vendus de nos jours, que ce soit des PC handi…équipés de Windows ou des Macs, les processeurs utilisés sont des 64 bits, utilisant les extensions AMD64 (même les processeurs Intel, ce dernier ayant repris les extensions développés par l’ennemi AMD en les renommant EMT64).

Or, les Windows fournis, souvent Windows Vista, c’est une version 32 bits, et non une 64 bits qui est fournie. L’absence de pilotes et d’autres logiciels directement en 64 bits semble en être la cause. Conséquence du modèle fermé de Windows ?!

Or, le monde du logiciel libre depuis environ 2 ans supporte cette architecture, même si au début, c’était encore assez artisanal, et que cela s’est franchement simplifié au fil des mois.

Or, avec des distributions récentes, la série des OpenSuSE 10.3, Mandriva 2008, des (K/X/Ed)Ubuntu 7.10, utiliser du 64 bits est aussi simple que d’utiliser une distribution 32 bits.

Le FUD habituel des détracteurs est en gros composé de deux arguments : pas de flash et pas de java. Il suffit de fouiller un peu sur les forums d’ubuntu-fr pour tomber dessus…

C’est faux, et voici comment utiliser ces deux technologies sous les distributions AMD64. Je parle pour la famille des ubuntu que je connais par habitude d’utilisation, utilisation qui remonte à l’époque de l’Edgy Eft (alias Ubuntu 6.10).

Vous avez besoin de flash ? Les codeurs de la distribution ont pris l’outil NSPluginWrapper (Merci Gwenole Beauchesne pour ce petit bijou) et l’ont utilisé pour créer le méta-paquet flashplugin-nonfree.

On peut l’installer soit via Synaptic, soit par la simple ligne de commande suivante :

sudo apt-get install flashplugin-nonfree

Pour Java, il suffit de se référer à ce précédent article, en n’oubliant pas que le logiciel en question est encore assez expérimental.

Maintenant, donnez-moi des logiciels qui ne fonctionnent pas directement sous Linux AMD64. Logiciel pour linux, bien entendu 😉

Ubuntu Linux Gutsy Gibbon à J-12

Il y a 3 jours, j’avais fait le point sur les actualités de la distribution Ubuntu Gutsy Gibbon. J’en profite pour saluer au passage la sortie de la version 10.3 de la distribution OpenSuSE.

Pour en revenir au singe, parmi les évolutions des 3 derniers jours, notons l’arrivée d’un nouveau noyau, le 2.6.22-13 qui se base sur le code du noyau officiel 2.6.22.8, le 2.6.22.9 étant la dernière version actuellement disponible sur kernel.org

Coté bogue ennuyeux, le bogue concernant l’absence de son au démarrage est quasiment corrigé, il ne manque plus que l’arrivée d’une nouvelle version du paquet libgnome  pour que la correction soit complète.

Compiz souffre actuellement d’un bogue étrange. Au premier démarrage, la barre du bas n’apparait pas, et l’on est obligé de cliquer sur le fond d’écran pour la faire apparaitre. Bogue qui a été déjà rapporté environ… 25 fois 😉

Enfin, si vous voulez savoir où en est la liste des bogues pour la version RC qui doit sortir le 11 octobre, suffit de suivre le lien suivant : https://launchpad.net/ubuntu/+milestone/ubuntu-7.10-rc

Première impression d’utilisation en « vrai » de la Ubuntu Linux Gutsy Gibbon.

Ce matin, j’ai décidé de franchir le pas, et d’installer la version béta de la Ubuntu Linux Gutsy Gibbon pour AMD64.

Utilisant la version d’installation non graphique – j’ai de mauvais souvenirs d’installation graphique de précédente version d’Ubuntu Linux… – je n’ai pas rencontré d’énormes problèmes. Les parties les plus longues ont été d’installé les mises à jour (une grosse centaine de paquets mis à jour) et de recopier ma musique au format ogg (6 Go environ pour près de 1700 morceaux).

L’installation des pilotes propriétaires Nvidia pour utiliser la version 0.5.2 « améliorée » de Compiz-Fusion  se sont fait sans problème. Cependant, il a fallu que j’ajoute l’outil « CompizConfig » pour gérer plus finement les effets, et par exemple avoir droit à quatre espaces de travail pour le cube 🙂

D’ailleurs, l’outil qui permet d’installer le pilote Nvidia installe une version assez récente du pilote pour ma GeForce FX5200, qui n’est pourtant pas la dernière nouveauté chez Nvidia… Et il a suffit d’un redémarrage pour être tranquille…

Pilote Nvidia linux 100.14 sous Ubuntu Gutsy Gibbon beta.

Le seul gros point ennuyeux pour configurer Compiz, c’était de savoir pourquoi parfois les bords de fenêtres collaient aux bords de l’écran. Un fil sur le forum d’ubuntu-fr.org m’a donné l’option à modifier pour cette « fonctionnalité » qui me brisait les parties sensibles d’une manière assez importante 😉

L’ajout du Flash a été nasodigital. J’ai préféré la version « propriétaire » car l’équivalent libre Gnash est encore trop peu puissant pour certains fichiers flash qu’on peut trouver sur la toile, malheureusement.

Les notes de publications de la béta d’Ubuntu Linux Gutsy Gibbon ne mentent pas sur la facilité d’installation du Flash, version 9.0r48.

Maintenant, il ne reste plus qu’à espérer que le bug 129029 ne soit bientôt plus qu’un mauvais souvenirs et que les mises à jour du noyau ne seront pas trop « casse-gueule ».

Quoique l’arrivée de Gnome 2.20.1 – vers le 15 ou 16 octobre – risque d’être intéressante…

Une raison de plus de migrer vers la version béta de Gutsy Gibbon ? – suite

La migration semble de plus en plus envisageable. En effet, le baladeur MP3 que j’avais acheté semble être supporté sans problème par Rhythmbox 0.11.2, même si le nom du baladeur se réduit à « ???? ».

Support du Samsung YP-U3 sous Ubuntu Gutsy Gibbon Beta AMD64

Et coté Firefox, la compilation est faisable, comme le prouve la capture d’écran suivante :

Un firefox pré3.0alpha9 sous Ubuntu Gutsy Gibbon Beta pour AMD64

Une raison de plus de migrer vers la version béta de Gutsy Gibbon ?

En dehors du coté plus « récent » des logiciels en comparaison de la version 7.04 d’Ubuntu Linux, la version béta, enfin « post-béta » d’Ubuntu Linux Gutsy Gibbon – alias Ubuntu Linux 7.10 – devant être publiée à la fin du mois – vient d’avoir un gros morceau enfin officialisé, un des « bloquants » en ce qui me concerne : OpenOffice.org 2.3.0 pour linux AMD64

Une capture d’écran valant mieux que 15 trillions de mots…

OpenOffice.org 2.3.0 sous Ubuntu Gutsy Gibbon 64 bits.

Maintenant, il ne reste plus qu’à voir si la compilation du code de développement de Firefox et Thunderbird se passera sans problème et si le support de mon baladeur MP3  sera possible directement dans Rhythmbox

Comme disait une célèbre publicité pour Compaq au début des années 1990 : A suivre 😉

Y a pas que Linux comme OS libre…

Il y a aussi PC-BSD 1.4. Même si la sortie de la version béta d’Ubuntu Linux Gutsy Gibbon ait un peu monopolisé la presse informatique qui parle du logiciel libre – et que j’attends impatiemment que le bug 129029 ne soit plus qu’un mauvais souvenir pour envisager l’installation de la dite version d’ubuntu linux – il ne faut pas oublier PC-BSD.

Ayant fait chauffé mon exemplaire de Virtual Box, j’ai écrit un petit document, transformé en pdf.

Le dit document pèse 1,6 Mo en zippé.

Bon téléchargement et bonne lecture 😉

Flegita / Gnome Scan : pour des besoins basiques en numérisation sous Gnome.

J’ai un vieux scanner (Epson Perfection 1250 U) qui fonctionne très bien (bien qu’un peu lent) avec mon Ubuntu Linux 7.04 AMD64. Cependant, je n’ai pas toujours besoin de toutes les fonctionnalités de XSane par moment, surtout quand je veux numériser un document comme une vieille photo 😉

Il y a donc l’alternative Flegita alias Gnome Scan.

L’installation peut se faire en ligne de commande (pour les g33ks) via un petit :

sudo apt-get install flegita

Ou via le menu Applications / Ajouter – Enlever et en rentrant le mot clé « flegita » dans la boite de recherche (sans les guillemets) et en sélectionnant ce qui apparaitra.

Bien qu’en plein développement (la version fournie avec la Ubuntu 7.04 est la 0.4.0.4 (!!), il n’est pas trop bogué, et avec un peu de chance, la version 0.6 sera fournie avec la version Ubuntu 7.10 (alias Gutsy Gibbon).

L'écran d'info de Flegita avec la page des scanners reconnus

Et comme une image vaut mille mots, voici quelques captures d’écrans assez parlantes sur la simplicité du logiciel en question 🙂

Aperçu d'une numérisation

On règle le niveau de finesse de la numérisation

Numérisation en cours ;)

Pourquoi faire compliqué quand on peut faire simple ? 😉

Vers Gran Paradiso Alpha9 et non béta1 :(

Bien que je m’en doutais un peu, le bug 394037 confirme mon sentiment : la prochaine version de développement de Gran Paradiso (nom de code de Firefox 3) sera une alpha 9 et non la béta1 comme prévue.

De plus, on apprend dans ce bug (commentaire 10) que :

  1. Firefox 3 sera numéroté sur 3 chiffres (3.0.0, 3.0.1, 3.0.2, etc…)
  2. Gecko sera lui numéroté sur 4 chiffres (1.9.0.0, 1.9.0.1, 1.9.0.2, etc…)

Maintenant, il reste à savoir si d’ici la sortie de la M9, le numéro de version sera changée. Version M9 prévue pour le 16 octobre 2007.

Donc, avec un peu de chance à ce rythme, Firefox 3 sera disponible pour noël… 2008 🙁

Bah, mieux vaut une version alpha9 voire alpha10 et être tranquille par la suite pour les bétas.

En tout cas, le précédent record en nombre de versions alpha pour Mozilla remonte à la version 1.8 du moteur Gecko avec 7 versions alpha 😉

Sortie de Gran Paradiso Alpha 8… En route vers la béta 1 ?

Lu sur le blog « Mozilla Developper Center » : l’alpha 8 de Gran Paradiso est officiellement sortie.

Au menu des nouveautés :

  • début d’une nouvelle interface pour gérer plus simplement les adresses qu’on veut garder (cf l’étoile de la barre d’adresse)
  • une technologie intégrée pour la gestion des « malwares » : un test est disponible sur cette page : http://www.mozilla.com/firefox/its-an-attack.html
  • Une nouvelle interface pour gérer les types de fichiers
  • Toutes les extensions doivent maintenant utiliser un protocole sécurisé pour être mise à jour. Cf le bug 378216 pour plus d’infos.
  • Firefox est fermé proprement en cas de redémarrage de Windows.

Si vous voulez la liste des bugs corrigées depuis la version alpha7 (donc depuis le 3 août 2007), suffit de cliquer ici ! (1123 bugs pour être plus précis).

Les notes de publications étant disponibles à cette adresse.