Le logiciel OCR Tesseract

Forum d'aide générale sur Slackware
blafleur
Messages : 8
Inscription : 29 août 2019, 16:18

Le logiciel OCR Tesseract

Message par blafleur »

J'ai mis sur mon site une notice concernant la manière d'installer le logiciel Open Source Tesseract version 4 sur Slackware Current.
J'ai fait quelques tests avec sur mon imprimante/scanner et le résultat est très intéressant.

Dans cette version ce logiciel utilise un réseau de neurone de type LSTM pour lequel des publications très récentes ont été réalisées. Ce nouveau type de réseau de type neuronal récurrent semble très efficace.

Il semble qu'aujourd'hui les logiciels OCR deviennent plus l'appanage du monde libre et de la recherche académique. Le monde commercial se réserve l'aspect prestation qui reste consomatrice de temps. Le gain est sur un meilleure reconnaissance du texte et non sur le coût de la prestation globale qui ne change pas.

http://dir.logicielnarcisse.fr/cgi-bin/ ... tesseract0

Pierre
Avatar de l’utilisateur
Thomas
Administrateur
Messages : 432
Inscription : 08 janvier 2017, 07:14
Localisation : Anizy-le-Grand
Contact :

Re: Le logiciel OCR Tesseract

Message par Thomas »

Super, merci beaucoup, je pense que cela va en intéresser plus d'un.
As-tu les SB qui vont avec tes paquets stp ?
Avatar de l’utilisateur
Thomas
Administrateur
Messages : 432
Inscription : 08 janvier 2017, 07:14
Localisation : Anizy-le-Grand
Contact :

Re: Le logiciel OCR Tesseract

Message par Thomas »

Merci bien :)
Didier Spaier
Messages : 129
Inscription : 29 janvier 2017, 21:07

Re: Le logiciel OCR Tesseract

Message par Didier Spaier »

Pour info tesseract est inclus dans Slint ainsi que leptonica, tesseract-data, et Lios dans ce répertoire:
http://slackware.uk/slint/x86_64/slint-14.2.1/slint/
http://slackware.uk/slint/x86_64/slint- ... 1slint.txz
http://slackware.uk/slint/x86_64/slint- ... 1slint.txz
http://slackware.uk/slint/x86_64/slint- ... 1slint.txz
et en extra ocrdesktop:
http://slackware.uk/slint/x86_64/slint- ... 1slint.txz
Les premiers cités sont installés par défaut dans Slint, ocrdesktop en tapant comme root: "slapt-get -i ocrdesktop".

Tous les paquets sont compatibles Slackware64-14.2

Les sources sont toutes ici:
http://slackware.uk/slint/x86_64/slint-14.2.1/source/

je pourrais mettre à niveau certaines versions mais patience, il y a 374 paquets dans le répertoire principal, 104 dans extra plus les locales et les voix pour les TTS.
blafleur
Messages : 8
Inscription : 29 août 2019, 16:18

Re: Le logiciel OCR Tesseract

Message par blafleur »

Apparemment il s'agit de tesseract 4.0.0.
La version que j'ai testée est la 4.1.0
Il faut aussi d'autres traineddata (fra, eng, deu, ...).
Ces paquets sont donc assez incomplets / pas à jour.

L'idée de mon post est de ne parler que d'usages et pas de collections de slackbuild.

Je ne suis pas "minimalist" comme certains mais je privilégie quand même des sous-ensembles de paquets minimaux pour un usage donné.

Mes install font environ 20 Go donc pas minimal... Mais j'évite de mettre tout un repository...

Pierre
Seb
Messages : 188
Inscription : 22 février 2017, 19:07

Re: Le logiciel OCR Tesseract

Message par Seb »

Effectivement, j'avais essayé tesseract 4 sur un PDF issu de Gallica (donc de son prestataire en numérisation dont j'ai oublié le nom), et le résultat était bien meilleur que le texte qu'on arrivait à capturer sur celui-ci (le pdf en question combinait texte et image du livre original, à l'écran on lit l'image mais on peut le passer par pdftotext).

Après, ça reste une aide. Il y aura toujours besoin de relecture, dans la mesure où un programme restera incapable de comprendre (en) un texte au sens propre du terme.
blafleur
Messages : 8
Inscription : 29 août 2019, 16:18

Re: Le logiciel OCR Tesseract

Message par blafleur »

Oui cet article est intéressant et j'en partage assez les idées.
Le réseau utilisé LSTM pour tesseract 4 est assez différent du deep learning évoqué et les travaux sur la question ont donné des publis très récentes (2017,...).
Le résultat est bien meilleur mais ne change pas vraiment les coûts de traitement d'un fond documentaire surtout lié aux opérations de manipulation des documents (déliassage, gestion des documents, scan, méta-données, ...) et relecture éventuelle suivant le niveau du résultat désiré. Le logiciel OCR n'est plus vendu en tant que tel mais utilisé par les prestataires. Il devient donc libre et objet de recherches avancées donnant lieu à publications.

Pierre
Didier Spaier
Messages : 129
Inscription : 29 janvier 2017, 21:07

Re: Le logiciel OCR Tesseract

Message par Didier Spaier »

Hello,
blafleur a écrit : 05 septembre 2019, 17:50 Apparemment il s'agit de tesseract 4.0.0.
La version que j'ai testée est la 4.1.0
Il faut aussi d'autres traineddata (fra, eng, deu, ...).
Ces paquets sont donc assez incomplets / pas à jour.
Je viens de mettre à niveau localement tesseract (version 4.1.0)

Les paquets qui en dépendent dans Slint (ffmpeg; ffmpeg4,mpv, vlc) devraient continuer à fonctionner, car leurs binaires et bibliothèques partagées retrouvent le lien avec libtesseract.so.4. Il me reste à vérifier par acquis de conscience que Lios et OCRdesktop continuent à fonctionner avant de faire la mise à niveau sur le dépôt de paquets Slint.

Dans la liste de paquets j'ai oublié celui-ci:
http://slackware.uk/slint/x86_64/slint- ... 2slint.txz
toujours valable pour tesseract 4.1.0. Il comprend les traineddata pour les langues suivantes:
Cyrillic
Greek
Han - Simplified
Han - Simplified (vertical)
Han - Traditional
Han - Traditional (vertical)
Japanese
Japanese (vertical)
Latin
Vietnamese
sachant que "Latin" regroupe toutes les langues utilisant un alphabet latin: Français, Anglais, Italien, Espagnol, Portugais, Roumain, Allemand, Polonais, ... Donc y compris les langues utilisant un alphabet cyrillique ou grec cela couvre toute l'Europe, la Russie et les deux Amériques sauf leurs langues autochtones (Cherokee et Canadien aborigène), le Japon, la Chine et le Vietnam.

Tu peux installer ces paquets et leurs dépendances manquantes sur Slackware64-14.2 avec slapt-get, en incluant dans /etc/slapt-get/slapt-getrc juste ces deux lignes:

Code : Tout sélectionner

SOURCE=http://slackware.uk/salix/x86_64/slackware-14.2/:PREFERRED
SOURCE=http://slackware.uk/slint/x86_64/slint-14.2.1/:DEFAULT
Ainsi slapt-get n'installera que des paquets non inclus dans Slackware64-14.2 et tu n'auras pas à installer d'autres paquets que ceux sélectionnés et leurs dépendances non encore installées.

Pour info Slint est accessible aux aveugles auxquels l'OCR est particulièrement utile. Par exemple, cela leur permet de lire avec une plage braille ou d'entendre avec un lecteur d'écran vocal le contenu d'un fichier pdf ou d'une copie d'écran ou de fenêtre OCRisés.

Didier
blafleur
Messages : 8
Inscription : 29 août 2019, 16:18

Re: Le logiciel OCR Tesseract

Message par blafleur »

Intéressant. Je vois aussi qu'il y a des usages derrière.

Je vois que c'est basé sur Slackware 14.2.
Est ce prévu d'aller vers la current ou attends-tu la 15 ?

La 14.2 commence a être vraiment très ancienne (+ 3 ans) et même sur de vieilles machines, la current est bien plus performante (noyau, glibc et support des cartes graphiques même plus toutes jeunes).
J'ai testé sur un DELL desktop de 2011, 1 portable de la même époque et 2 portables récents assez puissants (i7, 16 et 32 Go RAM, bi-carte graphique).
En particulier les jeux actuels (j'ai des enfants qui jouent en réseau) sont bien plus fluides sur la même machine.

La current actuelle (1 juillet 2019, mise à jour vers le 10 aout sur 4 machines) a l'air très stable sur beaucoup d'applis testées y compris les derniers jeux réseaux (Steam, ...)

Pierre
Répondre