Forums
OCR sous linux ?
-
OCR sous linux ?
marco123
OCR = Optical Character Recognition : Reconnaissance Optique de Caractèreshein?
toxxic
Le but de ce type de logiciel est de scanner un livre, ou un document écrit, et d'en extraire le texte utilisable dans un éditeur.
C'est un peu ce que fait en ce moment Google avec leur projet de numérisation des bibliothèques.
C'est une technologie qui existe depuis des années (un logiciel était fournis gratuitement avec mon premier scanner, il y a plus de 10 ans). Sous Windows, les logiciels intègrent la gestion du scanner, l'image ainsi créé est directement importé et traitée par le logiciel d'OCR et l'export se fait directement soit en texte brut dans un éditeur interne soit vers M$Word.
Certains sont même capable de récupérer les images et de reproduire la mise en page ...
Sous Linux, j'ai trouvé cet article :en anglais mais cela ne doit pas poser de problème.
D'après le tableau, le meilleur logiciel est aussi le seul commercial: 149 € pour 12 000 pages par an (à priori le soft compte le nb de page et arrête de fonctionner quand vous avez atteint la limite. Le compteur est réinitialisé au début de l'année) . A noter aussi que c'est le plus lent !
Le "meilleur" logiciel freeware est un soft développé par ... Google ...(tesseract-ocr) mais les résultats sont inférieurs (entre 80% et 95% de reconnaissance). Un peu étonnant si on assume que Google utilise celui ci pour scanner les livres pour sa bibliothèque numérique
Attention aussi au type de document que vous désirez scanné. En général, les logiciels s'en sortent bien avec du texte imprimé mais échoue lamentablement avec du texte écrit à la main (ce qui parait logique)
ericc -
-
Merci mais quand j'ai lu le message j'ai googleliserhein?
"moi"
Donc compris de quoi on parlait mais j'comprenais pas la question
Parkinson et Alzheimer... On t'en veux pas Marc -
Eh oui, tox ! ... mais c'est pas l'age ...
C'est plutot foire !!!! arrivé a 3g le soir .... -