Reconnaissance optique de caractères
Généralités
La reconnaissance optique de caractères ne peut être effectué que par des procédés informatiques, à
l'exception notable de l'être humain qui lui exécute en plus de la reconnaissance, la compréhenssion du message, sa
mémorisation, voir son analyse critique dans un seul temps.
- Un ordinateur réclame pour l'exécution de cette tâche un logiciel de
reconnaissance optique de caractères ou OCR (abréviation du terme anglais optical character
recognition), celui-ci permet de récupérer le texte dans l'image d'un texte imprimé et, de le sauvegarder dans un fichier pouvant être exploité dans un traitement
de texte pour enrichissement et, stocké dans une base de donnée ou du moins, sur un support sûr et exploitable par un système
informatique..
Fonctionnement
- On part de l'image numérique
réalisée par un scanner optique d'une page (document imprimé, feuillet
dactylographié, etc.) dont on veut récupérer le texte.
- L'image doit être assez contrastée
pour que le programme discerne facilement les caractères. Certains logiciels comportent en outre une interface pour l'acquisition
numérique de l'image.
- Le principe du programme est de lire le document et, grâce à des bibliothèques de formes, détecter les caractères
afin d'en faire correspondre la forme au caractère attendu.
- Des dictionnaires permettent de récupérer certaines erreurs puisque le logiciel se basera alors sur des mots existants pour
faire ses comparaisons.
- Certains logiciels vont même tenter de conserver l'enrichissement du texte (corps, graisse et police) ainsi que la mise en page, voir rebâtir les tableaux.
Quelques logiciels de reconnaissance optique de caractères
Solutions commerciales

