Quand l'OCR marche bien, et quand il échoue ?

**Marche bien** : scans propres à 300 DPI ou plus, captures de texte numérique, pages imprimées, factures et reçus en polices standard, fond blanc avec texte sombre. **Échoue ou galère** : **écriture manuscrite** (Tesseract est entraîné sur de l'imprimé, pas du cursif), **fonds chargés** (texte sur photo), **basse résolution** (en dessous d'environ 150 px de haut par ligne), **texte penché ou courbe**, **polices stylisées**, **reflets brillants** sur l'original. Si un humain peut le lire en une demi-seconde, Tesseract y arrivera probablement. Si tu dois plisser les yeux, attends-toi à des erreurs.

Quelles langues sont supportées ?

Cinq packs de langue sont câblés : **anglais (eng)**, **polonais (pol)**, **allemand (deu)**, **français (fra)** et **espagnol (spa)**. Tesseract lui-même supporte **100+ langues**, y compris des scripts non latins (arabe, chinois, hindi, cyrillique), donc si tu en as besoin d'une autre, ouvre une issue et on activera le pack. **Choisis la langue qui correspond à l'image** : faire tourner l'OCR polonais sur une page anglaise produit du charabia, et vice versa.

Comment obtenir un meilleur résultat ? Des conseils de prétraitement ?

**Recadre serré** autour du texte : les zones inutiles ne font que perturber le moteur. **Augmente le contraste** si l'image est délavée (un rapide « auto levels » dans n'importe quelle appli photo aide). **Redresse** si la page est penchée de plus de quelques degrés : les lignes horizontales droites marchent le mieux. **Évite les artefacts JPEG** sur le texte : ré-enregistre la source en PNG si tu peux. **Vise environ 300 DPI** à la taille finale ; un paragraphe de 100 px de haut va merder, un de 400 px non.

Quelle précision a l'OCR, en pratique ?

Sur une **page imprimée propre dans une langue supportée**, attends-toi à **98 à 99 % de précision caractère**. Sur une **photo correcte de téléphone d'un reçu**, plutôt **90 à 95 %** : assez pour lire, mais tu voudras scanner le résultat à la recherche de fautes. Sur une **photo floue, penchée, basse résolution**, la précision peut tomber sous 70 %, point auquel retaper est plus rapide. Le **pourcentage de confiance** que l'outil affiche par bloc est un bon guide : au-dessus de 85 c'est généralement propre, en dessous de 60 c'est suspect.

Mon image mélange anglais et allemand : que faire ?

Tesseract peut techniquement charger **plusieurs packs de langue à la fois**, mais en pratique, **les pages multi-langues produisent de plus mauvais résultats** pour les deux langues que choisir la dominante. **Choisis la langue qui couvre la majorité du texte**. Pour une page très mélangée, fais tourner l'OCR **deux fois** (une par langue) et fusionne les parties auxquelles tu fais confiance de chaque passe. On pourrait ajouter un mode multi-langue dans le futur, mais le défaut mono-langue est le bon choix pour presque tout document réel.

Puis-je extraire un tableau avec lignes et colonnes ?

**Tesseract lit du texte, pas la structure d'un tableau**. Tu obtiendras le contenu des cellules sous forme de flux plat de mots, dans l'**ordre de lecture** (gauche à droite, haut en bas). La grille visuelle est **perdue** : il n'y a ni virgules, ni tabulations, ni marqueurs de colonnes dans la sortie. Pour de vraies données tabulaires, le meilleur workflow est : **OCR la page → colle manuellement les lignes dans un tableur**, ou utilise un outil dédié à l'extraction de tableaux. Tout ce qui promet « Excel parfait depuis une capture » utilise un modèle ML différent (et bien plus lourd) que Tesseract.

Mon fichier est un PDF : devrais-je utiliser cet outil ?

**Probablement pas, essaie d'abord l'[extracteur de texte PDF](/fr/extraire-texte-pdf)**. Si le PDF a été fait en exportant depuis Word, Google Docs, un navigateur ou n'importe quelle appli moderne, il **contient déjà du vrai texte** : l'extraire est **instantané et parfait**. Utilise l'OCR **seulement quand le PDF est une image scannée** (sortie de photocopieuse, PDF « Save as image », vieux fax) et que l'extracteur de texte renvoie vide. Pour des PDF scannés multi-pages, splitte d'abord les pages et OCR-les une par une : cet outil prend une image à la fois.

Mon image est-elle privée ? Où va-t-elle ?

L'image est **envoyée à notre serveur** pour faire tourner Tesseract : il n'y a pas moyen de l'éviter, le moteur a besoin des pixels. On **ne l'écrit jamais sur disque, ne la logge jamais, ne la stocke jamais**. Le fichier vit dans la **mémoire du processus juste assez longtemps** pour reconnaître le texte (typiquement 2 à 10 secondes) et est **garbage-collecté** dès que la réponse est renvoyée. On **ne voit pas non plus le texte extrait** au-delà de la réponse qu'on te renvoie. Si tu as besoin de garanties de confidentialité plus strictes pour des documents confidentiels, fais tourner Tesseract en local : il est open source et c'est le même moteur qu'on utilise.

Quelle est la taille max d'image ?

**10 MB par fichier**. Ça couvre virtuellement tout JPG, PNG ou WebP de téléphone, scanner ou outil de capture. La **rate limit** est de **10 runs OCR par heure par IP** : l'OCR est gourmand en CPU et on le fait tourner côté serveur, donc ça empêche un utilisateur de monopoliser le worker. Si tu atteins la limite, attends une heure ou fais tourner Tesseract en local pour un gros job. Les fichiers **au-dessus de 10 MB** sont refusés avec une erreur claire : généralement tu peux rétrécir une photo de téléphone à 1 ou 2 MB sans perte de qualité OCR.

OCR : texte depuis image - gratuit

OCR d’image (Tesseract)

Dépose une image ici

JPG, PNG, WebP jusqu’à 10 Mo

L’image est envoyée à notre serveur uniquement pour faire tourner Tesseract. Nous ne l’écrivons pas sur disque, ne la loguons pas, ne la stockons pas. Limite de 10 OCR par heure et par IP.

Texte extrait

Le résultat OCR apparaîtra ici une fois l’image traitée.

Comment extraire du texte d'une image (OCR) ?

L'OCR d'image lit le texte présent dans une photo, capture ou scan et te renvoie une chaîne brute que tu peux copier, rechercher ou coller où tu veux.

Dépose un JPG, PNG ou WebP (jusqu'à 10 MB), choisis une langue, obtiens le texte reconnu avec un score de confiance par bloc.

La reconnaissance tourne sur notre serveur avec Tesseract, le même moteur que Google a construit pour Android, avec les packs de langue anglais, polonais, allemand, français et espagnol.

Idéal pour les scans propres, les captures de boîtes de dialogue, les factures, les tickets de caisse et les pages imprimées. L'écriture manuscrite et les fonds chargés galèrent.

Comment l'utiliser

Glisse ton image dans la dropzone ou clique sur « Choisir un fichier » : JPG, PNG, WebP sont acceptés, le HEIC non (convertis-le d'abord avec le convertisseur HEIC).

Choisis la langue qui correspond à ton image. Mélanger les langues sur une page marche mal : prends la dominante.

Clique sur « Extraire le texte ». Le premier run télécharge un pack de langue d'environ 10 MB sur le serveur, donc le tout premier appel peut prendre 5 à 15 secondes ; les appels suivants sont plus rapides.

Lis le texte extrait dans la boîte de droite. Utilise « Copier » pour le mettre dans le presse-papiers ou « Télécharger » pour sauver un fichier `.txt`.

Active « Afficher les boîtes de mots » pour superposer chaque mot reconnu sur l'image : utile pour repérer les régions ratées ou les zones de faible confiance.

Quand c'est utile

Là où l'OCR paie, situations typiques :

Citer une capture d'écran dans un doc ou un chat sans la retaper mot par mot.
Récupérer un numéro de téléphone, e-mail ou adresse sur la photo d'une carte de visite ou d'un flyer imprimé.
Lire un reçu pour suivre une dépense : les totaux et lignes deviennent du texte cherchable.
Extraire du texte d'une UI quand un dev ou designer t'envoie un PNG plat sans calque éditable.
Vieilles factures et contrats scannés en PDF qui ont perdu leur couche texte en route.
Memes, panneaux, affiches : récupère vite le slogan ou la légende.

Si ton fichier est un PDF qui contient déjà une couche texte (la plupart des PDF de Word / Pages / Chrome « Enregistrer en PDF » en ont), utilise plutôt l'extracteur de texte PDF : il est instantané, parfaitement précis et exempt d'erreurs OCR. L'OCR n'est le bon outil que quand il n'y a pas de vrai texte dans le fichier, seulement des pixels.

Questions et réponses

OCR veut dire Optical Character Recognition : un logiciel qui regarde les pixels d'une image et décide « cette forme est la lettre A, celle-là est un B ». L'OCR moderne (y compris Tesseract, qui propulse cet outil) utilise un réseau de neurones entraîné sur des millions de formes de lettres, donc il gère différentes polices, tailles et légères rotations sans rien à régler. La sortie est une chaîne de texte brut plus un nombre de confiance entre 0 et 100 pour chaque mot et bloc.

Comment extraire du texte d'une image (OCR) ?

L'OCR d'image lit le texte présent dans une photo, capture ou scan et te renvoie une chaîne brute que tu peux copier, rechercher ou coller où tu veux.

Dépose un JPG, PNG ou WebP (jusqu'à 10 MB), choisis une langue, obtiens le texte reconnu avec un score de confiance par bloc.

La reconnaissance tourne sur notre serveur avec Tesseract, le même moteur que Google a construit pour Android, avec les packs de langue anglais, polonais, allemand, français et espagnol.

Comment l'utiliser

Glisse ton image dans la dropzone ou clique sur « Choisir un fichier » : JPG, PNG, WebP sont acceptés, le HEIC non (convertis-le d'abord avec le convertisseur HEIC).

Choisis la langue qui correspond à ton image. Mélanger les langues sur une page marche mal : prends la dominante.

Lis le texte extrait dans la boîte de droite. Utilise « Copier » pour le mettre dans le presse-papiers ou « Télécharger » pour sauver un fichier `.txt`.

Active « Afficher les boîtes de mots » pour superposer chaque mot reconnu sur l'image : utile pour repérer les régions ratées ou les zones de faible confiance.

Quand c'est utile

Là où l'OCR paie, situations typiques :

Citer une capture d'écran dans un doc ou un chat sans la retaper mot par mot.
Récupérer un numéro de téléphone, e-mail ou adresse sur la photo d'une carte de visite ou d'un flyer imprimé.
Lire un reçu pour suivre une dépense : les totaux et lignes deviennent du texte cherchable.
Extraire du texte d'une UI quand un dev ou designer t'envoie un PNG plat sans calque éditable.
Vieilles factures et contrats scannés en PDF qui ont perdu leur couche texte en route.
Memes, panneaux, affiches : récupère vite le slogan ou la légende.

Questions et réponses

OCR : texte depuis image

Dépose une image ici

Comment extraire du texte d'une image (OCR) ?

Comment l'utiliser

Quand c'est utile

Questions et réponses

Outils similaires

Convertisseur d'images

Extracteur texte PDF

Convertisseur HEIC vers JPG

Compresseur d'images

OCR : texte depuis image

Dépose une image ici

Comment extraire du texte d'une image (OCR) ?

Comment l'utiliser

Quand c'est utile

Questions et réponses

Outils similaires

Convertisseur d'images

Extracteur texte PDF

Convertisseur HEIC vers JPG

Compresseur d'images