Ça marche sur les PDF scannés (images de page, pas du vrai texte) ?

**Non**. Cet outil **ne fait pas d'OCR** : il lit seulement le texte qui est déjà stocké comme texte à l'intérieur du PDF. Si ton document est un scan de papier ou un export « Imprimer en PDF » d'images, chaque page reviendra **vide** et tu verras un avertissement. Pour les scans, il te faut un outil OCR séparé (Google Drive, Adobe Acrobat, Tesseract). Fais tourner l'OCR d'abord, puis dépose le PDF résultant ici et cette combinaison marche.

Quelle est la précision de l'extraction ? Est-ce que j'obtiens exactement le même texte que le PDF ?

**Très précis pour les documents normaux** (Word, Google Docs, LaTeX, exports navigateur). Le texte passe en 1:1. **Des soucis peuvent arriver avec** : tableaux (l'ordre des colonnes peut dériver), journaux multi-colonnes (entrelacement de colonnes), formulaires (les champs texte sont séparés des labels) et PDF produits par de vieilles imprimantes d'avant 2010 qui embarquent des encodages de polices custom.

Et les sauts de paragraphe et fins de ligne ?

Un PDF **ne stocke pas les paragraphes** comme Word le fait. Chaque ligne est un fragment positionné séparé. pdf.js joint les fragments par leur position pour que l'ordre de lecture soit préservé, mais **le résultat est rarement parfaitement paragraphé**. En pratique : la plupart des documents sortent propres et les clusters de lignes courtes qui devraient être un paragraphe sont les plus faciles à corriger dans ton éditeur avec un chercher-remplacer (\n simple vers espace, \n double reste).

Les pages sont-elles clairement séparées dans l'export ?

**Oui**. Dans l'onglet « Texte brut », les pages sont séparées par **deux sauts de ligne** (\n\n) pour que la frontière soit visible. Dans l'onglet « Par page », chaque page est sa propre carte avec le numéro de page, le compte de caractères et un bouton de téléchargement par page. En interne, on utilise le **form-feed standard POSIX (\f)** comme séparateur de page mais on le rend en blanc visible dans la sortie finale pour la lisibilité.

Et les PDF protégés par mot de passe (chiffrés) ?

**Certains oui, certains non**. Les PDF ont deux types de protection : **propriétaire** (verrou imprimer / copier) et **utilisateur** (mot de passe d'ouverture). Le premier n'est que des drapeaux de métadonnée et on l'ignore. Le second ne peut pas être contourné parce que le fichier est vraiment chiffré. Tu obtiendras une erreur « encryptedPdf ». Contournement : ouvre dans Adobe Reader, saisis le mot de passe, « Sauvegarder une copie » comme PDF non protégé, puis upload-la.

Pourquoi certains caractères spéciaux sortent en charabia ?

PDF n'a pas d'encodage unique de caractères : chaque police embarquée peut porter **sa propre table** de glyphes vers Unicode. Les documents pro (Word, LaTeX, InDesign) incluent un « ToUnicode CMap » et tout se décode proprement. **Les vieilles imprimantes PDF des années 2000** (Acrobat Distiller 5, copieurs en réseau) sautent ça, et les caractères accentués ou non latins sortent en séquences cassées. La seule correction pour ces fichiers, c'est de faire l'OCR du PDF lui-même.

Pourquoi certaines pages reviennent vides ou avec juste un caractère ?

**Trois raisons courantes** : (1) la page ne contient que des images ou diagrammes sans calque texte, (2) c'est un séparateur de section blanc (typique dans les rapports annuels avec des pages splash « Chapitre 3 »), (3) le texte utilise une police non standard sans mapping Unicode. On signale chaque page de ce genre avec un badge jaune **Vide** dans l'onglet « Par page » pour que tu repères immédiatement où l'extraction a échoué.

Que devient mon fichier après extraction ? Est-il stocké quelque part ?

**Non**. Le fichier va dans la **mémoire du processus Node** comme un buffer, pdf.js le parse, on te renvoie le résultat, et le buffer est libéré par le garbage collector. **Rien ne touche au disque**, rien ne va dans une base de données, rien ne reste dans un cache. Une fois la requête finie, il n'y a pas de trace que ton PDF ait jamais été là. Le rate limit de 30 fichiers par heure est le seul état persistant (un compteur d'IP anonyme en mémoire, effacé au redémarrage).

Quelle est la taille de fichier maximale ?

**20 MB et 500 pages**. Ça couvre la plupart des documents du quotidien : contrats, manuels, rapports, thèses, ebooks, specs techniques. Au-delà, on refuse parce que (a) le parsing commence à prendre des dizaines de secondes et bloquerait d'autres utilisateurs, (b) les très gros PDF sont souvent des scans haute résolution où tu aurais besoin d'OCR de toute façon. Si ton fichier est plus gros, divise-le en sections avec un splitter PDF gratuit (ou « Extraire les pages » d'Adobe Reader) avant l'upload.

Extracteur texte PDF - gratuit

Ce qu'est l'extraction de texte PDF

L'extraction de texte PDF est le processus qui tire juste le contenu textuel d'un fichier PDF dans du texte brut que tu peux copier, coller, chercher ou alimenter dans un autre outil. On le fait côté serveur parce que les PDF ne sont pas simples : le texte dans un PDF n'est pas stocké comme une seule chaîne. Il vit comme des centaines de petits fragments placés à des positions exactes par qui a produit le document (Word, InDesign, une imprimante PDF).

Tu uploads un PDF et on le parse avec pdf.js, le même moteur que Firefox utilise pour rendre les PDF dans le navigateur. Tu obtiens le texte complet, un découpage par page, et les métadonnées (titre, auteur, date de création). Pas d'install, pas de cloud tiers, pas de compte.

Comment l'utiliser

Dépose un fichier PDF dans la zone d'upload ou clique pour en choisir un sur disque. Un seul fichier à la fois, jusqu'à 20 MB et 500 pages.
Attends quelques secondes. Les gros documents (200+ pages) peuvent prendre 10 à 20 secondes parce que chaque page est parsée individuellement.
Après extraction, tu obtiens trois onglets : Texte brut (tout joint), Par page (chaque page séparément) et Métadonnées (titre, auteur, dates).
Dans l'onglet « Texte brut », utilise Copier pour mettre le contenu dans ton presse-papiers ou Télécharger .txt pour le sauvegarder localement.
Dans l'onglet « Par page », tu verras quelles pages sont vides (marquées d'un badge jaune). Chaque page peut aussi être téléchargée seule.
Dans l'onglet « Métadonnées », tu peux vérifier qui et quand a créé le document, avec quel logiciel (Producer), et si le fichier était chiffré.
Si chaque page revient vide, tu obtiens un avertissement. Ça veut dire que le PDF est une image scannée et que tu as besoin d'un outil OCR séparé d'abord.

Quand c'est utile

Sept scénarios typiques PDF-vers-texte :

Copier depuis un PDF qui bloque la sélection : certains documents ont la fonction « copier » désactivée dans le lecteur. Cet outil extrait le texte quand même.
Coller des citations dans Word ou Google Docs : fini de retaper des paragraphes entiers d'un PDF ouvert à l'écran.
Préparer du texte pour un modèle de langage (ChatGPT, Claude) : tu copies le résultat et le déposes dans la fenêtre de chat au lieu de batailler avec le formatage PDF.
Recherche plein texte sur une archive de documents : le texte extrait peut être indexé par grep, ripgrep, Notion ou Obsidian pour une recherche rapide plus tard.
Traduire un contrat ou un manuel : du texte propre se colle dans DeepL ou Google Translate sans les artefacts de mise en page qu'un PDF transporterait.
Conversion vers d'autres formats : une base .txt est le point de départ pour Markdown, HTML, CSV ou n'importe quelle prochaine étape dont ton pipeline a besoin.
Extraire des tableaux de nombres d'un rapport : un PDF plein de chiffres devient du texte que tu peux coller dans un tableur et trier.

Outils compagnons : convertisseur HTML vers Markdown, formateur JSON, testeur regex.

Questions et réponses

Le bundle pdf.js complet fait plus de 3 MB de JavaScript, et le charger dans le navigateur de chaque visiteur ralentirait sensiblement la page. Côté serveur, la bibliothèque reste chaude dans le processus Node et tu n'uploads que le fichier. Le gain de latence est significatif, surtout sur des réseaux lents. Le fichier n'est pas persisté : une fois la réponse envoyée, le buffer est jeté.

Ce qu'est l'extraction de texte PDF

Comment l'utiliser

Dépose un fichier PDF dans la zone d'upload ou clique pour en choisir un sur disque. Un seul fichier à la fois, jusqu'à 20 MB et 500 pages.

Attends quelques secondes. Les gros documents (200+ pages) peuvent prendre 10 à 20 secondes parce que chaque page est parsée individuellement.

Après extraction, tu obtiens trois onglets : Texte brut (tout joint), Par page (chaque page séparément) et Métadonnées (titre, auteur, dates).

Dans l'onglet « Texte brut », utilise Copier pour mettre le contenu dans ton presse-papiers ou Télécharger .txt pour le sauvegarder localement.

Dans l'onglet « Par page », tu verras quelles pages sont vides (marquées d'un badge jaune). Chaque page peut aussi être téléchargée seule.

Dans l'onglet « Métadonnées », tu peux vérifier qui et quand a créé le document, avec quel logiciel (Producer), et si le fichier était chiffré.

Si chaque page revient vide, tu obtiens un avertissement. Ça veut dire que le PDF est une image scannée et que tu as besoin d'un outil OCR séparé d'abord.

Quand c'est utile

Sept scénarios typiques PDF-vers-texte :

Copier depuis un PDF qui bloque la sélection : certains documents ont la fonction « copier » désactivée dans le lecteur. Cet outil extrait le texte quand même.
Coller des citations dans Word ou Google Docs : fini de retaper des paragraphes entiers d'un PDF ouvert à l'écran.
Préparer du texte pour un modèle de langage (ChatGPT, Claude) : tu copies le résultat et le déposes dans la fenêtre de chat au lieu de batailler avec le formatage PDF.
Recherche plein texte sur une archive de documents : le texte extrait peut être indexé par grep, ripgrep, Notion ou Obsidian pour une recherche rapide plus tard.
Traduire un contrat ou un manuel : du texte propre se colle dans DeepL ou Google Translate sans les artefacts de mise en page qu'un PDF transporterait.
Conversion vers d'autres formats : une base .txt est le point de départ pour Markdown, HTML, CSV ou n'importe quelle prochaine étape dont ton pipeline a besoin.
Extraire des tableaux de nombres d'un rapport : un PDF plein de chiffres devient du texte que tu peux coller dans un tableur et trier.

Outils compagnons : convertisseur HTML vers Markdown, formateur JSON, testeur regex.

Questions et réponses

Extracteur texte PDF

Dépose un fichier PDF

Ce qu'est l'extraction de texte PDF

Comment l'utiliser

Quand c'est utile

Questions et réponses

Outils similaires

PDF vers images

DOCX vers Markdown

Convertisseur HTML ↔ Markdown

Formateur JSON

Testeur regex

Extracteur texte PDF

Dépose un fichier PDF

Ce qu'est l'extraction de texte PDF

Comment l'utiliser

Quand c'est utile

Questions et réponses

Outils similaires

PDF vers images

DOCX vers Markdown

Convertisseur HTML ↔ Markdown

Formateur JSON

Testeur regex