Ce qu'est l'extraction de texte PDF
L'extraction de texte PDF est le processus qui tire juste le contenu textuel d'un fichier PDF dans du texte brut que tu peux copier, coller, chercher ou alimenter dans un autre outil. On le fait côté serveur parce que les PDF ne sont pas simples : le texte dans un PDF n'est pas stocké comme une seule chaîne. Il vit comme des centaines de petits fragments placés à des positions exactes par qui a produit le document (Word, InDesign, une imprimante PDF).
Tu uploads un PDF et on le parse avec pdf.js, le même moteur que Firefox utilise pour rendre les PDF dans le navigateur. Tu obtiens le texte complet, un découpage par page, et les métadonnées (titre, auteur, date de création). Pas d'install, pas de cloud tiers, pas de compte.
Comment l'utiliser
- Dépose un fichier PDF dans la zone d'upload ou clique pour en choisir un sur disque. Un seul fichier à la fois, jusqu'à 20 MB et 500 pages.
- Attends quelques secondes. Les gros documents (200+ pages) peuvent prendre 10 à 20 secondes parce que chaque page est parsée individuellement.
- Après extraction, tu obtiens trois onglets : Texte brut (tout joint), Par page (chaque page séparément) et Métadonnées (titre, auteur, dates).
- Dans l'onglet « Texte brut », utilise Copier pour mettre le contenu dans ton presse-papiers ou Télécharger .txt pour le sauvegarder localement.
- Dans l'onglet « Par page », tu verras quelles pages sont vides (marquées d'un badge jaune). Chaque page peut aussi être téléchargée seule.
- Dans l'onglet « Métadonnées », tu peux vérifier qui et quand a créé le document, avec quel logiciel (Producer), et si le fichier était chiffré.
- Si chaque page revient vide, tu obtiens un avertissement. Ça veut dire que le PDF est une image scannée et que tu as besoin d'un outil OCR séparé d'abord.
Quand c'est utile
Sept scénarios typiques PDF-vers-texte :
- Copier depuis un PDF qui bloque la sélection : certains documents ont la fonction « copier » désactivée dans le lecteur. Cet outil extrait le texte quand même.
- Coller des citations dans Word ou Google Docs : fini de retaper des paragraphes entiers d'un PDF ouvert à l'écran.
- Préparer du texte pour un modèle de langage (ChatGPT, Claude) : tu copies le résultat et le déposes dans la fenêtre de chat au lieu de batailler avec le formatage PDF.
- Recherche plein texte sur une archive de documents : le texte extrait peut être indexé par grep, ripgrep, Notion ou Obsidian pour une recherche rapide plus tard.
- Traduire un contrat ou un manuel : du texte propre se colle dans DeepL ou Google Translate sans les artefacts de mise en page qu'un PDF transporterait.
- Conversion vers d'autres formats : une base .txt est le point de départ pour Markdown, HTML, CSV ou n'importe quelle prochaine étape dont ton pipeline a besoin.
- Extraire des tableaux de nombres d'un rapport : un PDF plein de chiffres devient du texte que tu peux coller dans un tableur et trier.
Outils compagnons : convertisseur HTML vers Markdown, formateur JSON, testeur regex.