Qué es la extracción de texto de PDF
La extracción de texto de PDF es el proceso de sacar solo el contenido textual de un archivo PDF a texto plano que puedas copiar, pegar, buscar o pasar a otra herramienta. Lo hacemos en el servidor porque los PDFs no son sencillos: el texto dentro de un PDF no se almacena como una única cadena. Vive como cientos de pequeños fragmentos colocados en posiciones exactas por quien produjo el documento (Word, InDesign, un impresor de PDF).
Subes un PDF y lo parseamos con pdf.js, el mismo motor que Firefox usa para renderizar PDFs en el navegador. Obtienes el texto completo, un desglose por página y los metadatos (título, autor, fecha de creación). Sin instalaciones, sin nube de terceros, sin cuenta.
Cómo usarlo
- Suelta un archivo PDF en la zona de subida o pulsa para elegirlo del disco. Un archivo cada vez, hasta 20 MB y 500 páginas.
- Espera unos segundos. Documentos grandes (200+ páginas) pueden tardar 10-20 segundos porque cada página se parsea individualmente.
- Tras la extracción obtienes tres pestañas: Texto plano (todo junto), Por página (cada página por separado) y Metadatos (título, autor, fechas).
- En la pestaña "Texto plano" usa Copiar para llevar el contenido al portapapeles o Descargar .txt para guardarlo en local.
- En la pestaña "Por página" verás qué páginas están vacías (marcadas con una insignia amarilla). Cada página también se puede descargar por separado.
- En la pestaña "Metadatos" puedes comprobar quién y cuándo autoría el documento, con qué software (Producer) y si el archivo iba cifrado.
- Si todas las páginas vuelven vacías, recibes un aviso. Significa que el PDF es una imagen escaneada y necesitas antes una herramienta OCR aparte.
Cuándo es útil
Siete escenarios típicos de PDF-a-texto:
- Copiar desde un PDF que bloquea la selección: algunos documentos tienen la función "copiar" desactivada en el lector. Esta herramienta saca el texto igual.
- Pegar citas en Word o Google Docs: se acabó reescribir párrafos enteros desde un PDF abierto en pantalla.
- Preparar texto para un modelo de lenguaje (ChatGPT, Claude): copias el resultado y lo sueltas en la ventana de chat en vez de pelearte con el formato del PDF.
- Búsqueda full-text en un archivo documental: el texto extraído se puede indexar con grep, ripgrep, Notion u Obsidian para búsquedas rápidas más tarde.
- Traducir un contrato o manual: el texto limpio se pega en DeepL o Google Translate sin los artefactos de layout que arrastraría un PDF.
- Conversión a otros formatos: una base .txt es el punto de partida para Markdown, HTML, CSV o lo que sea el siguiente paso en tu pipeline.
- Sacar tablas de números de un informe: un PDF lleno de cifras se vuelve texto que puedes pegar en una hoja de cálculo y ordenar.
Herramientas complementarias: conversor HTML a Markdown, formateador JSON, probador de regex.