¿Funciona en PDFs escaneados (páginas como imagen, no texto real)?

**No**. Esta herramienta **no hace OCR**: lee solo el texto que ya está almacenado como texto dentro del PDF. Si tu documento es un escaneo de papel o un export "Imprimir a PDF" de imágenes, cada página volverá **vacía** y verás un aviso. Para escaneos necesitas una herramienta OCR aparte (Google Drive, Adobe Acrobat, Tesseract). Pasa OCR primero, luego suelta el PDF resultante aquí y la combinación funciona.

¿Qué precisión tiene la extracción? ¿Obtengo exactamente el mismo texto que el PDF?

**Muy precisa para documentos normales** (Word, Google Docs, LaTeX, exports de navegador). El texto pasa 1:1. **Pueden surgir problemas con**: tablas (el orden de columnas puede irse), periódicos a varias columnas (entrelazado de columnas), formularios (los campos de texto son separados de las etiquetas) y PDFs producidos por impresores antiguos anteriores a 2010 que embeben codificaciones de fuente personalizadas.

¿Y los saltos de párrafo y de línea?

Un PDF **no almacena párrafos** como lo hace Word. Cada línea es un fragmento posicionado aparte. pdf.js junta los fragmentos por su posición para conservar el orden de lectura, pero el **resultado pocas veces queda perfectamente en párrafos**. En la práctica: la mayoría de documentos salen limpios y los clusters cortos que deberían ser un único párrafo son más fáciles de arreglar en tu editor con un buscar y reemplazar (un \n por espacio, doble \n se queda).

¿Las páginas están claramente separadas en la exportación?

**Sí**. En la pestaña "Texto plano" las páginas van separadas por **dos saltos de línea** (\n\n) para que el límite sea visible. En la pestaña "Por página" cada página es su propia tarjeta con el número de página, el conteo de caracteres y un botón de descarga por página. Internamente usamos el **form-feed POSIX (\f)** como separador de página pero lo renderizamos como un espacio en blanco visible en la salida final para que se lea bien.

¿Y los PDFs protegidos con contraseña (cifrados)?

**Algunos sí, algunos no**. Los PDFs tienen dos tipos de protección: **owner** (bloqueo de imprimir/copiar) y **user** (contraseña de apertura). El primero son solo flags de metadatos y los ignoramos. El segundo no se puede saltar porque el archivo está realmente cifrado. Obtendrás un error "encryptedPdf". Apaño: ábrelo en Adobe Reader, introduce la contraseña, "Guardar copia" como PDF sin protección y sube esa.

¿Por qué algunos caracteres especiales salen como basura?

PDF no tiene una codificación de caracteres única: cada fuente embebida puede llevar **su propio mapeo** de glifos a Unicode. Los documentos profesionales (Word, LaTeX, InDesign) incluyen un "ToUnicode CMap" y todo se decodifica limpio. Los **impresores PDF antiguos de los 2000** (Acrobat Distiller 5, fotocopiadoras de red) se lo saltan y los caracteres con tilde o no latinos salen como secuencias rotas. La única solución para esos archivos es pasar OCR al propio PDF.

¿Por qué algunas páginas vuelven vacías o con un único carácter?

**Tres motivos comunes**: (1) la página solo contiene imágenes o diagramas sin capa de texto, (2) es un separador de sección en blanco (típico en informes anuales con páginas "Capítulo 3"), (3) el texto usa una fuente no estándar sin mapeo Unicode. Marcamos cada página así con una insignia amarilla **Vacía** en la pestaña "Por página" para que veas al momento dónde falló la extracción.

¿Qué pasa con mi archivo tras la extracción? ¿Se guarda en algún sitio?

**No**. El archivo va a **memoria del proceso Node** como buffer, pdf.js lo parsea, te devolvemos el resultado y el buffer lo libera el garbage collector. **Nada toca el disco**, nada va a una base de datos, nada se queda en una caché. Una vez termina la petición, no hay rastro de que tu PDF haya estado aquí. El rate limit de 30 archivos por hora es el único estado persistente (un contador anónimo de IP en memoria, borrado al reiniciar).

¿Cuál es el tamaño máximo de archivo?

**20 MB y 500 páginas**. Cubre la mayoría de documentos del día a día: contratos, manuales, informes, tesis, ebooks, especificaciones técnicas. Más allá lo rechazamos porque (a) el parseo empieza a tardar decenas de segundos y bloquearía a otros usuarios, (b) los PDFs muy grandes suelen ser escaneos de alta resolución donde necesitarías OCR igualmente. Si tu archivo es mayor, divídelo en secciones con un divisor de PDF gratis (o "Extraer páginas" de Adobe Reader) antes de subir.

Extractor de texto de PDF - gratis

Qué es la extracción de texto de PDF

La extracción de texto de PDF es el proceso de sacar solo el contenido textual de un archivo PDF a texto plano que puedas copiar, pegar, buscar o pasar a otra herramienta. Lo hacemos en el servidor porque los PDFs no son sencillos: el texto dentro de un PDF no se almacena como una única cadena. Vive como cientos de pequeños fragmentos colocados en posiciones exactas por quien produjo el documento (Word, InDesign, un impresor de PDF).

Subes un PDF y lo parseamos con pdf.js, el mismo motor que Firefox usa para renderizar PDFs en el navegador. Obtienes el texto completo, un desglose por página y los metadatos (título, autor, fecha de creación). Sin instalaciones, sin nube de terceros, sin cuenta.

Cómo usarlo

Suelta un archivo PDF en la zona de subida o pulsa para elegirlo del disco. Un archivo cada vez, hasta 20 MB y 500 páginas.
Espera unos segundos. Documentos grandes (200+ páginas) pueden tardar 10-20 segundos porque cada página se parsea individualmente.
Tras la extracción obtienes tres pestañas: Texto plano (todo junto), Por página (cada página por separado) y Metadatos (título, autor, fechas).
En la pestaña "Texto plano" usa Copiar para llevar el contenido al portapapeles o Descargar .txt para guardarlo en local.
En la pestaña "Por página" verás qué páginas están vacías (marcadas con una insignia amarilla). Cada página también se puede descargar por separado.
En la pestaña "Metadatos" puedes comprobar quién y cuándo autoría el documento, con qué software (Producer) y si el archivo iba cifrado.
Si todas las páginas vuelven vacías, recibes un aviso. Significa que el PDF es una imagen escaneada y necesitas antes una herramienta OCR aparte.

Cuándo es útil

Siete escenarios típicos de PDF-a-texto:

Copiar desde un PDF que bloquea la selección: algunos documentos tienen la función "copiar" desactivada en el lector. Esta herramienta saca el texto igual.
Pegar citas en Word o Google Docs: se acabó reescribir párrafos enteros desde un PDF abierto en pantalla.
Preparar texto para un modelo de lenguaje (ChatGPT, Claude): copias el resultado y lo sueltas en la ventana de chat en vez de pelearte con el formato del PDF.
Búsqueda full-text en un archivo documental: el texto extraído se puede indexar con grep, ripgrep, Notion u Obsidian para búsquedas rápidas más tarde.
Traducir un contrato o manual: el texto limpio se pega en DeepL o Google Translate sin los artefactos de layout que arrastraría un PDF.
Conversión a otros formatos: una base .txt es el punto de partida para Markdown, HTML, CSV o lo que sea el siguiente paso en tu pipeline.
Sacar tablas de números de un informe: un PDF lleno de cifras se vuelve texto que puedes pegar en una hoja de cálculo y ordenar.

Herramientas complementarias: conversor HTML a Markdown, formateador JSON, probador de regex.

Preguntas y respuestas

El bundle completo de pdf.js son más de 3 MB de JavaScript, y cargarlo en el navegador de cada visitante ralentizaría la página de forma notable. En servidor, la librería se queda en caliente en el proceso Node y tú solo subes el archivo. La ganancia de latencia es significativa, sobre todo en redes lentas. El archivo no se persiste: una vez enviada la respuesta, se libera el buffer.

Qué es la extracción de texto de PDF

Cómo usarlo

Suelta un archivo PDF en la zona de subida o pulsa para elegirlo del disco. Un archivo cada vez, hasta 20 MB y 500 páginas.

Espera unos segundos. Documentos grandes (200+ páginas) pueden tardar 10-20 segundos porque cada página se parsea individualmente.

Tras la extracción obtienes tres pestañas: Texto plano (todo junto), Por página (cada página por separado) y Metadatos (título, autor, fechas).

En la pestaña "Texto plano" usa Copiar para llevar el contenido al portapapeles o Descargar .txt para guardarlo en local.

En la pestaña "Por página" verás qué páginas están vacías (marcadas con una insignia amarilla). Cada página también se puede descargar por separado.

En la pestaña "Metadatos" puedes comprobar quién y cuándo autoría el documento, con qué software (Producer) y si el archivo iba cifrado.

Si todas las páginas vuelven vacías, recibes un aviso. Significa que el PDF es una imagen escaneada y necesitas antes una herramienta OCR aparte.

Cuándo es útil

Siete escenarios típicos de PDF-a-texto:

Copiar desde un PDF que bloquea la selección: algunos documentos tienen la función "copiar" desactivada en el lector. Esta herramienta saca el texto igual.
Pegar citas en Word o Google Docs: se acabó reescribir párrafos enteros desde un PDF abierto en pantalla.
Preparar texto para un modelo de lenguaje (ChatGPT, Claude): copias el resultado y lo sueltas en la ventana de chat en vez de pelearte con el formato del PDF.
Búsqueda full-text en un archivo documental: el texto extraído se puede indexar con grep, ripgrep, Notion u Obsidian para búsquedas rápidas más tarde.
Traducir un contrato o manual: el texto limpio se pega en DeepL o Google Translate sin los artefactos de layout que arrastraría un PDF.
Conversión a otros formatos: una base .txt es el punto de partida para Markdown, HTML, CSV o lo que sea el siguiente paso en tu pipeline.
Sacar tablas de números de un informe: un PDF lleno de cifras se vuelve texto que puedes pegar en una hoja de cálculo y ordenar.

Herramientas complementarias: conversor HTML a Markdown, formateador JSON, probador de regex.

Preguntas y respuestas

Extractor de texto de PDF

Suelta un archivo PDF

Qué es la extracción de texto de PDF

Cómo usarlo

Cuándo es útil

Preguntas y respuestas

Herramientas relacionadas

Conversor de PDF e imágenes

Conversor DOCX a Markdown

Conversor HTML / Markdown

Formateador JSON

Probador de expresiones regulares

Extractor de texto de PDF

Suelta un archivo PDF

Qué es la extracción de texto de PDF

Cómo usarlo

Cuándo es útil

Preguntas y respuestas

Herramientas relacionadas

Conversor de PDF e imágenes

Conversor DOCX a Markdown

Conversor HTML / Markdown

Formateador JSON

Probador de expresiones regulares