Funktioniert es auf gescannten PDFs (Seitenbilder, kein echter Text)?

**Nein**. Dieses Tool **macht kein OCR**: es liest nur den Text, der schon als Text im PDF gespeichert ist. Ist dein Dokument ein Papierscan oder ein "Als PDF drucken"-Export aus Bildern, kommt jede Seite **leer** zurück und du siehst eine Warnung. Für Scans brauchst du ein eigenes OCR-Tool (Google Drive, Adobe Acrobat, Tesseract). Lass OCR zuerst laufen und wirf das entstehende PDF dann hier rein - die Kombination funktioniert.

Wie genau ist die Extraktion? Bekomme ich exakt denselben Text wie im PDF?

**Sehr genau bei normalen Dokumenten** (Word, Google Docs, LaTeX, Browser-Exporte). Der Text kommt 1:1 durch. **Probleme können auftreten bei**: Tabellen (Spaltenreihenfolge kann driften), Mehrspalten-Zeitungen (Spalten-Interleaving), Formularen (Textfelder sind getrennt von Labels) und PDFs aus alten Druckern vor 2010, die eigene Font-Encodings einbetten.

Was ist mit Absatzumbrüchen und Zeilenenden?

Ein PDF **speichert keine Absätze** wie Word. Jede Zeile ist ein separates positioniertes Fragment. pdf.js fügt Fragmente nach Position zusammen, sodass die Lesereihenfolge erhalten bleibt, aber **das Ergebnis ist selten perfekt in Absätze gegliedert**. In der Praxis: die meisten Dokumente kommen sauber raus, kurze Zeilencluster, die ein Absatz sein sollten, lassen sich in deinem Editor am leichtesten mit Suchen-und-Ersetzen reparieren (einfaches \n zu Leerzeichen, doppeltes \n bleibt).

Sind Seiten im Export klar getrennt?

**Ja**. Im "Klartext"-Tab sind Seiten durch **zwei Zeilenumbrüche** (\n\n) getrennt, damit die Grenze sichtbar ist. Im "Pro Seite"-Tab ist jede Seite eine eigene Karte mit Seitenzahl, Zeichenanzahl und einem Pro-Seite-Download-Button. Intern nutzen wir den POSIX-Standard **Form-Feed (\f)** als Seitentrenner, rendern ihn aber in der Endausgabe für die Lesbarkeit als sichtbare Leerstelle.

Was ist mit passwortgeschützten (verschlüsselten) PDFs?

**Manche ja, manche nein**. PDFs haben zwei Schutzarten: **Owner** (Druck-/Kopier-Sperre) und **User** (Öffnen-Passwort). Erstere sind nur Metadaten-Flags und wir ignorieren sie. Letztere lassen sich nicht umgehen, weil die Datei tatsächlich verschlüsselt ist. Du bekommst einen "encryptedPdf"-Fehler. Workaround: in Adobe Reader öffnen, Passwort eingeben, "Kopie speichern" als ungeschütztes PDF und das hochladen.

Warum kommen manche Sonderzeichen als Müll raus?

PDF hat keine einheitliche Zeichenkodierung: jeder eingebettete Font kann **seine eigene Zuordnung** von Glyphen zu Unicode tragen. Professionelle Dokumente (Word, LaTeX, InDesign) enthalten eine "ToUnicode CMap" und alles dekodiert sauber. **Alte PDF-Drucker aus den 2000ern** (Acrobat Distiller 5, vernetzte Kopierer) lassen das weg, dann kommen Umlaute oder nicht-lateinische Zeichen als kaputte Sequenzen raus. Der einzige Fix für solche Dateien ist, das PDF selbst zu OCRen.

Warum kommen manche Seiten leer oder mit nur einem Zeichen zurück?

**Drei häufige Gründe**: (1) die Seite enthält nur Bilder oder Diagramme ohne Textebene, (2) sie ist ein leerer Abschnittstrenner (typisch in Geschäftsberichten mit "Kapitel 3"-Splash-Seiten), (3) der Text nutzt einen nicht-standardisierten Font ohne Unicode-Mapping. Wir markieren jede solche Seite mit einem gelben **Leer**-Badge im "Pro Seite"-Tab, damit du sofort siehst, wo die Extraktion versagt hat.

Was passiert mit meiner Datei nach der Extraktion? Wird sie irgendwo gespeichert?

**Nein**. Die Datei geht als Puffer in den **Node-Prozessspeicher**, pdf.js parst sie, wir schicken das Ergebnis zurück und der Puffer wird vom Garbage Collector freigegeben. **Nichts berührt die Platte**, nichts geht in eine Datenbank, nichts bleibt im Cache. Sobald die Anfrage fertig ist, gibt es keine Spur, dass dein PDF jemals hier war. Das 30-Dateien-pro-Stunde-Rate-Limit ist der einzige persistente Zustand (ein anonymer IP-Zähler im Speicher, beim Neustart gelöscht).

Was ist die maximale Dateigröße?

**20 MB und 500 Seiten**. Das deckt die meisten alltäglichen Dokumente ab: Verträge, Handbücher, Berichte, Diplomarbeiten, eBooks, technische Spezifikationen. Darüber hinaus weigern wir uns, weil (a) das Parsen zehnerweise Sekunden braucht und andere Nutzer blockieren würde, (b) sehr große PDFs oft hochauflösende Scans sind, wo du ohnehin OCR bräuchtest. Ist deine Datei größer, teil sie mit einem kostenlosen PDF-Splitter (oder Adobe Readers "Seiten extrahieren") vor dem Upload in Abschnitte.

PDF-Text-Extractor - kostenlos

Was PDF-Text-Extraktion ist

PDF-Text-Extraktion ist der Prozess, nur den textuellen Inhalt aus einer PDF-Datei in reinen Text zu ziehen, den du kopieren, einfügen, durchsuchen oder in ein anderes Tool füttern kannst. Wir machen es serverseitig, weil PDFs nicht simpel sind: Text in einem PDF wird nicht als ein einzelner String gespeichert. Er lebt als hunderte kleine Fragmente an genauen Positionen, die der Ersteller (Word, InDesign, ein PDF-Drucker) gesetzt hat.

Du lädst ein PDF hoch und wir parsen es mit pdf.js, derselben Engine, die Firefox zum Rendern von PDFs im Browser nutzt. Du bekommst den vollständigen Text, eine Aufschlüsselung pro Seite und die Metadaten (Titel, Autor, Erstellungsdatum). Keine Installationen, keine Drittanbieter-Cloud, kein Account.

So nutzt du das Tool

Wirf eine PDF-Datei in den Upload-Bereich oder klick, um eine von der Platte zu wählen. Eine Datei nach der anderen, bis 20 MB und 500 Seiten.
Warte ein paar Sekunden. Große Dokumente (200+ Seiten) können 10 bis 20 Sekunden brauchen, weil jede Seite einzeln geparst wird.
Nach der Extraktion bekommst du drei Tabs: Klartext (alles verbunden), Pro Seite (jede Seite separat) und Metadaten (Titel, Autor, Daten).
Im "Klartext"-Tab nutze Kopieren, um den Inhalt in die Zwischenablage zu legen, oder .txt herunterladen, um ihn lokal zu speichern.
Im "Pro Seite"-Tab siehst du, welche Seiten leer sind (mit gelbem Badge markiert). Jede Seite lässt sich auch einzeln herunterladen.
Im "Metadaten"-Tab kannst du prüfen, wer und wann das Dokument verfasst hat, mit welcher Software (Producer) und ob die Datei verschlüsselt war.
Kommt jede Seite leer zurück, bekommst du eine Warnung. Das heißt, das PDF ist ein gescanntes Bild und du brauchst zuerst ein separates OCR-Tool.

Wann das hilfreich ist

Sieben typische PDF-zu-Text-Szenarien:

Kopieren aus einem PDF, das Auswahl blockiert: manche Dokumente haben die "Kopieren"-Funktion im Reader deaktiviert. Dieses Tool zieht den Text trotzdem raus.
Zitate in Word oder Google Docs einfügen: kein erneutes Abtippen ganzer Absätze aus einem PDF, das auf dem Bildschirm offen ist.
Text für ein Sprachmodell (ChatGPT, Claude) vorbereiten: du kopierst das Ergebnis und packst es ins Chat-Fenster, statt mit PDF-Formatierung zu kämpfen.
Volltextsuche über ein Dokumentarchiv: extrahierter Text kann von grep, ripgrep, Notion oder Obsidian für späteres schnelles Nachschlagen indiziert werden.
Einen Vertrag oder ein Handbuch übersetzen: sauberer Text fügt sich in DeepL oder Google Translate ein, ohne die Layout-Artefakte, die ein PDF mitbringen würde.
Konvertierung in andere Formate: eine .txt-Basis ist der Startpunkt für Markdown, HTML, CSV oder was auch immer als Nächstes in deiner Pipeline steht.
Tabellen mit Zahlen aus einem Bericht ziehen: ein PDF voller Zahlen wird zu Text, den du in eine Tabellenkalkulation einfügen und sortieren kannst.

Begleit-Tools: HTML-zu-Markdown-Konverter, JSON-Formatter, Regex-Tester.

Fragen und Antworten

Das volle pdf.js-Bundle ist über 3 MB JavaScript, und es im Browser jedes Besuchers zu laden würde die Seite merklich verlangsamen. Serverseitig bleibt die Bibliothek warm im Node-Prozess und du lädst nur die Datei hoch. Der Latenzgewinn ist deutlich, besonders bei langsamen Netzen. Die Datei wird nicht persistiert: sobald die Antwort gesendet ist, wird der Puffer verworfen.

Was PDF-Text-Extraktion ist

So nutzt du das Tool

Wirf eine PDF-Datei in den Upload-Bereich oder klick, um eine von der Platte zu wählen. Eine Datei nach der anderen, bis 20 MB und 500 Seiten.

Warte ein paar Sekunden. Große Dokumente (200+ Seiten) können 10 bis 20 Sekunden brauchen, weil jede Seite einzeln geparst wird.

Nach der Extraktion bekommst du drei Tabs: Klartext (alles verbunden), Pro Seite (jede Seite separat) und Metadaten (Titel, Autor, Daten).

Im "Klartext"-Tab nutze Kopieren, um den Inhalt in die Zwischenablage zu legen, oder .txt herunterladen, um ihn lokal zu speichern.

Im "Pro Seite"-Tab siehst du, welche Seiten leer sind (mit gelbem Badge markiert). Jede Seite lässt sich auch einzeln herunterladen.

Im "Metadaten"-Tab kannst du prüfen, wer und wann das Dokument verfasst hat, mit welcher Software (Producer) und ob die Datei verschlüsselt war.

Kommt jede Seite leer zurück, bekommst du eine Warnung. Das heißt, das PDF ist ein gescanntes Bild und du brauchst zuerst ein separates OCR-Tool.

Wann das hilfreich ist

Sieben typische PDF-zu-Text-Szenarien:

Kopieren aus einem PDF, das Auswahl blockiert: manche Dokumente haben die "Kopieren"-Funktion im Reader deaktiviert. Dieses Tool zieht den Text trotzdem raus.
Zitate in Word oder Google Docs einfügen: kein erneutes Abtippen ganzer Absätze aus einem PDF, das auf dem Bildschirm offen ist.
Text für ein Sprachmodell (ChatGPT, Claude) vorbereiten: du kopierst das Ergebnis und packst es ins Chat-Fenster, statt mit PDF-Formatierung zu kämpfen.
Volltextsuche über ein Dokumentarchiv: extrahierter Text kann von grep, ripgrep, Notion oder Obsidian für späteres schnelles Nachschlagen indiziert werden.
Einen Vertrag oder ein Handbuch übersetzen: sauberer Text fügt sich in DeepL oder Google Translate ein, ohne die Layout-Artefakte, die ein PDF mitbringen würde.
Konvertierung in andere Formate: eine .txt-Basis ist der Startpunkt für Markdown, HTML, CSV oder was auch immer als Nächstes in deiner Pipeline steht.
Tabellen mit Zahlen aus einem Bericht ziehen: ein PDF voller Zahlen wird zu Text, den du in eine Tabellenkalkulation einfügen und sortieren kannst.

Begleit-Tools: HTML-zu-Markdown-Konverter, JSON-Formatter, Regex-Tester.

Fragen und Antworten

PDF-Text-Extractor

PDF-Datei hier ablegen

Was PDF-Text-Extraktion ist

So nutzt du das Tool

Wann das hilfreich ist

Fragen und Antworten

Passende Tools

PDF und Bild Konverter

DOCX zu Markdown

HTML / Markdown Konverter

JSON-Formatter

Regex-Tester

PDF-Text-Extractor

PDF-Datei hier ablegen

Was PDF-Text-Extraktion ist

So nutzt du das Tool

Wann das hilfreich ist

Fragen und Antworten

Passende Tools

PDF und Bild Konverter

DOCX zu Markdown

HTML / Markdown Konverter

JSON-Formatter

Regex-Tester