Czy działa na zeskanowanym PDF-ie (zdjęciu strony, nie tekście)?

**Nie**. Ten tool **nie robi OCR**: czyta tylko tekst, który już jest zapisany w PDF-ie jako tekst. Jeśli Twój dokument to skan papieru albo eksport zdjęć ("Drukuj do PDF" z aplikacji do zdjęć), strony będą **puste**, a Ty dostaniesz ostrzeżenie. Do skanów potrzebujesz osobnego narzędzia OCR (Google Drive, Adobe Acrobat, Tesseract). Po OCR-ze wrzuć wynikowy PDF tutaj i wtedy zadziała.

Jak dokładna jest ekstrakcja? Czy dostaję identyczny tekst, co w PDF-ie?

**Bardzo dokładna dla zwykłych dokumentów** (Word, Google Docs, LaTeX, eksporty z przeglądarki). Tekst trafia 1:1, łącznie z polskimi znakami. **Problemy bywają z**: tabelami (kolejność kolumn może się rozjechać), wielokolumnowymi gazetami (mieszanie kolejności), formularzami (pola tekstowe są osobno od etykiet) i PDF-ami generowanymi przez stare drukarki sprzed 2010 roku, które wstawiają niestandardowe kodowanie.

Co z podziałem na akapity i znaki nowej linii?

PDF **nie przechowuje akapitów** w sposób, który zna Word. Każda linia jest osobnym fragmentem z konkretną pozycją na stronie. pdf.js łączy fragmenty po pozycji, więc tekst wychodzi w naturalnej kolejności, ale **nie zawsze idealne akapity**. Praktyka: większość dokumentów wychodzi czysto, a krótkie zlepki linii w jednym akapicie najwygodniej posklejać w edytorze za pomocą "znajdź i zamień" (pojedynczy \n na spację, podwójny zostawiasz).

Czy strony są wyraźnie oddzielone w eksporcie?

**Tak**. W zakładce "Czysty tekst" strony są rozdzielone **dwoma znakami nowej linii** (\n\n), więc widać granicę. W zakładce "Po stronach" każda strona to osobna karta z numerem, długością tekstu i własnym przyciskiem pobierania. Wewnętrznie używamy znacznika **form-feed (\f)** zgodnego ze standardem POSIX, ale w wynikowym tekście podmieniamy go na widoczną przerwę, dzięki czemu po wklejeniu do edytora granice są od razu czytelne.

Co z zaszyfrowanymi PDF-ami (hasłem)?

**Niektóre tak, niektóre nie**. PDF ma dwa rodzaje zabezpieczeń: **właściciel** (blokada druku, kopiowania) i **użytkownik** (hasło do otwarcia). Pierwsze omijamy bez problemu, bo to tylko flagi metadanych. Drugiego nie złamiemy, bo plik jest faktycznie zaszyfrowany. Dostaniesz wtedy błąd "encryptedPdf". Rozwiązanie: otwórz w Adobe Reader, podaj hasło, "Zapisz kopię" jako odszyfrowany PDF, wgraj wynik tutaj.

Dlaczego niektóre polskie znaki wychodzą jako krzaki?

PDF nie ma jednego kodowania znaków: każdy font może mieć **własne mapowanie** glifów na Unicode. Profesjonalne dokumenty (Word, LaTeX, InDesign) osadzają tablicę "ToUnicode CMap" i wszystko wychodzi czyste. **Stare drukarki PDF z lat 2000** (Acrobat Distiller 5, kopiarki sieciowe) tego nie robią i wtedy ą, ę, ł trafiają jako nieczytelne sekwencje. W takiej sytuacji jedynym ratunkiem jest OCR samego PDF-a.

Dlaczego niektóre strony są puste albo mają tylko jeden znak?

**Trzy najczęstsze powody**: (1) strona zawiera tylko obrazy lub diagramy bez warstwy tekstowej, (2) strona jest pustą rozdzielającą sekcją (typowe dla raportów rocznych z separatorami "Rozdział 3"), (3) tekst jest w niestandardowym fontcie bez mapowania Unicode. Każdą taką stronę oznaczamy żółtą plakietką **Pusta** w zakładce "Po stronach", żebyś mógł szybko zlokalizować, gdzie ekstrakcja zawiodła.

Co dzieje się z moim plikiem po zakończeniu? Czy jest gdzieś zapisywany?

**Nie**. Plik trafia do **pamięci procesu Node** jako bufor, pdf.js go parsuje, my wysyłamy wynik z powrotem i bufor jest zwalniany przez garbage collector. **Nic nie ląduje na dysku**, nic nie idzie do bazy danych, nic nie zostaje w cache. Po zakończeniu requestu nie ma śladu, że Twój PDF kiedykolwiek przez nas przeszedł. Limit 30 plików na godzinę jest jedynym śladem (anonimowy licznik IP w pamięci, kasowany przy restarcie).

Jaki jest maksymalny rozmiar pliku?

**20 MB i 500 stron**. To pokrywa większość typowych dokumentów: umowy, instrukcje, raporty, prace dyplomowe, ebooki, manuale techniczne. Powyżej tego limitu narzędzie odmawia, bo (a) parsowanie zaczyna zajmować dziesiątki sekund i blokować innych użytkowników, (b) bardzo duże PDF-y to często skany w wysokiej rozdzielczości, z których i tak nic nie wyciągniesz bez OCR. Jeśli masz większy plik, podziel go na sekcje w Adobe Reader albo darmowym PDF-splitterze przed wgraniem.

Ekstrakcja tekstu z PDF - darmowy

Czym jest ekstrakcja tekstu z PDF

Ekstrakcja tekstu z PDF to wyciągnięcie samej zawartości tekstowej z pliku PDF do zwykłego tekstu, który można skopiować, wkleić, przeszukać albo wrzucić do innej aplikacji. To narzędzie robi to na serwerze, bo PDF-y są skomplikowane: tekst w nich nie leży w jednej linii jak w pliku .txt, tylko jest poukładany przez producenta dokumentu (Word, InDesign, drukarka PDF) w setki małych fragmentów rozrzuconych po stronie.

Wgrywasz PDF, my czytamy go silnikiem pdf.js (tym samym, którego używa Firefox do wyświetlania PDF-ów), zwracamy pełny tekst, podział na strony i metadane (tytuł, autor, data utworzenia). Wszystko bez instalowania niczego, bez wysyłki na obcy serwer chmurowy, bez konta.

Jak używać

Przeciągnij plik PDF na pole przesyłania albo kliknij i wybierz z dysku. Akceptujemy tylko jeden plik naraz, do 20 MB i 500 stron.
Czekaj kilka sekund. Większe dokumenty (200+ stron) potrafią potrzebować 10 do 20 sekund, bo PDF musi zostać rozebrany strona po stronie.
Po wyciągnięciu pojawią się trzy zakładki: Czysty tekst (wszystko sklejone), Po stronach (każda strona osobno) i Metadane (tytuł, autor, daty).
W zakładce "Czysty tekst" użyj Kopiuj, żeby wrzucić zawartość do schowka, albo Pobierz .txt, żeby zapisać ją lokalnie.
W zakładce "Po stronach" zobaczysz, które strony są puste (oznaczone żółtą plakietką). Każdą stronę możesz pobrać osobno.
W zakładce "Metadane" sprawdzisz, kto i kiedy utworzył dokument, jakim programem (Producer) i czy plik był zaszyfrowany.
Jeśli wszystkie strony są puste, dostaniesz ostrzeżenie. To znak, że PDF jest skanem obrazów i potrzebujesz osobnego narzędzia OCR.

Kiedy się przydaje

Siedem typowych zastosowań ekstrakcji tekstu z PDF:

Kopiowanie z PDF-a, który blokuje zaznaczanie: niektóre dokumenty mają wyłączoną funkcję "kopiuj" w czytniku. Tu wyciągasz tekst i tak.
Wklejanie cytatów do dokumentu Word lub Google Docs: bez ręcznego przepisywania całych akapitów ze skanu na monitorze.
Przygotowanie tekstu pod model językowy (ChatGPT, Claude): kopiujesz wynik i wrzucasz do okna czatu, zamiast walczyć z formatem PDF.
Wyszukiwanie pełnotekstowe w archiwum dokumentów: ekstrakcja pozwala zindeksować zawartość PDF-a w grep, ripgrep, Notion albo Obsidian.
Tłumaczenie umowy lub instrukcji: czysty tekst wkleja się do DeepL i Google Translate bez śmieci, których nie ma w oryginale.
Konwersja do innego formatu: tekst .txt to baza do dalszej obróbki w Markdown, HTML, CSV (czyli wszystkim, czego potrzebuje Twój następny krok).
Wyciąganie tabel danych z raportu: PDF z liczbami zamienia się w tekst, który możesz wkleić do Excela i posortować.

Narzędzia uzupełniające: konwerter HTML do Markdown, formatter JSON, tester wyrażeń regularnych.

Pytania i odpowiedzi

pdf.js w pełnej wersji to ponad 3 MB JavaScriptu, a wczytywanie go w przeglądarce przy każdej wizycie znacznie spowolniłoby stronę. Po stronie serwera kod żyje w pamięci procesu Node, biblioteka jest gotowa od razu, a Ty wgrywasz tylko plik. Zysk na czasie ładowania jest znaczący, zwłaszcza na słabszych łączach. Plik nie jest persystowany: po zwróceniu odpowiedzi bufor znika.

Czym jest ekstrakcja tekstu z PDF

Jak używać

Przeciągnij plik PDF na pole przesyłania albo kliknij i wybierz z dysku. Akceptujemy tylko jeden plik naraz, do 20 MB i 500 stron.

Czekaj kilka sekund. Większe dokumenty (200+ stron) potrafią potrzebować 10 do 20 sekund, bo PDF musi zostać rozebrany strona po stronie.

Po wyciągnięciu pojawią się trzy zakładki: Czysty tekst (wszystko sklejone), Po stronach (każda strona osobno) i Metadane (tytuł, autor, daty).

W zakładce "Czysty tekst" użyj Kopiuj, żeby wrzucić zawartość do schowka, albo Pobierz .txt, żeby zapisać ją lokalnie.

W zakładce "Po stronach" zobaczysz, które strony są puste (oznaczone żółtą plakietką). Każdą stronę możesz pobrać osobno.

W zakładce "Metadane" sprawdzisz, kto i kiedy utworzył dokument, jakim programem (Producer) i czy plik był zaszyfrowany.

Jeśli wszystkie strony są puste, dostaniesz ostrzeżenie. To znak, że PDF jest skanem obrazów i potrzebujesz osobnego narzędzia OCR.

Kiedy się przydaje

Siedem typowych zastosowań ekstrakcji tekstu z PDF:

Kopiowanie z PDF-a, który blokuje zaznaczanie: niektóre dokumenty mają wyłączoną funkcję "kopiuj" w czytniku. Tu wyciągasz tekst i tak.
Wklejanie cytatów do dokumentu Word lub Google Docs: bez ręcznego przepisywania całych akapitów ze skanu na monitorze.
Przygotowanie tekstu pod model językowy (ChatGPT, Claude): kopiujesz wynik i wrzucasz do okna czatu, zamiast walczyć z formatem PDF.
Wyszukiwanie pełnotekstowe w archiwum dokumentów: ekstrakcja pozwala zindeksować zawartość PDF-a w grep, ripgrep, Notion albo Obsidian.
Tłumaczenie umowy lub instrukcji: czysty tekst wkleja się do DeepL i Google Translate bez śmieci, których nie ma w oryginale.
Konwersja do innego formatu: tekst .txt to baza do dalszej obróbki w Markdown, HTML, CSV (czyli wszystkim, czego potrzebuje Twój następny krok).
Wyciąganie tabel danych z raportu: PDF z liczbami zamienia się w tekst, który możesz wkleić do Excela i posortować.

Narzędzia uzupełniające: konwerter HTML do Markdown, formatter JSON, tester wyrażeń regularnych.

Pytania i odpowiedzi

Ekstrakcja tekstu z PDF

Upuść plik PDF

Czym jest ekstrakcja tekstu z PDF

Jak używać

Kiedy się przydaje

Pytania i odpowiedzi

Powiązane narzędzia

Konwerter PDF i obrazów

Konwerter DOCX na Markdown

Konwerter HTML / Markdown

Formatter JSON

Tester wyrażeń regularnych

Ekstrakcja tekstu z PDF

Upuść plik PDF

Czym jest ekstrakcja tekstu z PDF

Jak używać

Kiedy się przydaje

Pytania i odpowiedzi

Powiązane narzędzia

Konwerter PDF i obrazów

Konwerter DOCX na Markdown

Konwerter HTML / Markdown

Formatter JSON

Tester wyrażeń regularnych