Jak najlepiej dzielić dokumenty dla bota?

Domyślnie wybierz **mądry sposób cięcia** (po angielsku: recursive). Stara się ciąć **najpierw po akapitach**, jeśli akapit za długi, **po zdaniach**, jeśli zdanie nadal za długie, po słowach. Tak najlepiej zachowuje sens. Tego sposobu używa popularne narzędzie LangChain i większość gotowych rozwiązań RAG. Cięcie **po akapitach** jest dobre dla dokumentów technicznych i książek. **Po zdaniach**: dla rozmów i krótkich opisów. **Na równe kawałki**: szybkie, ale rozbija sens, bierz tylko gdy nic innego nie działa.

Co to jest "powtórka na granicy" (overlap) i czy mi się przyda?

Wyobraź sobie, że tniesz dokument na trzy strony. Ważne zdanie wypada **dokładnie na styku** strony 1 i strony 2, pół zdania jest tu, pół tam. Bot, szukając odpowiedzi, znajdzie albo stronę 1, albo stronę 2, ale **żadna nie ma pełnego zdania**. Powtórka na granicy oznacza: **końcówka strony 1 powtarza się na początku strony 2**. Dzięki temu pełne zdanie jest w obu. Typowo daje się **10-20%** długości kawałka. Cena: trochę więcej tokenów do zapłacenia.

Czemu bot nie znajduje odpowiedzi, choć ona JEST w dokumencie?

Najczęstsze powody: - **(1) odpowiedź została rozcięta** między dwa kawałki, wklej dokument tutaj i sprawdź wizualnie. - **(2) kawałki są za małe** i odpowiedź nie ma kontekstu (*„kliknij tu"*, gdzie?). Zwiększ długość kawałka. - **(3) kawałki są za duże** i odpowiedź *„tonie"* w tle. Zmniejsz. - **(4) cięcie po znakach** rozbija słowa w środku. Zmień na *„mądry"* albo *„po zdaniach"*. To narzędzie pokazuje wszystkie te problemy **na jednym ekranie**.

Jaka długość kawałka jest najlepsza?

Zależy od dokumentu. **150-300 tokenów** to dobry start dla większości przypadków, jeden kawałek mieści jedną myśl. Dla typowych zastosowań: - **FAQ** (krótkie pary pytanie-odpowiedź): **100-200** tokenów. - **artykuły i instrukcje**: **300-500**. - **kod**: jedna funkcja jako jeden kawałek (zwykle **200-500**). Reguła: kawałek ma zawierać **jedną kompletną myśl**. Za mały: gubi kontekst. Za duży: rozmywa znaczenie. Tutaj testujesz różne ustawienia bez kodowania.

Co to jest LangChain i czemu wszyscy go używają?

LangChain to **popularne narzędzie programistyczne**, które robi za Ciebie mnóstwo brudnej roboty: czytanie plików, cięcie na kawałki, łączenie z bazą i z botem. Ich algorytm **mądrego cięcia** stał się de facto standardem, większość projektów RAG używa właśnie tego sposobu. Tu w narzędziu opcja **„mądry"** robi to samo, co LangChain. Dzięki temu możesz **przetestować** efekt jeszcze przed napisaniem jednej linijki kodu.

Czy mogę używać tego dla książek albo długich PDF-ów?

Tak, ale **wklej fragment**, nie całość, przeglądarka zatka się przy 500 stronach naraz. Zalecenie: weź **jeden rozdział** lub **kilkanaście stron typowych dla książki**, przetestuj ustawienia tutaj, a potem to samo zastosuj programistycznie do całej książki. Dla **długich książek** typowo bierze się 300-500 tokenów na kawałek z 10% powtórką. Dla **PDF-ów technicznych** (z tabelami, listami): często lepsze cięcie po akapitach.

Czemu różne modele (GPT vs Claude vs Gemini) pokazują różne liczby tokenów?

Bo **każda firma ma własny słownik tokenów**. Słowo *„dokumentacja"* GPT może podzielić na 3 tokeny, a Claude na 5. Dla polskiego tekstu **Claude i Gemini liczą zwykle więcej tokenów niż GPT**. To nie jest błąd, to różnica między usługami. Praktycznie: jeśli planujesz **szukać dokumentów** przez OpenAI, ale **odpowiadać** Claude'em, **liczą się oba**: szukanie wg liczb OpenAI, limit pytania wg liczb Claude'a. Tu możesz przełączać i sprawdzić oba.

Co znaczy "+ X% nadmiar" w statystykach?

To **ile dodatkowych tokenów** dorobiła powtórka na granicy w stosunku do oryginalnego tekstu. **0%** = kawałki sumują się idealnie do oryginału (brak powtórki). **+10-20%** = standardowa powtórka. Ten nadmiar **kosztuje**: każdy 1% to 1% więcej do zapłacenia za *„naukę"* bota i 1% więcej miejsca w bazie. Dlatego nie warto przesadzać z powtórką ponad 20%.

Dlaczego "po akapitach" czasem łączy kilka akapitów w jeden kawałek?

Bo Twoje akapity są **krótsze niż ustawiona długość kawałka**. Algorytm wkłada akapit za akapitem dopóki nie zbierze ustawionej liczby tokenów, wtedy *„domyka"* kawałek. Przykład: akapity po 50 tokenów, długość kawałka 300 → 6 akapitów ląduje razem. **To dobrze**, lepiej mieć kilka spójnych dłuższych kawałków niż wiele krótkich, słabo czytelnych dla bota.

Chunker tekstu dla RAG - darmowy

Zobacz, jak bot pokroi Twój dokument na kawałki

Chcesz, żeby bot odpowiadał na pytania na podstawie Twoich plików (instrukcji, FAQ, regulaminu, książki)? Bot nie czyta całego dokumentu naraz. Najpierw musisz pociąć go na kawałki (po angielsku: chunks), a bot przeszukuje te kawałki jeden po drugim.

To narzędzie pokazuje na własne oczy, jak wygląda taki podział. Wklejasz tekst, wybierasz sposób cięcia, widzisz kolorowe kawałki. Każdy w innym kolorze, każdy z liczbą tokenów (czyli *„kawałków słów"*, którymi mierzy się długość).

Pięć sposobów cięcia: mądry (próbuje nie rozbijać akapitów ani zdań, domyślnie najlepszy), po akapitach, po zdaniach, na równe kawałki po N tokenów, na równe kawałki po N znaków. Każdy daje inny efekt, tu zobaczysz, który pasuje do Twojego tekstu.

Jak używać

Wklej długi tekst w pole. Może być artykuł, regulamin, fragment książki, notatki ze spotkania.
Wybierz sposób cięcia. Jeśli nie wiesz, który, zostaw „mądry" (to jest dobry domyślny wybór dla większości tekstów).
Suwakiem ustaw długość kawałka w tokenach. Sensowny zakres to 150-300, jeden kawałek mieści wtedy mniej-więcej jedną myśl.
Suwakiem „powtórka na granicy" ustaw, ile zdań ma się powtórzyć między sąsiednimi kawałkami. To pomaga, gdy ważna informacja wypadła akurat na styku dwóch kawałków. Typowo 10-20% długości kawałka.
Wybierz model (GPT, Claude, Gemini). Każdy liczy tokeny inaczej, więc liczby będą się różnić.
Pod spodem zobaczysz pokolorowane kawałki. Każdy w innym kolorze, z liczbą tokenów i miejscem w tekście.
W panelu statystyk zobaczysz: ile wyszło kawałków, najkrótszy / średni / najdłuższy, łącznie tokenów i ile dodatkowych tokenów dorobiła powtórka na granicy.

Kiedy się przydaje

Sześć typowych sytuacji, w których wizualizacja cięcia daje Ci konkretną odpowiedź zamiast zgadywania:

Budujesz bota do dokumentów firmy. Masz 200 PDF-ów regulaminów. Wklejasz jeden przykładowy dokument, klikasz po kolei trzy sposoby cięcia, widzisz, który najlepiej trzyma sens. Decyzja podjęta w 5 minut zamiast czytania dokumentacji przez godzinę.
Bot nie znajduje odpowiedzi, choć w dokumencie ona JEST. To bardzo częsty problem. Wklej dokument, w którym wiesz, że odpowiedź jest. Sprawdź, czy ten kawałek jest w jednym kolorze (cały, spójny), czy może został rozcięty na pół między dwa sąsiednie. Jeśli rozcięty, zwiększ długość kawałka albo włącz powtórkę na granicy.
**Tłumaczysz koledze, *„co to chunking"***. Wklej cokolwiek, pokaż na ekranie. Pięć minut wizualnego wyjaśnienia robi więcej niż godzina suchej teorii.
Szacujesz koszt. Bot, który zna Twoje dokumenty, kosztuje za każdy token. Tu widzisz, ile dokładnie tokenów zrobi się z Twojego tekstu po cięciu (z powtórką lub bez). Mnożysz przez stawkę usługi i masz konkretną kwotę.
Wybierasz między GPT, Claude i Gemini. Każdy ma inny limit, ile zmieści naraz w pytaniu. Tu sprawdzisz, ile Twoich kawałków wejdzie do jednego pytania w każdym z nich. Gemini z dużym limitem zmieści ich nawet 30, GPT może zmieścić 5-10.
Testujesz różne długości kawałka (150 vs 300 vs 500 tokenów). Małe kawałki = bot widzi mniej tła i częściej się myli. Duże = jeden kawałek wpada do wielu odpowiedzi i je rozmywa. Wizualizacja pokazuje, gdzie jest złoty środek dla Twoich danych.

Pytania i odpowiedzi

Chunk to kawałek tekstu, na który tniemy długi dokument przed wrzuceniem go do bota. Bot nie czyta całej książki naraz, szuka najlepiej pasującego kawałka do Twojego pytania i tylko ten kawałek pokazuje sobie do wnioskowania. Dlatego cięcie ma znaczenie: jeśli odpowiedź wpadnie cała w jeden kawałek, bot ją znajdzie. Jeśli zostanie rozcięta na dwa, może jej w ogóle nie znaleźć.

Zobacz, jak bot pokroi Twój dokument na kawałki

Jak używać

Wklej długi tekst w pole. Może być artykuł, regulamin, fragment książki, notatki ze spotkania.

Wybierz sposób cięcia. Jeśli nie wiesz, który, zostaw „mądry" (to jest dobry domyślny wybór dla większości tekstów).

Suwakiem ustaw długość kawałka w tokenach. Sensowny zakres to 150-300, jeden kawałek mieści wtedy mniej-więcej jedną myśl.

Suwakiem „powtórka na granicy" ustaw, ile zdań ma się powtórzyć między sąsiednimi kawałkami. To pomaga, gdy ważna informacja wypadła akurat na styku dwóch kawałków. Typowo 10-20% długości kawałka.

Wybierz model (GPT, Claude, Gemini). Każdy liczy tokeny inaczej, więc liczby będą się różnić.

Pod spodem zobaczysz pokolorowane kawałki. Każdy w innym kolorze, z liczbą tokenów i miejscem w tekście.

W panelu statystyk zobaczysz: ile wyszło kawałków, najkrótszy / średni / najdłuższy, łącznie tokenów i ile dodatkowych tokenów dorobiła powtórka na granicy.

Kiedy się przydaje

Sześć typowych sytuacji, w których wizualizacja cięcia daje Ci konkretną odpowiedź zamiast zgadywania:

Budujesz bota do dokumentów firmy. Masz 200 PDF-ów regulaminów. Wklejasz jeden przykładowy dokument, klikasz po kolei trzy sposoby cięcia, widzisz, który najlepiej trzyma sens. Decyzja podjęta w 5 minut zamiast czytania dokumentacji przez godzinę.
Bot nie znajduje odpowiedzi, choć w dokumencie ona JEST. To bardzo częsty problem. Wklej dokument, w którym wiesz, że odpowiedź jest. Sprawdź, czy ten kawałek jest w jednym kolorze (cały, spójny), czy może został rozcięty na pół między dwa sąsiednie. Jeśli rozcięty, zwiększ długość kawałka albo włącz powtórkę na granicy.
**Tłumaczysz koledze, *„co to chunking"***. Wklej cokolwiek, pokaż na ekranie. Pięć minut wizualnego wyjaśnienia robi więcej niż godzina suchej teorii.
Szacujesz koszt. Bot, który zna Twoje dokumenty, kosztuje za każdy token. Tu widzisz, ile dokładnie tokenów zrobi się z Twojego tekstu po cięciu (z powtórką lub bez). Mnożysz przez stawkę usługi i masz konkretną kwotę.
Wybierasz między GPT, Claude i Gemini. Każdy ma inny limit, ile zmieści naraz w pytaniu. Tu sprawdzisz, ile Twoich kawałków wejdzie do jednego pytania w każdym z nich. Gemini z dużym limitem zmieści ich nawet 30, GPT może zmieścić 5-10.
Testujesz różne długości kawałka (150 vs 300 vs 500 tokenów). Małe kawałki = bot widzi mniej tła i częściej się myli. Duże = jeden kawałek wpada do wielu odpowiedzi i je rozmywa. Wizualizacja pokazuje, gdzie jest złoty środek dla Twoich danych.

Pytania i odpowiedzi

Chunker tekstu dla RAG

Zobacz, jak bot pokroi Twój dokument na kawałki

Jak używać

Kiedy się przydaje

Pytania i odpowiedzi

Powiązane narzędzia

Kalkulator kosztu embeddingów

Licznik tokenów LLM

Kalkulator kosztów LLM

Chunker tekstu dla RAG

Zobacz, jak bot pokroi Twój dokument na kawałki

Jak używać

Kiedy się przydaje

Pytania i odpowiedzi

Powiązane narzędzia

Kalkulator kosztu embeddingów

Licznik tokenów LLM

Kalkulator kosztów LLM