Zobacz, jak bot pokroi Twój dokument na kawałki
Chcesz, żeby bot odpowiadał na pytania na podstawie Twoich plików (instrukcji, FAQ, regulaminu, książki)? Bot nie czyta całego dokumentu naraz. Najpierw musisz pociąć go na kawałki (po angielsku: chunks), a bot przeszukuje te kawałki jeden po drugim.
To narzędzie pokazuje na własne oczy, jak wygląda taki podział. Wklejasz tekst, wybierasz sposób cięcia, widzisz kolorowe kawałki. Każdy w innym kolorze, każdy z liczbą tokenów (czyli *„kawałków słów"*, którymi mierzy się długość).
Pięć sposobów cięcia: mądry (próbuje nie rozbijać akapitów ani zdań, domyślnie najlepszy), po akapitach, po zdaniach, na równe kawałki po N tokenów, na równe kawałki po N znaków. Każdy daje inny efekt, tu zobaczysz, który pasuje do Twojego tekstu.
Jak używać
- Wklej długi tekst w pole. Może być artykuł, regulamin, fragment książki, notatki ze spotkania.
- Wybierz sposób cięcia. Jeśli nie wiesz, który, zostaw „mądry" (to jest dobry domyślny wybór dla większości tekstów).
- Suwakiem ustaw długość kawałka w tokenach. Sensowny zakres to 150-300, jeden kawałek mieści wtedy mniej-więcej jedną myśl.
- Suwakiem „powtórka na granicy" ustaw, ile zdań ma się powtórzyć między sąsiednimi kawałkami. To pomaga, gdy ważna informacja wypadła akurat na styku dwóch kawałków. Typowo 10-20% długości kawałka.
- Wybierz model (GPT, Claude, Gemini). Każdy liczy tokeny inaczej, więc liczby będą się różnić.
- Pod spodem zobaczysz pokolorowane kawałki. Każdy w innym kolorze, z liczbą tokenów i miejscem w tekście.
- W panelu statystyk zobaczysz: ile wyszło kawałków, najkrótszy / średni / najdłuższy, łącznie tokenów i ile dodatkowych tokenów dorobiła powtórka na granicy.
Kiedy się przydaje
Sześć typowych sytuacji, w których wizualizacja cięcia daje Ci konkretną odpowiedź zamiast zgadywania:
- Budujesz bota do dokumentów firmy. Masz 200 PDF-ów regulaminów. Wklejasz jeden przykładowy dokument, klikasz po kolei trzy sposoby cięcia, widzisz, który najlepiej trzyma sens. Decyzja podjęta w 5 minut zamiast czytania dokumentacji przez godzinę.
- Bot nie znajduje odpowiedzi, choć w dokumencie ona JEST. To bardzo częsty problem. Wklej dokument, w którym wiesz, że odpowiedź jest. Sprawdź, czy ten kawałek jest w jednym kolorze (cały, spójny), czy może został rozcięty na pół między dwa sąsiednie. Jeśli rozcięty, zwiększ długość kawałka albo włącz powtórkę na granicy.
- **Tłumaczysz koledze, *„co to chunking"***. Wklej cokolwiek, pokaż na ekranie. Pięć minut wizualnego wyjaśnienia robi więcej niż godzina suchej teorii.
- Szacujesz koszt. Bot, który zna Twoje dokumenty, kosztuje za każdy token. Tu widzisz, ile dokładnie tokenów zrobi się z Twojego tekstu po cięciu (z powtórką lub bez). Mnożysz przez stawkę usługi i masz konkretną kwotę.
- Wybierasz między GPT, Claude i Gemini. Każdy ma inny limit, ile zmieści naraz w pytaniu. Tu sprawdzisz, ile Twoich kawałków wejdzie do jednego pytania w każdym z nich. Gemini z dużym limitem zmieści ich nawet 30, GPT może zmieścić 5-10.
- Testujesz różne długości kawałka (150 vs 300 vs 500 tokenów). Małe kawałki = bot widzi mniej tła i częściej się myli. Duże = jeden kawałek wpada do wielu odpowiedzi i je rozmywa. Wizualizacja pokazuje, gdzie jest złoty środek dla Twoich danych.