Wie teile ich Dokumente für KI?

Standardmäßig die **smart**-Schneideart (auch rekursiv genannt). Sie versucht zuerst **nach Absatz** zu schneiden, wenn ein Absatz zu lang ist, **nach Satz**, wenn ein Satz noch zu lang ist, nach Wort. Das erhält Bedeutung am besten. Das beliebte Tool LangChain nutzt diesen Ansatz und die meisten Out-of-the-Box-RAG-Setups folgen ihm. Schneiden **nach Absatz** funktioniert gut für technische Doku und Bücher. **Nach Satz**: für Chats und Kurzbeschreibungen. **Gleiche Stücke**: schnell, aber bricht Bedeutung, nur als letzter Ausweg.

Was ist "Grenz-Wiederholung" (Overlap) und brauche ich sie?

Stell dir vor, ein Dokument auf drei Seiten zu schneiden. Ein wichtiger Satz fällt **genau auf die Naht** zwischen Seite 1 und 2, halb hier, halb dort. Wenn der Bot die Antwort sucht, wählt er entweder Seite 1 oder Seite 2, aber **keine enthält den ganzen Satz**. Eine Grenz-Wiederholung heißt: **das Ende von Seite 1 erscheint auch am Anfang von Seite 2**. Jetzt ist der ganze Satz auf beiden. Typische Einstellung: **10-20 %** der Stücklänge. Trade-off: ein paar mehr Token zu bezahlen.

Warum findet der Bot keine Antwort, die IM Dokument ist?

Häufige Gründe: - **(1) die Antwort wurde zwischen zwei Stücken zerschnitten**, paste das Dokument hier und prüf visuell. - **(2) Stücke sind zu klein**, der Antwort fehlt Kontext (*"klick hier"*, wo?). Erhöh die Stücklänge. - **(3) Stücke sind zu groß**, die Antwort ertrinkt im Lärm. Verkleinere sie. - **(4) zeichenbasierte Schnitte** brechen Wörter mitten im Buchstaben. Wechsle zu *"smart"* oder *"nach Satz"*. Dieses Tool zeigt all diese Probleme auf **einem Bildschirm**.

Welche Stücklänge ist die beste?

Hängt vom Dokument ab. **150-300 Token** ist ein guter Startpunkt für die meisten Fälle, ein Stück fasst einen Gedanken. Für typische Nutzung: - **FAQs** (kurze Q&A): **100-200** Token. - **Artikel und Handbücher**: **300-500**. - **Code**: eine Funktion als ein Stück (typisch **200-500**). Regel: ein Stück sollte **einen vollständigen Gedanken** fassen. Zu klein: Kontext geht verloren. Zu groß: Bedeutung verwässert. Hier kannst du verschiedene Einstellungen ohne Code testen.

Was ist LangChain und warum nutzt es jeder?

LangChain ist ein **beliebtes Entwickler-Tool**, das viel Drecksarbeit für dich erledigt: Dateien lesen, in Stücke schneiden, Verbindung zu Datenbanken und zum Bot. Ihr **smart-Schneidealgorithmus** ist de-facto-Standard geworden, die meisten RAG-Projekte nutzen genau diesen Ansatz. Die **"smart"**-Option in diesem Tool macht dasselbe wie LangChain. So kannst du **das Ergebnis testen**, bevor du eine Zeile Code schreibst.

Kann ich das für Bücher oder lange PDFs nutzen?

Ja, aber **paste ein Fragment**, nicht das Ganze, der Browser wird bei 500 Seiten auf einmal ersticken. Empfohlen: nimm **ein Kapitel** oder **ein Dutzend typische Seiten**, test Einstellungen hier, wend dann denselben Setup programmatisch auf das ganze Buch an. Für **lange Bücher** ist das typische Setup 300-500 Token pro Stück mit 10 % Wiederholung. Für **technische PDFs** (Tabellen, Listen): Absatz-Schnitte funktionieren oft besser.

Warum zeigen verschiedene Modelle (GPT vs. Claude vs. Gemini) unterschiedliche Token-Zahlen?

Weil **jede Firma ihr eigenes Token-Wörterbuch** hat. Das Wort *"documentation"* können bei GPT 3 Token sein und bei Claude 5. Für nicht-englischen Text zählen **Claude und Gemini meist mehr Token als GPT**. Das ist kein Bug, das ist der Unterschied zwischen Services. Praktisch: wenn du **Dokumente über OpenAI durchsuchen** willst, aber **mit Claude antworten** willst, **beide zählen**: Suche mit OpenAI-Zahlen, Anfrage-Budget mit Claude-Zahlen. Du kannst hier wechseln und beide prüfen.

Was heißt "+ X % extra" in den Stats?

Wie viele **zusätzliche Token** die Grenz-Wiederholung gegenüber dem Originaltext hinzugefügt hat. **0 %** = Stücke summieren sich perfekt zum Original (keine Wiederholung). **+10-20 %** = Standard-Wiederholung. Dieses Extra **kostet dich**: jedes 1 % sind 1 % mehr zu zahlen für das *"Einlernen"* des Bots und 1 % mehr Speicher in der Datenbank. Übertreib die Wiederholung also nicht über 20 % hinaus.

Warum verschmilzt "nach Absatz" manchmal mehrere Absätze in ein Stück?

Weil deine Absätze **kürzer sind als die eingestellte Stücklänge**. Der Algorithmus fügt Absätze hinzu, bis er die Ziellänge erreicht hat, dann *"schließt"* er das Stück. Beispiel: Absätze mit je 50 Token, Stücklänge 300 → 6 Absätze landen zusammen. **Das ist gut**, lieber ein paar zusammenhängende längere Stücke als viele kurze, die der Bot kaum lesen kann.

RAG-Text-Chunker - kostenlos

Sieh, wie ein Modell dein Dokument in Stücke schneidet

Willst du einen Bot, der Fragen auf Basis deiner Dateien beantwortet (Handbücher, FAQs, AGB, ein Buch)? Das Modell liest das ganze Dokument nicht auf einmal. Zuerst musst du es in Stücke schneiden (Chunks genannt), und das Modell durchsucht diese Stücke einzeln.

Dieses Tool zeigt dir mit eigenen Augen, wie diese Aufteilung aussieht. Paste einen Text, wähl eine Schneideart und sieh farbige Stücke. Jedes in einer anderen Farbe, jedes mit einer Token-Zahl (ein *"Token"* ist grob ein Wort-Stück, zum Messen der Länge).

Fünf Schneidearten: smart (versucht, Absätze oder Sätze nicht zu brechen, der beste Standard), nach Absatz, nach Satz, in gleiche Stücke von N Token, in gleiche Stücke von N Zeichen. Jede liefert ein anderes Ergebnis, hier siehst du, welche zu deinem Text passt.

So nutzt du den Visualizer

Paste einen langen Text ins Feld. Einen Artikel, AGB, ein Buchkapitel, Meeting-Notizen, alles.
Wähl eine Schneideart. Wenn du nicht weißt, welche, lass "smart" (ein solider Standard für die meisten Texte).
Mit dem Regler stell die Stücklänge in Token ein. Ein sinnvoller Bereich ist 150-300, ein Stück fasst etwa einen Gedanken.
Mit dem "Wiederholung an der Grenze"-Regler stell ein, wie viele Sätze sich zwischen benachbarten Stücken überlappen sollen. Hilft, wenn ein wichtiger Satz genau auf der Schnittlinie liegt. Typisch 10-20 % der Stücklänge.
Wähl ein Modell (GPT, Claude, Gemini). Jedes zählt Token anders, die Zahlen unterscheiden sich.
Darunter siehst du farbige Stücke. Jedes in einer anderen Farbe, mit einer Token-Zahl und Position im Text.
Das Stats-Panel zeigt: wie viele Stücke, kürzestes / durchschnittliches / längstes, Gesamt-Token und wie viele zusätzliche Token die Grenz-Wiederholung hinzugefügt hat.

Wann das nützlich ist

Sechs typische Situationen, in denen diese Visualisierung eine konkrete Antwort statt einer Schätzung liefert:

Einen Bot für Firmendokumente bauen. Du hast 200 PDF-Handbücher. Paste ein Sample-Doc, klick durch drei Schneidearten, sieh, welche die Bedeutung am besten erhält. Entscheidung in 5 Minuten statt einer Stunde Doku lesen.
Der Bot findet die Antwort nicht, obwohl sie IM Dokument ist. Ein sehr verbreitetes Problem. Paste das Doc, von dem du weißt, dass die Antwort drin ist. Prüf, ob dieser Teil in einer Farbe ist (ganz, zusammenhängend) oder ob er in zwei Stücke zerteilt wurde. Wenn zerteilt, erhöh die Stücklänge oder schalt die Grenz-Wiederholung an.
**Einem Teammitglied erklären, *"was Chunking ist"***. Paste irgendetwas, zeig auf dem Bildschirm. Fünf Minuten visuelle Erklärung schlagen eine Stunde trockene Theorie.
Kosten abschätzen. Ein Bot, der deine Dokumente kennt, berechnet pro Token. Hier siehst du genau, wie viele Token dein Text nach dem Schneiden wird (mit oder ohne Überlappung). Multiplizier mit dem Service-Tarif und du hast eine konkrete Zahl.
Zwischen GPT, Claude und Gemini wählen. Jedes hat ein anderes Limit, wie viel in eine Anfrage passt. Hier prüfst du, wie viele deiner Stücke in eine Anfrage in jedem passen. Geminis großes Fenster fasst vielleicht 30 Stücke, GPT vielleicht 5-10.
Verschiedene Stücklängen testen (150 vs. 300 vs. 500 Token). Kleine Stücke = der Bot sieht weniger Kontext und macht öfter Fehler. Große Stücke = jedes ertrinkt in Irrelevantem. Die Visualisierung zeigt, wo der Sweet Spot für deine Daten liegt.

Fragen und Antworten

Ein Chunk ist ein Textstück, in das wir ein langes Dokument schneiden, bevor wir es dem Bot füttern. Der Bot liest das ganze Buch nicht auf einmal, er findet das bestpassende Stück für deine Frage und schaut nur dieses Stück an, wenn er antwortet. Wie du schneidest, zählt also: wenn die Antwort in einem Stück Platz hat, findet sie der Bot. Wenn sie zwischen zwei Stücken zerschnitten wird, kann der Bot sie komplett verpassen.

Sieh, wie ein Modell dein Dokument in Stücke schneidet

So nutzt du den Visualizer

Paste einen langen Text ins Feld. Einen Artikel, AGB, ein Buchkapitel, Meeting-Notizen, alles.

Wähl eine Schneideart. Wenn du nicht weißt, welche, lass "smart" (ein solider Standard für die meisten Texte).

Mit dem Regler stell die Stücklänge in Token ein. Ein sinnvoller Bereich ist 150-300, ein Stück fasst etwa einen Gedanken.

Mit dem "Wiederholung an der Grenze"-Regler stell ein, wie viele Sätze sich zwischen benachbarten Stücken überlappen sollen. Hilft, wenn ein wichtiger Satz genau auf der Schnittlinie liegt. Typisch 10-20 % der Stücklänge.

Wähl ein Modell (GPT, Claude, Gemini). Jedes zählt Token anders, die Zahlen unterscheiden sich.

Darunter siehst du farbige Stücke. Jedes in einer anderen Farbe, mit einer Token-Zahl und Position im Text.

Das Stats-Panel zeigt: wie viele Stücke, kürzestes / durchschnittliches / längstes, Gesamt-Token und wie viele zusätzliche Token die Grenz-Wiederholung hinzugefügt hat.

Wann das nützlich ist

Sechs typische Situationen, in denen diese Visualisierung eine konkrete Antwort statt einer Schätzung liefert:

Einen Bot für Firmendokumente bauen. Du hast 200 PDF-Handbücher. Paste ein Sample-Doc, klick durch drei Schneidearten, sieh, welche die Bedeutung am besten erhält. Entscheidung in 5 Minuten statt einer Stunde Doku lesen.
Der Bot findet die Antwort nicht, obwohl sie IM Dokument ist. Ein sehr verbreitetes Problem. Paste das Doc, von dem du weißt, dass die Antwort drin ist. Prüf, ob dieser Teil in einer Farbe ist (ganz, zusammenhängend) oder ob er in zwei Stücke zerteilt wurde. Wenn zerteilt, erhöh die Stücklänge oder schalt die Grenz-Wiederholung an.
**Einem Teammitglied erklären, *"was Chunking ist"***. Paste irgendetwas, zeig auf dem Bildschirm. Fünf Minuten visuelle Erklärung schlagen eine Stunde trockene Theorie.
Kosten abschätzen. Ein Bot, der deine Dokumente kennt, berechnet pro Token. Hier siehst du genau, wie viele Token dein Text nach dem Schneiden wird (mit oder ohne Überlappung). Multiplizier mit dem Service-Tarif und du hast eine konkrete Zahl.
Zwischen GPT, Claude und Gemini wählen. Jedes hat ein anderes Limit, wie viel in eine Anfrage passt. Hier prüfst du, wie viele deiner Stücke in eine Anfrage in jedem passen. Geminis großes Fenster fasst vielleicht 30 Stücke, GPT vielleicht 5-10.
Verschiedene Stücklängen testen (150 vs. 300 vs. 500 Token). Kleine Stücke = der Bot sieht weniger Kontext und macht öfter Fehler. Große Stücke = jedes ertrinkt in Irrelevantem. Die Visualisierung zeigt, wo der Sweet Spot für deine Daten liegt.

Fragen und Antworten

RAG-Text-Chunker

Sieh, wie ein Modell dein Dokument in Stücke schneidet

So nutzt du den Visualizer

Wann das nützlich ist

Fragen und Antworten

Passende Tools

Embedding-Kosten-Rechner

LLM-Token-Zähler

LLM-Kosten-Rechner

RAG-Text-Chunker

Sieh, wie ein Modell dein Dokument in Stücke schneidet

So nutzt du den Visualizer

Wann das nützlich ist

Fragen und Antworten

Passende Tools

Embedding-Kosten-Rechner

LLM-Token-Zähler

LLM-Kosten-Rechner