Vois comment un bot découperait ton document en morceaux
Tu veux un bot qui répond aux questions à partir de tes fichiers (manuels, FAQ, conditions, un livre) ? Le bot ne lit pas tout le document d'un coup. Il faut d'abord le couper en morceaux (appelés chunks), et le bot cherche ces morceaux un à la fois.
Cet outil te montre avec tes propres yeux à quoi ressemble ce découpage. Colle un texte, choisis une façon de couper, et vois des morceaux colorés. Chacun dans une couleur différente, chacun avec un compte de tokens (un *« token »* est en gros un morceau de mot, utilisé pour mesurer la longueur).
Cinq façons de couper : smart (essaie de ne pas casser les paragraphes ou phrases, le meilleur défaut), par paragraphe, par phrase, en morceaux égaux de N tokens, en morceaux égaux de N caractères. Chacune donne un résultat différent, ici tu verras laquelle convient à ton texte.
Comment l'utiliser
- Colle un long texte dans le champ. Un article, des conditions d'utilisation, un chapitre de livre, des notes de réunion, n'importe quoi.
- Choisis une façon de couper. Si tu ne sais pas, laisse « smart » (un défaut solide pour la plupart des textes).
- Utilise le curseur pour régler la longueur des morceaux en tokens. Une plage raisonnable est 150-300, un morceau contient grosso modo une pensée.
- Utilise le curseur « répétition à la frontière » pour régler combien de phrases devraient se chevaucher entre morceaux voisins. Ça aide quand une phrase importante tombe pile sur la ligne de coupe. Typiquement 10-20 % de la longueur du morceau.
- Choisis un modèle (GPT, Claude, Gemini). Chacun compte les tokens différemment, donc les chiffres seront différents.
- En dessous, tu verras des morceaux colorés. Chacun dans une couleur différente, avec un compte de tokens et la position dans le texte.
- Le panneau de stats affiche : combien de morceaux, le plus court / moyen / le plus long, total de tokens, et combien de tokens en plus la répétition aux frontières a ajoutés.
Quand c'est utile
Six situations typiques où cette visualisation donne une réponse concrète au lieu d'une devinette :
- Construire un bot pour les documents d'entreprise. Tu as 200 manuels PDF. Colle un doc d'exemple, clique trois façons de couper, vois laquelle préserve le mieux le sens. Décision en 5 minutes au lieu d'une heure à lire des docs.
- Le bot ne trouve pas la réponse, alors qu'elle EST dans le document. Problème très courant. Colle le doc où tu sais que la réponse est. Vérifie si cette partie est dans une couleur (entière, cohérente), ou si elle s'est fait couper en deux entre deux morceaux. Si coupée, augmente la longueur des morceaux ou active la répétition aux frontières.
- **Expliquer *« c'est quoi le chunking »* à un coéquipier**. Colle n'importe quoi, montre à l'écran. Cinq minutes d'explication visuelle battent une heure de théorie sèche.
- Estimer le coût. Un bot qui connaît tes documents facture par token. Ici tu vois exactement combien de tokens ton texte devient après découpage (avec ou sans chevauchement). Multiplie par le tarif du service et tu as un chiffre concret.
- Choisir entre GPT, Claude et Gemini. Chacun a une limite différente sur ce qui rentre dans une requête. Ici tu vérifies combien de tes morceaux peuvent rentrer en une requête dans chacun. La grande fenêtre de Gemini contient peut-être 30 morceaux, GPT peut en contenir 5-10.
- Tester différentes longueurs de morceaux (150 vs 300 vs 500 tokens). Petits morceaux = le bot voit moins de contexte et se trompe plus souvent. Gros morceaux = chacun se noie dans du superflu. La visualisation montre où se trouve le sweet spot pour tes données.