Comment diviser des documents pour l'AI ?

Par défaut, prends la coupe **smart** (aussi appelée récursive). Elle essaie de couper **par paragraphe d'abord**, si un paragraphe est trop long, **par phrase**, si une phrase est encore trop longue, par mot. Ça préserve le mieux le sens. L'outil populaire LangChain utilise cette approche et la plupart des setups RAG prêts à l'emploi la suivent. Couper **par paragraphe** marche bien pour les docs techniques et les livres. **Par phrase** : pour les chats et les courtes descriptions. **Morceaux égaux** : rapide mais casse le sens, seulement en dernier recours.

C'est quoi la « répétition à la frontière » (overlap) et en ai-je besoin ?

Imagine que tu coupes un document sur trois pages. Une phrase importante tombe **pile sur la couture** entre pages 1 et 2, la moitié est ici, la moitié là. Quand le bot cherche la réponse, il choisit soit la page 1 soit la page 2, mais **aucune ne contient la phrase complète**. Une répétition aux frontières veut dire : **la queue de la page 1 apparaît aussi au début de la page 2**. Maintenant la phrase complète est sur les deux. Réglage typique : **10-20 %** de la longueur du morceau. Trade-off : un peu plus de tokens à payer.

Pourquoi le bot ne trouve pas une réponse qui EST dans le document ?

Raisons courantes : - **(1) la réponse s'est fait couper** entre deux morceaux, colle le document ici et vérifie visuellement. - **(2) les morceaux sont trop petits** donc la réponse manque de contexte (*« clique ici »*, où ?). Augmente la longueur des morceaux. - **(3) les morceaux sont trop gros** et la réponse se noie dans le bruit. Réduis-les. - **(4) les coupes basées sur les caractères** cassent les mots en plein milieu d'une lettre. Passe à *« smart »* ou *« par phrase »*. Cet outil montre tous ces problèmes sur **un seul écran**.

Quelle est la meilleure longueur de morceau ?

Ça dépend du document. **150-300 tokens** est un bon point de départ pour la plupart des cas, un morceau contient une pensée. Pour un usage typique : - **FAQ** (Q&R courtes) : **100-200** tokens. - **articles et manuels** : **300-500**. - **code** : une fonction comme un morceau (typiquement **200-500**). Règle : un morceau devrait contenir **une pensée complète**. Trop petit : le contexte est perdu. Trop gros : le sens se dilue. Ici tu peux tester différents réglages sans écrire la moindre ligne de code.

C'est quoi LangChain et pourquoi tout le monde l'utilise ?

LangChain est un **outil de développeur populaire** qui gère beaucoup du sale boulot pour toi : lire des fichiers, les couper en morceaux, se connecter à des bases de données et au bot. Leur algorithme de **coupe smart** est devenu un standard de fait, la plupart des projets RAG utilisent exactement cette approche. L'option **« smart »** dans cet outil fait la même chose que LangChain. Donc tu peux **tester le résultat** avant d'écrire une seule ligne de code.

Puis-je utiliser ça pour des livres ou de longs PDF ?

Oui, mais **colle un fragment**, pas tout le truc, le navigateur va s'étouffer sur 500 pages d'un coup. Recommandé : prends **un chapitre** ou **une dizaine de pages typiques**, teste les réglages ici, puis applique le même setup programmatiquement au livre complet. Pour les **longs livres**, le setup typique c'est 300-500 tokens par morceau avec une répétition de 10 %. Pour les **PDF techniques** (tableaux, listes) : les coupes par paragraphe marchent souvent mieux.

Pourquoi différents modèles (GPT vs Claude vs Gemini) affichent des comptes de tokens différents ?

Parce que **chaque boîte a son propre dictionnaire de tokens**. Le mot *« documentation »* peut faire 3 tokens pour GPT et 5 pour Claude. Pour le texte non anglais, **Claude et Gemini comptent généralement plus de tokens que GPT**. Ce n'est pas un bug, c'est la différence entre services. En pratique : si tu prévois de **chercher dans des documents** via OpenAI mais de **répondre** avec Claude, **les deux comptent** : recherche par les chiffres OpenAI, budget de requête par les chiffres Claude. Tu peux changer ici et vérifier les deux.

Que veut dire « + X% en plus » dans les stats ?

Combien de **tokens en plus** la répétition aux frontières a ajoutés par rapport au texte original. **0 %** = les morceaux s'additionnent parfaitement au original (pas de répétition). **+10-20 %** = répétition standard. Ce supplément **te coûte** : chaque 1 % c'est 1 % de plus à payer pour *« enseigner »* le bot et 1 % de plus de stockage en base. Donc ne dépasse pas la répétition à 20 %.

Pourquoi « par paragraphe » fusionne parfois plusieurs paragraphes en un morceau ?

Parce que tes paragraphes sont **plus courts que la longueur de morceau que tu as réglée**. L'algorithme continue d'ajouter des paragraphes jusqu'à atteindre la longueur cible, puis *« ferme »* le morceau. Exemple : paragraphes de 50 tokens chacun, longueur de morceau 300 → 6 paragraphes finissent ensemble. **C'est une bonne chose**, mieux quelques morceaux plus longs et cohérents que beaucoup de courts que le bot peine à lire.

Chunker RAG - gratuit | YourDevTools

Vois comment un bot découperait ton document en morceaux

Tu veux un bot qui répond aux questions à partir de tes fichiers (manuels, FAQ, conditions, un livre) ? Le bot ne lit pas tout le document d'un coup. Il faut d'abord le couper en morceaux (appelés chunks), et le bot cherche ces morceaux un à la fois.

Cet outil te montre avec tes propres yeux à quoi ressemble ce découpage. Colle un texte, choisis une façon de couper, et vois des morceaux colorés. Chacun dans une couleur différente, chacun avec un compte de tokens (un *« token »* est en gros un morceau de mot, utilisé pour mesurer la longueur).

Cinq façons de couper : smart (essaie de ne pas casser les paragraphes ou phrases, le meilleur défaut), par paragraphe, par phrase, en morceaux égaux de N tokens, en morceaux égaux de N caractères. Chacune donne un résultat différent, ici tu verras laquelle convient à ton texte.

Comment l'utiliser

Colle un long texte dans le champ. Un article, des conditions d'utilisation, un chapitre de livre, des notes de réunion, n'importe quoi.
Choisis une façon de couper. Si tu ne sais pas, laisse « smart » (un défaut solide pour la plupart des textes).
Utilise le curseur pour régler la longueur des morceaux en tokens. Une plage raisonnable est 150-300, un morceau contient grosso modo une pensée.
Utilise le curseur « répétition à la frontière » pour régler combien de phrases devraient se chevaucher entre morceaux voisins. Ça aide quand une phrase importante tombe pile sur la ligne de coupe. Typiquement 10-20 % de la longueur du morceau.
Choisis un modèle (GPT, Claude, Gemini). Chacun compte les tokens différemment, donc les chiffres seront différents.
En dessous, tu verras des morceaux colorés. Chacun dans une couleur différente, avec un compte de tokens et la position dans le texte.
Le panneau de stats affiche : combien de morceaux, le plus court / moyen / le plus long, total de tokens, et combien de tokens en plus la répétition aux frontières a ajoutés.

Quand c'est utile

Six situations typiques où cette visualisation donne une réponse concrète au lieu d'une devinette :

Construire un bot pour les documents d'entreprise. Tu as 200 manuels PDF. Colle un doc d'exemple, clique trois façons de couper, vois laquelle préserve le mieux le sens. Décision en 5 minutes au lieu d'une heure à lire des docs.
Le bot ne trouve pas la réponse, alors qu'elle EST dans le document. Problème très courant. Colle le doc où tu sais que la réponse est. Vérifie si cette partie est dans une couleur (entière, cohérente), ou si elle s'est fait couper en deux entre deux morceaux. Si coupée, augmente la longueur des morceaux ou active la répétition aux frontières.
**Expliquer *« c'est quoi le chunking »* à un coéquipier**. Colle n'importe quoi, montre à l'écran. Cinq minutes d'explication visuelle battent une heure de théorie sèche.
Estimer le coût. Un bot qui connaît tes documents facture par token. Ici tu vois exactement combien de tokens ton texte devient après découpage (avec ou sans chevauchement). Multiplie par le tarif du service et tu as un chiffre concret.
Choisir entre GPT, Claude et Gemini. Chacun a une limite différente sur ce qui rentre dans une requête. Ici tu vérifies combien de tes morceaux peuvent rentrer en une requête dans chacun. La grande fenêtre de Gemini contient peut-être 30 morceaux, GPT peut en contenir 5-10.
Tester différentes longueurs de morceaux (150 vs 300 vs 500 tokens). Petits morceaux = le bot voit moins de contexte et se trompe plus souvent. Gros morceaux = chacun se noie dans du superflu. La visualisation montre où se trouve le sweet spot pour tes données.

Questions et réponses

Un chunk est un morceau de texte dans lequel on coupe un long document avant de le donner au bot. Le bot ne lit pas tout le livre d'un coup, il trouve le morceau qui correspond le mieux à ta question et ne regarde que ce morceau quand il répond. Donc la façon de couper compte : si la réponse tient dans un morceau, le bot la trouve. Si elle se fait couper entre deux morceaux, le bot peut complètement la rater.

Vois comment un bot découperait ton document en morceaux

Comment l'utiliser

Colle un long texte dans le champ. Un article, des conditions d'utilisation, un chapitre de livre, des notes de réunion, n'importe quoi.

Choisis une façon de couper. Si tu ne sais pas, laisse « smart » (un défaut solide pour la plupart des textes).

Utilise le curseur pour régler la longueur des morceaux en tokens. Une plage raisonnable est 150-300, un morceau contient grosso modo une pensée.

Utilise le curseur « répétition à la frontière » pour régler combien de phrases devraient se chevaucher entre morceaux voisins. Ça aide quand une phrase importante tombe pile sur la ligne de coupe. Typiquement 10-20 % de la longueur du morceau.

Choisis un modèle (GPT, Claude, Gemini). Chacun compte les tokens différemment, donc les chiffres seront différents.

En dessous, tu verras des morceaux colorés. Chacun dans une couleur différente, avec un compte de tokens et la position dans le texte.

Le panneau de stats affiche : combien de morceaux, le plus court / moyen / le plus long, total de tokens, et combien de tokens en plus la répétition aux frontières a ajoutés.

Quand c'est utile

Six situations typiques où cette visualisation donne une réponse concrète au lieu d'une devinette :

Construire un bot pour les documents d'entreprise. Tu as 200 manuels PDF. Colle un doc d'exemple, clique trois façons de couper, vois laquelle préserve le mieux le sens. Décision en 5 minutes au lieu d'une heure à lire des docs.
Le bot ne trouve pas la réponse, alors qu'elle EST dans le document. Problème très courant. Colle le doc où tu sais que la réponse est. Vérifie si cette partie est dans une couleur (entière, cohérente), ou si elle s'est fait couper en deux entre deux morceaux. Si coupée, augmente la longueur des morceaux ou active la répétition aux frontières.
**Expliquer *« c'est quoi le chunking »* à un coéquipier**. Colle n'importe quoi, montre à l'écran. Cinq minutes d'explication visuelle battent une heure de théorie sèche.
Estimer le coût. Un bot qui connaît tes documents facture par token. Ici tu vois exactement combien de tokens ton texte devient après découpage (avec ou sans chevauchement). Multiplie par le tarif du service et tu as un chiffre concret.
Choisir entre GPT, Claude et Gemini. Chacun a une limite différente sur ce qui rentre dans une requête. Ici tu vérifies combien de tes morceaux peuvent rentrer en une requête dans chacun. La grande fenêtre de Gemini contient peut-être 30 morceaux, GPT peut en contenir 5-10.
Tester différentes longueurs de morceaux (150 vs 300 vs 500 tokens). Petits morceaux = le bot voit moins de contexte et se trompe plus souvent. Gros morceaux = chacun se noie dans du superflu. La visualisation montre où se trouve le sweet spot pour tes données.

Questions et réponses

Chunker RAG

Vois comment un bot découperait ton document en morceaux

Comment l'utiliser

Quand c'est utile

Questions et réponses

Outils similaires

Coût embeddings LLM

Compteur de tokens LLM

Calculateur coût LLM

Chunker RAG

Vois comment un bot découperait ton document en morceaux

Comment l'utiliser

Quand c'est utile

Questions et réponses

Outils similaires

Coût embeddings LLM

Compteur de tokens LLM

Calculateur coût LLM