¿Cómo divido documentos para IA?

Por defecto, usa el corte **inteligente** (también llamado recursivo). Intenta cortar **primero por párrafo**; si un párrafo es demasiado largo, **por frase**; si una frase sigue siendo demasiado larga, por palabra. Eso conserva mejor el significado. La popular herramienta LangChain usa este enfoque y la mayoría de setups RAG ya hechos lo siguen. Cortar **por párrafo** funciona bien para docs técnicas y libros. **Por frase**: para chats y descripciones cortas. **Piezas iguales**: rápido pero rompe el significado, solo como último recurso.

¿Qué es "repetir en la frontera" (overlap) y lo necesito?

Imagina cortar un documento en tres páginas. Una frase importante cae **justo en la junta** entre la página 1 y la 2; media aquí, media allá. Cuando el bot busca la respuesta, elige o bien la página 1 o la 2, pero **ninguna contiene la frase completa**. Una repetición en la frontera significa: **la cola de la página 1 también aparece al principio de la página 2**. Ahora la frase completa está en ambas. Ajuste típico: **10-20%** de la longitud de pieza. Compromiso: algo más de tokens que pagar.

¿Por qué el bot no encuentra una respuesta que SÍ está en el documento?

Motivos comunes: - **(1) la respuesta quedó cortada** entre dos piezas, pega el documento aquí y compruébalo visualmente. - **(2) las piezas son demasiado pequeñas** y a la respuesta le falta contexto (*"pulsa aquí"*, ¿dónde?). Aumenta la longitud de pieza. - **(3) las piezas son demasiado grandes** y la respuesta se ahoga en ruido. Acórtalas. - **(4) los cortes por carácter** rompen palabras a media letra. Cambia a *"inteligente"* o *"por frase"*. Esta herramienta enseña todos esos problemas en **una sola pantalla**.

¿Cuál es la mejor longitud de pieza?

Depende del documento. **150-300 tokens** es un buen punto de partida para la mayoría de casos, una pieza alberga un pensamiento. Para uso típico: - **FAQs** (preguntas/respuestas cortas): **100-200** tokens. - **artículos y manuales**: **300-500**. - **código**: una función como una pieza (típicamente **200-500**). Regla: una pieza debe contener **un pensamiento completo**. Demasiado pequeña: se pierde contexto. Demasiado grande: el significado se diluye. Aquí puedes probar distintos ajustes sin escribir nada de código.

¿Qué es LangChain y por qué lo usa todo el mundo?

LangChain es una **herramienta popular para desarrolladores** que se encarga de mucho trabajo sucio por ti: leer archivos, cortarlos en piezas, conectar con bases de datos y con el bot. Su algoritmo de **corte inteligente** se ha convertido en un estándar de facto; la mayoría de proyectos RAG usan exactamente este enfoque. La opción **"inteligente"** de esta herramienta hace lo mismo que LangChain. Así puedes **probar el resultado** antes de escribir una sola línea de código.

¿Puedo usar esto para libros o PDFs largos?

Sí, pero **pega un fragmento**, no todo: el navegador se atragantará con 500 páginas a la vez. Recomendado: coge **un capítulo** o **una docena de páginas típicas**, prueba ajustes aquí y luego aplica el mismo setup programáticamente al libro entero. Para **libros largos** el setup típico es 300-500 tokens por pieza con un 10% de repetición. Para **PDFs técnicos** (tablas, listas): los cortes por párrafo suelen funcionar mejor.

¿Por qué distintos modelos (GPT vs Claude vs Gemini) muestran conteos de tokens distintos?

Porque **cada empresa tiene su propio diccionario de tokens**. La palabra *"documentation"* puede ser 3 tokens para GPT y 5 para Claude. Para texto no inglés, **Claude y Gemini suelen contar más tokens que GPT**. No es un bug, es la diferencia entre servicios. En la práctica: si planeas **buscar documentos** vía OpenAI pero **responder** con Claude, **ambos importan**: búsqueda según números de OpenAI, presupuesto de consulta según números de Claude. Aquí puedes cambiar y comprobar los dos.

¿Qué significa "+ X% extra" en las estadísticas?

Cuántos **tokens extra** ha añadido la repetición en la frontera frente al texto original. **0%** = las piezas suman exactamente el original (sin repetición). **+10-20%** = repetición estándar. Ese extra **te cuesta**: cada 1% es un 1% más que pagar por *"enseñarle"* al bot y un 1% más de almacenamiento en la base de datos. Así que no te pases del 20% de repetición.

¿Por qué "por párrafo" a veces junta varios párrafos en una sola pieza?

Porque tus párrafos son **más cortos que la longitud de pieza que has fijado**. El algoritmo va sumando párrafos hasta alcanzar la longitud objetivo y entonces *"cierra"* la pieza. Ejemplo: párrafos de 50 tokens cada uno, longitud de pieza 300 → 6 párrafos acaban juntos. **Es algo bueno**: mejor unas pocas piezas más largas y coherentes que muchas cortas que el bot apenas pueda leer.

Chunker de texto para RAG - gratis

Ve cómo un bot trocearía tu documento

¿Quieres un bot que responda a preguntas basado en tus archivos (manuales, FAQs, condiciones, un libro)? El bot no lee el documento entero de golpe. Primero hay que cortarlo en piezas (llamadas chunks), y el bot busca esas piezas de una en una.

Esta herramienta te muestra con tus propios ojos cómo se ve ese corte. Pega un texto, elige una forma de cortar y verás piezas de colores. Cada una de un color distinto, cada una con un conteo de tokens (un *"token"* es aproximadamente un trozo de palabra, se usa para medir longitud).

Cinco formas de cortar: inteligente (intenta no romper párrafos ni frases, el mejor por defecto), por párrafo, por frase, en piezas iguales de N tokens, en piezas iguales de N caracteres. Cada una da un resultado distinto; aquí verás cuál encaja con tu texto.

Cómo usarla

Pega un texto largo en el campo. Un artículo, condiciones de servicio, capítulo de libro, notas de reunión, lo que sea.
Elige una forma de cortar. Si no sabes cuál, deja "inteligente" (un default sólido para la mayoría de textos).
Usa el slider para fijar la longitud de pieza en tokens. Un rango razonable es 150-300; una pieza alberga aproximadamente un pensamiento.
Usa el slider de "repetir en la frontera" para fijar cuántas frases deben solaparse entre piezas vecinas. Esto ayuda cuando una frase importante cae justo en la línea de corte. Típicamente 10-20% de la longitud de pieza.
Elige un modelo (GPT, Claude, Gemini). Cada uno cuenta tokens de forma distinta, así que los números variarán.
Debajo verás las piezas de color. Cada una de un color, con conteo de tokens y posición en el texto.
El panel de estadísticas muestra: cuántas piezas, la más corta / media / la más larga, total de tokens y cuántos tokens extra ha añadido la repetición en la frontera.

Cuándo es útil

Seis situaciones típicas en las que esta visualización da una respuesta concreta en vez de una estimación:

Construir un bot para documentos de empresa. Tienes 200 manuales en PDF. Pega un doc de muestra, prueba tres formas de cortar y ve cuál conserva mejor el significado. Decisión en 5 minutos en vez de una hora leyendo documentación.
El bot no encuentra la respuesta aunque ESTÁ en el documento. Problema muy común. Pega el doc donde sabes que está la respuesta. Comprueba si esa parte está en un solo color (entera y coherente) o si se ha cortado por la mitad entre dos piezas. Si está cortada, aumenta la longitud de pieza o activa la repetición en la frontera.
**Explicar *"qué es chunking"* a un compañero**. Pega cualquier cosa, enséñalo en pantalla. Cinco minutos de explicación visual ganan a una hora de teoría seca.
Estimar coste. Un bot que conoce tus documentos cobra por token. Aquí ves exactamente cuántos tokens se convierten en tu texto tras cortar (con o sin overlap). Multiplica por la tarifa del servicio y tienes un número concreto.
Elegir entre GPT, Claude y Gemini. Cada uno tiene un límite distinto de cuánto cabe en una consulta. Aquí compruebas cuántas de tus piezas caben en una consulta en cada uno. La ventana grande de Gemini admite unas 30 piezas, GPT puede admitir 5-10.
Probar distintas longitudes de pieza (150 vs 300 vs 500 tokens). Piezas pequeñas = el bot ve menos contexto y se equivoca más. Piezas grandes = cada una se ahoga entre material irrelevante. La visualización muestra dónde está el sweet spot para tus datos.

Preguntas y respuestas

Un chunk es una pieza de texto en la que cortamos un documento largo antes de alimentar al bot. El bot no lee el libro entero de golpe: encuentra la pieza que mejor coincida con tu consulta y solo mira esa pieza al responder. Así que cómo se corta importa: si la respuesta cabe dentro de una pieza, el bot la encuentra. Si queda cortada entre dos piezas, el bot puede perderla por completo.

Ve cómo un bot trocearía tu documento

Cómo usarla

Pega un texto largo en el campo. Un artículo, condiciones de servicio, capítulo de libro, notas de reunión, lo que sea.

Elige una forma de cortar. Si no sabes cuál, deja "inteligente" (un default sólido para la mayoría de textos).

Usa el slider para fijar la longitud de pieza en tokens. Un rango razonable es 150-300; una pieza alberga aproximadamente un pensamiento.

Usa el slider de "repetir en la frontera" para fijar cuántas frases deben solaparse entre piezas vecinas. Esto ayuda cuando una frase importante cae justo en la línea de corte. Típicamente 10-20% de la longitud de pieza.

Elige un modelo (GPT, Claude, Gemini). Cada uno cuenta tokens de forma distinta, así que los números variarán.

Debajo verás las piezas de color. Cada una de un color, con conteo de tokens y posición en el texto.

El panel de estadísticas muestra: cuántas piezas, la más corta / media / la más larga, total de tokens y cuántos tokens extra ha añadido la repetición en la frontera.

Cuándo es útil

Seis situaciones típicas en las que esta visualización da una respuesta concreta en vez de una estimación:

Construir un bot para documentos de empresa. Tienes 200 manuales en PDF. Pega un doc de muestra, prueba tres formas de cortar y ve cuál conserva mejor el significado. Decisión en 5 minutos en vez de una hora leyendo documentación.
El bot no encuentra la respuesta aunque ESTÁ en el documento. Problema muy común. Pega el doc donde sabes que está la respuesta. Comprueba si esa parte está en un solo color (entera y coherente) o si se ha cortado por la mitad entre dos piezas. Si está cortada, aumenta la longitud de pieza o activa la repetición en la frontera.
**Explicar *"qué es chunking"* a un compañero**. Pega cualquier cosa, enséñalo en pantalla. Cinco minutos de explicación visual ganan a una hora de teoría seca.
Estimar coste. Un bot que conoce tus documentos cobra por token. Aquí ves exactamente cuántos tokens se convierten en tu texto tras cortar (con o sin overlap). Multiplica por la tarifa del servicio y tienes un número concreto.
Elegir entre GPT, Claude y Gemini. Cada uno tiene un límite distinto de cuánto cabe en una consulta. Aquí compruebas cuántas de tus piezas caben en una consulta en cada uno. La ventana grande de Gemini admite unas 30 piezas, GPT puede admitir 5-10.
Probar distintas longitudes de pieza (150 vs 300 vs 500 tokens). Piezas pequeñas = el bot ve menos contexto y se equivoca más. Piezas grandes = cada una se ahoga entre material irrelevante. La visualización muestra dónde está el sweet spot para tus datos.

Preguntas y respuestas

Chunker de texto para RAG

Ve cómo un bot trocearía tu documento

Cómo usarla

Cuándo es útil

Preguntas y respuestas

Herramientas relacionadas

Calculadora de coste de embeddings

Contador de tokens para LLM

Calculadora de coste de LLM

Chunker de texto para RAG

Ve cómo un bot trocearía tu documento

Cómo usarla

Cuándo es útil

Preguntas y respuestas

Herramientas relacionadas

Calculadora de coste de embeddings

Contador de tokens para LLM

Calculadora de coste de LLM