Ve cómo un bot trocearía tu documento
¿Quieres un bot que responda a preguntas basado en tus archivos (manuales, FAQs, condiciones, un libro)? El bot no lee el documento entero de golpe. Primero hay que cortarlo en piezas (llamadas chunks), y el bot busca esas piezas de una en una.
Esta herramienta te muestra con tus propios ojos cómo se ve ese corte. Pega un texto, elige una forma de cortar y verás piezas de colores. Cada una de un color distinto, cada una con un conteo de tokens (un *"token"* es aproximadamente un trozo de palabra, se usa para medir longitud).
Cinco formas de cortar: inteligente (intenta no romper párrafos ni frases, el mejor por defecto), por párrafo, por frase, en piezas iguales de N tokens, en piezas iguales de N caracteres. Cada una da un resultado distinto; aquí verás cuál encaja con tu texto.
Cómo usarla
- Pega un texto largo en el campo. Un artículo, condiciones de servicio, capítulo de libro, notas de reunión, lo que sea.
- Elige una forma de cortar. Si no sabes cuál, deja "inteligente" (un default sólido para la mayoría de textos).
- Usa el slider para fijar la longitud de pieza en tokens. Un rango razonable es 150-300; una pieza alberga aproximadamente un pensamiento.
- Usa el slider de "repetir en la frontera" para fijar cuántas frases deben solaparse entre piezas vecinas. Esto ayuda cuando una frase importante cae justo en la línea de corte. Típicamente 10-20% de la longitud de pieza.
- Elige un modelo (GPT, Claude, Gemini). Cada uno cuenta tokens de forma distinta, así que los números variarán.
- Debajo verás las piezas de color. Cada una de un color, con conteo de tokens y posición en el texto.
- El panel de estadísticas muestra: cuántas piezas, la más corta / media / la más larga, total de tokens y cuántos tokens extra ha añadido la repetición en la frontera.
Cuándo es útil
Seis situaciones típicas en las que esta visualización da una respuesta concreta en vez de una estimación:
- Construir un bot para documentos de empresa. Tienes 200 manuales en PDF. Pega un doc de muestra, prueba tres formas de cortar y ve cuál conserva mejor el significado. Decisión en 5 minutos en vez de una hora leyendo documentación.
- El bot no encuentra la respuesta aunque ESTÁ en el documento. Problema muy común. Pega el doc donde sabes que está la respuesta. Comprueba si esa parte está en un solo color (entera y coherente) o si se ha cortado por la mitad entre dos piezas. Si está cortada, aumenta la longitud de pieza o activa la repetición en la frontera.
- **Explicar *"qué es chunking"* a un compañero**. Pega cualquier cosa, enséñalo en pantalla. Cinco minutos de explicación visual ganan a una hora de teoría seca.
- Estimar coste. Un bot que conoce tus documentos cobra por token. Aquí ves exactamente cuántos tokens se convierten en tu texto tras cortar (con o sin overlap). Multiplica por la tarifa del servicio y tienes un número concreto.
- Elegir entre GPT, Claude y Gemini. Cada uno tiene un límite distinto de cuánto cabe en una consulta. Aquí compruebas cuántas de tus piezas caben en una consulta en cada uno. La ventana grande de Gemini admite unas 30 piezas, GPT puede admitir 5-10.
- Probar distintas longitudes de pieza (150 vs 300 vs 500 tokens). Piezas pequeñas = el bot ve menos contexto y se equivoca más. Piezas grandes = cada una se ahoga entre material irrelevante. La visualización muestra dónde está el sweet spot para tus datos.