¿En qué idioma está este texto?
Pega cualquier bloque de texto y la herramienta te dirá en qué idioma está, con una puntuación de confianza y los cinco candidatos principales. Utiliza franc-min, una librería ligera de Node que reconoce más de 80 idiomas mediante un método puramente estadístico: divide el texto en fragmentos de tres letras llamados trigramas, cuenta con qué frecuencia aparece cada uno y compara esas frecuencias con perfiles de referencia construidos a partir de muestras reales de cada lengua.
Todo se ejecuta en nuestro servidor con JavaScript puro. Sin modelo de machine learning, sin API externa, ningún dato sale de nuestra infraestructura más allá de la propia petición. No almacenamos el texto que envías.
Dos cosas importantes que conviene saber. Los textos cortos fallan: por debajo de veinte caracteres, las estadísticas de trigramas son básicamente ruido y la respuesta puede cambiar de idioma con una sola palabra adicional. Y los idiomas próximos confunden al detector: checo y eslovaco comparten tantos trigramas que una frase corta en checo a veces puntúa más alto para el eslovaco. Mira siempre la lista de los 5 candidatos antes de tomar el resultado principal como una verdad absoluta.
Cómo se usa
- Pega tu texto en la caja de entrada. Vale cualquier cosa: un correo, un párrafo, un mensaje de chat, un tuit.
- Prueba los ejemplos rápidos debajo del cuadro si quieres ver cómo se comporta la detección con inglés, polaco, alemán, japonés y árabe.
- Pulsa "Detectar idioma". La respuesta llega en menos de cien milisegundos porque nada sale de nuestro servidor.
- Lee el veredicto principal: nombre del idioma detectado, su bandera, el código ISO 639-3 de tres letras y el código ISO 639-1 de dos letras (cuando exista).
- Echa un vistazo al porcentaje de confianza: por encima del 85 % es sólido, entre 50 % y 85 % significa que el texto es corto o comparte trigramas con otro idioma, y por debajo del 50 % el resultado es poco fiable.
- Abre los 5 candidatos principales de abajo. Si el segundo candidato está a pocos puntos del primero, tu texto puede ser una mezcla o uno de los famosos pares "parecidos" (checo / eslovaco, noruego / danés, español / portugués).
- En texto mezclado (un correo en inglés con una cita en polaco, por ejemplo) espera que el detector elija el idioma dominante, no que divida el resultado.
Cuándo te resulta útil
Cinco usos cotidianos y realistas para un detector de idioma rápido:
- Clasificar correos de soporte o mensajes de formularios de contacto antes de enrutarlos. Pega el cuerpo, comprueba si es inglés, español, alemán, etc. y reenvíalo al equipo correcto. Más rápido que adivinar por el nombre o el dominio.
- Auditar una base de datos de contenido antes de lanzar trabajos de traducción. Pega una fila de muestra y confirma que el idioma coincide con lo que dice la columna. Detecta filas mal etiquetadas que, de otro modo, irían al traductor equivocado.
- Identificar rápidamente un fragmento encontrado en logs, en un documento antiguo o en el resultado de un OCR sobre una captura, cuando no tienes ni idea de en qué idioma está. La detección y la bandera suelen bastar para saber por dónde tirar después.
- Verificar contenido generado cuando un LLM debía responder en un idioma concreto y sospechas que ha respondido en inglés por error. Pegas, ves el código iso3, listo.
- Enseñar cómo funciona la detección por trigramas. La lista de los 5 candidatos con barras es un gran apoyo visual porque ves *lo cerca* que está el checo del eslovaco o el portugués del español en el espacio de trigramas.
Herramientas relacionadas: detector de texto IA, contador de texto, conversor mayúsculas/minúsculas, contador de tokens LLM.