¿Por qué los textos cortos ("hola") casi siempre fallan?

Porque las **estadísticas de trigramas necesitan datos**. Una palabra de cinco caracteres te da tres trigramas. Un mensaje de diez caracteres, ocho. Con tan pocas muestras no se puede distinguir el inglés del neerlandés: ambos comparten patrones "the"/"het" y muchas raíces. La librería devuelve la mejor estimación posible, pero la **confianza no significa nada** con esa longitud. Regla realista: **30 caracteres es el mínimo absoluto**, **100 caracteres es sólido**, **500+ caracteres es prácticamente infalible** para cualquier idioma bien soportado.

¿Qué diferencia hay entre ISO 639-1 e ISO 639-3?

Ambos son estándares de códigos de idioma de la **Organización Internacional de Normalización**, pero cubren conjuntos diferentes. **ISO 639-1** usa dos letras ("en", "es", "de") y solo cubre los idiomas más usados, unos 184. **ISO 639-3** usa tres letras ("eng", "spa", "deu") y cubre prácticamente todos los idiomas del mundo, más de 7000 entradas. franc-min devuelve ISO 639-3 porque admite idiomas que no tienen código 639-1 (como muchas lenguas regionales o minoritarias). Mostramos ambos cuando existe un código 639-1, para que copies el que espere tu sistema receptor.

¿Qué pasa si el texto está mezclado (dos idiomas en un mismo bloque)?

El detector elige el **idioma dominante**: el que tiene más trigramas coincidentes. Si pegas un correo en inglés con una sola cita en español, te devolverá inglés. Si pegas una mezcla cercana al 50/50, la lista de los 5 candidatos mostrará ambos idiomas con confianza similar; esa es la señal de que el texto está mezclado. La herramienta **no puede** dividir un documento en idiomas por párrafo: eso requiere un paso de segmentación más sofisticado que franc-min no realiza.

¿Por qué confunde el checo y el eslovaco (o el noruego y el danés)?

Porque estos idiomas **comparten la mayor parte de su espacio de trigramas**. Checo y eslovaco tienen una fonotáctica casi idéntica, un vocabulario raíz muy parecido y palabras funcionales que se solapan. Desde el punto de vista del detector parecen dialectos del mismo idioma. Lo mismo ocurre con el **bokmal noruego frente al danés** (sus formas escritas son extremadamente parecidas), **serbio frente a croata frente a bosnio**, **indonesio frente a malayo** y, en menor medida, **español frente a portugués**. Cuando la distancia entre el primer y el segundo candidato es pequeña, interpreta el resultado como "uno de estos dos", no como una respuesta única.

¿Qué precisión tiene en la práctica?

Para **idiomas bien soportados con entradas de más de 100 caracteres**, la precisión suele estar **por encima del 95 %**. Para entradas entre 30 y 100 caracteres baja al **85-92 %** según el idioma. Por debajo de 30 caracteres cae al rango del **50-70 %**. Tuits cortos, consultas de una sola palabra, nombres de archivo y fragmentos de código son notoriamente difíciles. La prosa larga y natural en un idioma mayoritario es esencialmente siempre correcta. La librería es la misma que usan **GitHub Linguist** (lo que decide "este repositorio es mayormente Python") y **varias herramientas de i18n**, así que se ha probado en mucho texto real.

¿Por qué mi texto técnico o con código devuelve el idioma equivocado?

Porque la escritura técnica en cualquier idioma tiende a **tomar mucho prestado del inglés** (nombres de variables, de funciones, endpoints de API, mensajes de error). Un artículo de blog en español sobre React con fragmentos de código, salidas de comandos y mensajes de error en inglés puede puntuar más alto para inglés que para español, aunque la prosa sea claramente española. El detector es honesto con lo que ve: la distribución de trigramas realmente se inclina hacia el inglés en ese caso. Si quieres detectar el **idioma del autor**, quita primero el código y los anglicismos, o apóyate en un párrafo largo de prosa pura.

¿Se envía mi texto a algún servicio externo?

**No, nunca**. franc-min es una librería de Node autocontenida; los perfiles de referencia forman parte del paquete. Nuestra ruta de API ejecuta la detección **en el mismo proceso** que sirve la página y devuelve el resultado. No registramos el texto, no lo almacenamos y no lo reenviamos a ningún sitio. El recorrido completo es "navegador -> nuestro servidor -> franc-min -> respuesta". Compáralo con las APIs de idioma en la nube, que enviarían tu entrada a Google o Azure para facturación y analítica.

¿Qué idiomas se admiten?

franc-min reconoce **unos 82 de los idiomas más comunes**, los que tienen al menos 1 millón de hablantes nativos. Eso incluye inglés, español, mandarín, hindi, árabe, portugués, bengalí, ruso, japonés, panyabí, alemán, coreano, francés, vietnamita, turco, italiano, polaco, ucraniano, persa, rumano, neerlandés, húngaro, griego, checo, sueco, búlgaro, danés, finés, eslovaco, croata, serbio, bosnio, esloveno, noruego, hebreo, tailandés, indonesio, malayo, tagalo, suajili, zulú, afrikáans, amárico, hausa, yoruba, igbo, somalí, georgiano, armenio, azerí, kazajo, uzbeko, mongol, nepalí, cingalés, birmano, jemer, lao y muchos más. El perfil de referencia completo está en el repositorio de franc-min.

¿Puedo fiarme del porcentaje de confianza?

Es una **puntuación relativa**, no una probabilidad. Una confianza del 100 % significa "este idioma fue la mejor coincidencia por un margen claro"; una confianza del 50 % significa "la mejor coincidencia apenas superó a la siguiente". El detector **siempre** devuelve su mejor apuesta, incluso con entradas basura, así que una confianza baja es tu aviso de que el resultado es endeble. Interpretación honesta: por encima del **85 %** trátalo como fiable; entre **50 % y 85 %** verifícalo mirando el segundo candidato; por debajo del **50 %** asume que el texto es demasiado corto o ruidoso para detectarlo con claridad.

Detección de idioma - gratis

¿En qué idioma está este texto?

Pega cualquier bloque de texto y la herramienta te dirá en qué idioma está, con una puntuación de confianza y los cinco candidatos principales. Utiliza franc-min, una librería ligera de Node que reconoce más de 80 idiomas mediante un método puramente estadístico: divide el texto en fragmentos de tres letras llamados trigramas, cuenta con qué frecuencia aparece cada uno y compara esas frecuencias con perfiles de referencia construidos a partir de muestras reales de cada lengua.

Todo se ejecuta en nuestro servidor con JavaScript puro. Sin modelo de machine learning, sin API externa, ningún dato sale de nuestra infraestructura más allá de la propia petición. No almacenamos el texto que envías.

Dos cosas importantes que conviene saber. Los textos cortos fallan: por debajo de veinte caracteres, las estadísticas de trigramas son básicamente ruido y la respuesta puede cambiar de idioma con una sola palabra adicional. Y los idiomas próximos confunden al detector: checo y eslovaco comparten tantos trigramas que una frase corta en checo a veces puntúa más alto para el eslovaco. Mira siempre la lista de los 5 candidatos antes de tomar el resultado principal como una verdad absoluta.

Cómo se usa

Pega tu texto en la caja de entrada. Vale cualquier cosa: un correo, un párrafo, un mensaje de chat, un tuit.
Prueba los ejemplos rápidos debajo del cuadro si quieres ver cómo se comporta la detección con inglés, polaco, alemán, japonés y árabe.
Pulsa "Detectar idioma". La respuesta llega en menos de cien milisegundos porque nada sale de nuestro servidor.
Lee el veredicto principal: nombre del idioma detectado, su bandera, el código ISO 639-3 de tres letras y el código ISO 639-1 de dos letras (cuando exista).
Echa un vistazo al porcentaje de confianza: por encima del 85 % es sólido, entre 50 % y 85 % significa que el texto es corto o comparte trigramas con otro idioma, y por debajo del 50 % el resultado es poco fiable.
Abre los 5 candidatos principales de abajo. Si el segundo candidato está a pocos puntos del primero, tu texto puede ser una mezcla o uno de los famosos pares "parecidos" (checo / eslovaco, noruego / danés, español / portugués).
En texto mezclado (un correo en inglés con una cita en polaco, por ejemplo) espera que el detector elija el idioma dominante, no que divida el resultado.

Cuándo te resulta útil

Cinco usos cotidianos y realistas para un detector de idioma rápido:

Clasificar correos de soporte o mensajes de formularios de contacto antes de enrutarlos. Pega el cuerpo, comprueba si es inglés, español, alemán, etc. y reenvíalo al equipo correcto. Más rápido que adivinar por el nombre o el dominio.
Auditar una base de datos de contenido antes de lanzar trabajos de traducción. Pega una fila de muestra y confirma que el idioma coincide con lo que dice la columna. Detecta filas mal etiquetadas que, de otro modo, irían al traductor equivocado.
Identificar rápidamente un fragmento encontrado en logs, en un documento antiguo o en el resultado de un OCR sobre una captura, cuando no tienes ni idea de en qué idioma está. La detección y la bandera suelen bastar para saber por dónde tirar después.
Verificar contenido generado cuando un LLM debía responder en un idioma concreto y sospechas que ha respondido en inglés por error. Pegas, ves el código iso3, listo.
Enseñar cómo funciona la detección por trigramas. La lista de los 5 candidatos con barras es un gran apoyo visual porque ves *lo cerca* que está el checo del eslovaco o el portugués del español en el espacio de trigramas.

Herramientas relacionadas: detector de texto IA, contador de texto, conversor mayúsculas/minúsculas, contador de tokens LLM.

Preguntas y respuestas

Un trigrama es una secuencia de tres letras, como "the", "ion", "ing" en inglés o "ent", "tio", "men" en español. Cada idioma tiene una tabla de frecuencias característica: en inglés "the" y "and" son absurdamente comunes; en español "ent" y "que" destacan; en alemán el trigrama "sch" pega mucho más fuerte que en cualquier otro sitio. franc-min trae perfiles de referencia precalculados para cada idioma admitido. Cuando pegas un texto, la librería extrae tus trigramas, los cuenta y mide la distancia entre tu distribución y la de cada idioma. Gana la distancia más pequeña. Sin machine learning, sin red neuronal, sin entrenamiento por nuestra parte: los datos de referencia forman parte de la librería.

¿En qué idioma está este texto?

Cómo se usa

Pega tu texto en la caja de entrada. Vale cualquier cosa: un correo, un párrafo, un mensaje de chat, un tuit.

Prueba los ejemplos rápidos debajo del cuadro si quieres ver cómo se comporta la detección con inglés, polaco, alemán, japonés y árabe.

Pulsa "Detectar idioma". La respuesta llega en menos de cien milisegundos porque nada sale de nuestro servidor.

Lee el veredicto principal: nombre del idioma detectado, su bandera, el código ISO 639-3 de tres letras y el código ISO 639-1 de dos letras (cuando exista).

Echa un vistazo al porcentaje de confianza: por encima del 85 % es sólido, entre 50 % y 85 % significa que el texto es corto o comparte trigramas con otro idioma, y por debajo del 50 % el resultado es poco fiable.

Abre los 5 candidatos principales de abajo. Si el segundo candidato está a pocos puntos del primero, tu texto puede ser una mezcla o uno de los famosos pares "parecidos" (checo / eslovaco, noruego / danés, español / portugués).

En texto mezclado (un correo en inglés con una cita en polaco, por ejemplo) espera que el detector elija el idioma dominante, no que divida el resultado.

Cuándo te resulta útil

Cinco usos cotidianos y realistas para un detector de idioma rápido:

Clasificar correos de soporte o mensajes de formularios de contacto antes de enrutarlos. Pega el cuerpo, comprueba si es inglés, español, alemán, etc. y reenvíalo al equipo correcto. Más rápido que adivinar por el nombre o el dominio.
Auditar una base de datos de contenido antes de lanzar trabajos de traducción. Pega una fila de muestra y confirma que el idioma coincide con lo que dice la columna. Detecta filas mal etiquetadas que, de otro modo, irían al traductor equivocado.
Identificar rápidamente un fragmento encontrado en logs, en un documento antiguo o en el resultado de un OCR sobre una captura, cuando no tienes ni idea de en qué idioma está. La detección y la bandera suelen bastar para saber por dónde tirar después.
Verificar contenido generado cuando un LLM debía responder en un idioma concreto y sospechas que ha respondido en inglés por error. Pegas, ves el código iso3, listo.
Enseñar cómo funciona la detección por trigramas. La lista de los 5 candidatos con barras es un gran apoyo visual porque ves *lo cerca* que está el checo del eslovaco o el portugués del español en el espacio de trigramas.

Herramientas relacionadas: detector de texto IA, contador de texto, conversor mayúsculas/minúsculas, contador de tokens LLM.

Preguntas y respuestas

Detección de idioma

¿En qué idioma está este texto?

Cómo se usa

Cuándo te resulta útil

Preguntas y respuestas

Herramientas relacionadas

Detector de texto IA

Contador de palabras y caracteres

Conversor de mayúsculas y minúsculas

Analizador de cabeceras de correo

Contador de tokens para LLM

Detección de idioma

¿En qué idioma está este texto?

Cómo se usa

Cuándo te resulta útil

Preguntas y respuestas

Herramientas relacionadas

Detector de texto IA

Contador de palabras y caracteres

Conversor de mayúsculas y minúsculas

Analizador de cabeceras de correo

Contador de tokens para LLM