Pourquoi les textes courts ("hello") échouent-ils presque toujours ?

Parce que **les statistiques de trigrammes ont besoin de points de données**. Un mot de cinq caractères te donne trois trigrammes. Un message de dix caractères t'en donne huit. Avec si peu d'échantillons, tu ne peux pas distinguer l'anglais du néerlandais : les deux ont des motifs "the" / "het" et beaucoup de racines partagées. La bibliothèque retourne la meilleure estimation possible, mais la **confiance n'a pas de sens** à cette longueur. Règle empirique réaliste : **30 caractères est le strict minimum**, **100 caractères c'est solide**, **500+ caractères c'est essentiellement à toute épreuve** pour n'importe quelle langue bien prise en charge.

Quelle est la différence entre ISO 639-1 et ISO 639-3 ?

Les deux sont des standards de codes de langue de l'**Organisation internationale de normalisation**, mais ils couvrent des ensembles différents. **ISO 639-1** utilise deux lettres ("en", "pl", "de") et ne couvre que les langues les plus utilisées, environ 184. **ISO 639-3** utilise trois lettres ("eng", "pol", "deu") et couvre pratiquement toutes les langues du monde, plus de 7000 entrées. franc-min retourne l'ISO 639-3 parce qu'il prend en charge des langues qui n'ont pas de code 639-1 (comme de nombreuses langues régionales ou minoritaires). Nous affichons les deux quand un code 639-1 existe pour que tu puisses copier celui que ton système en aval attend.

Que se passe-t-il si le texte est mélangé (deux langues dans un même bloc) ?

Le détecteur choisit la **langue dominante**, celle qui a le plus de trigrammes correspondants. Si tu colles un email anglais avec une seule citation polonaise, tu obtiens de l'anglais en retour. Si tu colles un mélange à peu près 50/50, la liste du top 5 montrera les deux langues avec une confiance similaire, c'est le signal que l'entrée est mixte. L'outil **ne peut pas** scinder un document en langues par paragraphe, cela nécessite une étape de segmentation plus sophistiquée que franc-min ne fait pas.

Pourquoi confond-il le tchèque et le slovaque (ou le norvégien et le danois) ?

Parce que ces langues **partagent la majeure partie de leur espace de trigrammes**. Le tchèque et le slovaque ont une phonotactique presque identique, un vocabulaire racine très similaire et des mots fonctionnels qui se chevauchent. Du point de vue du détecteur, ils ressemblent à des dialectes de la même langue. C'est aussi vrai du **norvégien Bokmal vs danois** (les formes écrites sont extrêmement proches), du **serbe vs croate vs bosnien**, de l'**indonésien vs malais**, et dans une moindre mesure de l'**espagnol vs portugais**. Quand l'écart entre les candidats top 1 et top 2 est faible, traite le résultat comme "l'un de ces deux", pas comme une réponse unique.

Quelle est sa précision en pratique ?

Pour les **langues bien prises en charge sur des entrées de plus de 100 caractères**, la précision est typiquement **supérieure à 95 %**. Pour les entrées entre 30 et 100 caractères, elle tombe à **85-92 %** selon la langue. En dessous de 30 caractères, elle chute brutalement en territoire **50-70 %**. Les tweets courts, les requêtes d'un mot, les noms de fichiers et les extraits de code sont notoirement difficiles. La prose naturelle longue dans une langue majeure est essentiellement toujours correcte. La bibliothèque est la même que celle utilisée par **GitHub Linguist** (la chose qui décide "ce repo est principalement en Python") et **divers outils i18n**, elle a donc été éprouvée sur beaucoup de texte réel.

Pourquoi mon écriture technique ou mixée avec du code obtient-elle la mauvaise langue ?

Parce que l'écriture technique dans n'importe quelle langue **emprunte beaucoup à l'anglais** (noms de variables, noms de fonctions, endpoints d'API, messages d'erreur). Un article de blog polonais sur React avec des extraits de code, des sorties de commande et des messages d'erreur en anglais peut obtenir un meilleur score pour l'anglais que pour le polonais, même quand la prose est clairement en polonais. Le détecteur est honnête sur ce qu'il voit, la distribution des trigrammes penche vraiment vers l'anglais dans ce cas. Si tu veux détecter la **langue de l'auteur**, supprime d'abord le code et les emprunts à l'anglais, ou repose-toi sur un paragraphe plus long de prose uniquement.

Mon texte est-il envoyé à un service externe ?

**Non, jamais**. franc-min est une bibliothèque Node autonome, les profils de référence font partie du paquet. Notre route API exécute la détection **dans le même processus** qui sert la page, puis retourne le résultat. Nous ne loggons pas le texte, nous ne le stockons pas, nous ne le transférons nulle part. Le pipeline complet est "navigateur -> notre serveur -> franc-min -> retour". À comparer aux API de langue cloud, qui enverraient ton entrée à Google ou Azure pour facturation et analytics.

Quelles langues sont prises en charge ?

franc-min reconnaît **environ 82 des langues les plus courantes**, celles d'au moins 1 million de locuteurs natifs. Cela couvre l'anglais, l'espagnol, le mandarin, l'hindi, l'arabe, le portugais, le bengali, le russe, le japonais, le pendjabi, l'allemand, le coréen, le français, le vietnamien, le turc, l'italien, le polonais, l'ukrainien, le perse, le roumain, le néerlandais, le hongrois, le grec, le tchèque, le suédois, le bulgare, le danois, le finnois, le slovaque, le croate, le serbe, le bosnien, le slovène, le norvégien, l'hébreu, le thaï, l'indonésien, le malais, le tagalog, le swahili, le zoulou, l'afrikaans, l'amharique, le haoussa, le yoruba, l'igbo, le somali, le géorgien, l'arménien, l'azerbaïdjanais, le kazakh, l'ouzbek, le mongol, le népalais, le cingalais, le birman, le khmer, le lao, et bien d'autres. Le profil de référence complet est disponible dans le dépôt franc-min.

Puis-je faire confiance au pourcentage de confiance ?

C'est un **score relatif**, pas une probabilité. Une confiance de 100 % signifie "cette langue était la meilleure correspondance avec une nette marge", une confiance de 50 % signifie "la meilleure correspondance était à peine meilleure que la suivante". Le détecteur retourne **toujours** sa meilleure estimation, même sur des entrées poubelle, une confiance faible est donc ton avertissement que le résultat est fragile. Interprétation honnête : au-dessus de **85 %** traite-le comme fiable, **50-85 %** vérifie en regardant le candidat top 2, en dessous de **50 %** suppose que l'entrée est trop courte ou trop bruitée pour être détectée proprement.

Détection de langue - gratuit

Quelle est la langue de ce texte ?

Colle n'importe quel bloc de texte et cet outil te dit dans quelle langue il est écrit, avec un score de confiance et les cinq meilleurs candidats. Il utilise franc-min, une petite bibliothèque Node qui reconnaît plus de 80 langues par une méthode purement statistique : elle découpe le texte en fragments de trois lettres appelés trigrammes, compte la fréquence de chacun et compare ces fréquences à des profils de référence construits à partir d'échantillons réels.

Tout s'exécute sur notre serveur en JavaScript pur. Pas de modèle de machine learning, pas d'API externe, aucune donnée ne quitte notre infrastructure au-delà de la requête elle-même. Nous ne stockons pas le texte que tu envoies.

Deux points importants d'entrée. Les textes courts échouent : en dessous de vingt caractères, les statistiques de trigrammes sont en gros du bruit, la réponse peut donc basculer de langue avec un mot de plus. Et les langues étroitement apparentées trompent le détecteur : le tchèque et le slovaque partagent tellement de trigrammes qu'une phrase tchèque courte obtient parfois un meilleur score pour le slovaque. Regarde toujours le top 5 avant de prendre le résultat principal pour parole d'évangile.

Comment l'utiliser

Colle ton texte dans la zone de saisie. Tout compte : un email, un paragraphe, un message de chat, un tweet.
Essaie les chips d'exemple sous la zone si tu veux voir comment la détection se comporte sur l'anglais, le polonais, l'allemand, le japonais et l'arabe.
Clique sur "Détecter la langue". Le résultat revient en moins de cent millisecondes parce que rien ne quitte notre serveur.
Lis le verdict principal : le nom de la langue détectée, son drapeau, le code à trois lettres ISO 639-3 et le code à deux lettres ISO 639-1 (quand il existe).
Jette un œil au pourcentage de confiance : au-dessus de 85 % c'est solide, 50-85 % signifie que l'entrée est courte ou partage des trigrammes avec une autre langue, en dessous de 50 % le résultat n'est pas fiable.
Ouvre les 5 meilleurs candidats en dessous. Si le deuxième candidat est à quelques pourcents du premier, ton texte est peut-être un mélange ou l'une des fameuses paires "look-alike" (tchèque / slovaque, norvégien / danois, espagnol / portugais).
Pour un texte multilingue (un email anglais avec une citation polonaise par exemple), attends-toi à ce que le détecteur choisisse la langue dominante, pas à ce qu'il scinde le résultat.

Quand c'est utile

Cinq usages quotidiens honnêtes pour un détecteur de langue rapide :

Trier les emails de support entrants ou les messages de formulaire de contact avant de les router. Glisse le corps, regarde si c'est de l'anglais, du polonais, de l'allemand, etc., puis transfère à la bonne équipe. Plus rapide que de deviner depuis un nom ou un domaine.
Auditer une base de contenus avant de lancer des jobs de traduction. Colle un échantillon de ligne, confirme que la langue correspond à ce que la colonne dit. Détecte les lignes mal étiquetées qui seraient sinon envoyées au mauvais traducteur.
Identifier rapidement un extrait que tu as trouvé dans des logs, dans un vieux document, dans un résultat d'OCR sur capture d'écran, quand tu n'as aucune idée de la langue. La détection plus le drapeau suffit en général à savoir où regarder ensuite.
Vérifier rapidement le contenu généré quand un LLM est censé répondre dans une langue précise et que tu soupçonnes qu'il a répondu en anglais par erreur. Colle, regarde le code iso3, terminé.
Enseigner comment fonctionne la détection par trigrammes. La liste du top 5 avec barres est un excellent support visuel parce que tu peux voir *à quel point* le tchèque est proche du slovaque ou le portugais de l'espagnol dans l'espace des trigrammes.

Outils connexes : détecteur de texte IA, compteur de texte, convertisseur de casse, compteur de tokens LLM.

Questions et réponses

Un trigramme est une séquence de trois lettres, comme "the", "ion", "ing" en anglais ou "nie", "cie", "tej" en polonais. Chaque langue a une table de fréquences caractéristique : en anglais "the" et "and" sont absurdement courants, en polonais "nie" et "cie" se démarquent, en allemand le trigramme "sch" frappe beaucoup plus fort qu'ailleurs. franc-min livre des profils de référence pré-calculés pour chaque langue prise en charge. Quand tu colles du texte, la bibliothèque en extrait les trigrammes, les compte et mesure la distance entre ta distribution et chaque profil de langue. La plus petite distance gagne. Pas de machine learning, pas de réseau de neurones, pas d'étape d'entraînement de notre côté : les données de référence font partie de la bibliothèque.

Quelle est la langue de ce texte ?

Comment l'utiliser

Colle ton texte dans la zone de saisie. Tout compte : un email, un paragraphe, un message de chat, un tweet.

Essaie les chips d'exemple sous la zone si tu veux voir comment la détection se comporte sur l'anglais, le polonais, l'allemand, le japonais et l'arabe.

Clique sur "Détecter la langue". Le résultat revient en moins de cent millisecondes parce que rien ne quitte notre serveur.

Lis le verdict principal : le nom de la langue détectée, son drapeau, le code à trois lettres ISO 639-3 et le code à deux lettres ISO 639-1 (quand il existe).

Jette un œil au pourcentage de confiance : au-dessus de 85 % c'est solide, 50-85 % signifie que l'entrée est courte ou partage des trigrammes avec une autre langue, en dessous de 50 % le résultat n'est pas fiable.

Ouvre les 5 meilleurs candidats en dessous. Si le deuxième candidat est à quelques pourcents du premier, ton texte est peut-être un mélange ou l'une des fameuses paires "look-alike" (tchèque / slovaque, norvégien / danois, espagnol / portugais).

Pour un texte multilingue (un email anglais avec une citation polonaise par exemple), attends-toi à ce que le détecteur choisisse la langue dominante, pas à ce qu'il scinde le résultat.

Quand c'est utile

Cinq usages quotidiens honnêtes pour un détecteur de langue rapide :

Trier les emails de support entrants ou les messages de formulaire de contact avant de les router. Glisse le corps, regarde si c'est de l'anglais, du polonais, de l'allemand, etc., puis transfère à la bonne équipe. Plus rapide que de deviner depuis un nom ou un domaine.
Auditer une base de contenus avant de lancer des jobs de traduction. Colle un échantillon de ligne, confirme que la langue correspond à ce que la colonne dit. Détecte les lignes mal étiquetées qui seraient sinon envoyées au mauvais traducteur.
Identifier rapidement un extrait que tu as trouvé dans des logs, dans un vieux document, dans un résultat d'OCR sur capture d'écran, quand tu n'as aucune idée de la langue. La détection plus le drapeau suffit en général à savoir où regarder ensuite.
Vérifier rapidement le contenu généré quand un LLM est censé répondre dans une langue précise et que tu soupçonnes qu'il a répondu en anglais par erreur. Colle, regarde le code iso3, terminé.
Enseigner comment fonctionne la détection par trigrammes. La liste du top 5 avec barres est un excellent support visuel parce que tu peux voir *à quel point* le tchèque est proche du slovaque ou le portugais de l'espagnol dans l'espace des trigrammes.

Outils connexes : détecteur de texte IA, compteur de texte, convertisseur de casse, compteur de tokens LLM.

Questions et réponses

Détection de langue

Quelle est la langue de ce texte ?

Comment l'utiliser

Quand c'est utile

Questions et réponses

Outils similaires

Détecteur de texte IA

Compteur de texte

Convertisseur de casse

Analyseur headers email

Compteur de tokens LLM

Détection de langue

Quelle est la langue de ce texte ?

Comment l'utiliser

Quand c'est utile

Questions et réponses

Outils similaires

Détecteur de texte IA

Compteur de texte

Convertisseur de casse

Analyseur headers email

Compteur de tokens LLM