Quelle est la langue de ce texte ?
Colle n'importe quel bloc de texte et cet outil te dit dans quelle langue il est écrit, avec un score de confiance et les cinq meilleurs candidats. Il utilise franc-min, une petite bibliothèque Node qui reconnaît plus de 80 langues par une méthode purement statistique : elle découpe le texte en fragments de trois lettres appelés trigrammes, compte la fréquence de chacun et compare ces fréquences à des profils de référence construits à partir d'échantillons réels.
Tout s'exécute sur notre serveur en JavaScript pur. Pas de modèle de machine learning, pas d'API externe, aucune donnée ne quitte notre infrastructure au-delà de la requête elle-même. Nous ne stockons pas le texte que tu envoies.
Deux points importants d'entrée. Les textes courts échouent : en dessous de vingt caractères, les statistiques de trigrammes sont en gros du bruit, la réponse peut donc basculer de langue avec un mot de plus. Et les langues étroitement apparentées trompent le détecteur : le tchèque et le slovaque partagent tellement de trigrammes qu'une phrase tchèque courte obtient parfois un meilleur score pour le slovaque. Regarde toujours le top 5 avant de prendre le résultat principal pour parole d'évangile.
Comment l'utiliser
- Colle ton texte dans la zone de saisie. Tout compte : un email, un paragraphe, un message de chat, un tweet.
- Essaie les chips d'exemple sous la zone si tu veux voir comment la détection se comporte sur l'anglais, le polonais, l'allemand, le japonais et l'arabe.
- Clique sur "Détecter la langue". Le résultat revient en moins de cent millisecondes parce que rien ne quitte notre serveur.
- Lis le verdict principal : le nom de la langue détectée, son drapeau, le code à trois lettres ISO 639-3 et le code à deux lettres ISO 639-1 (quand il existe).
- Jette un œil au pourcentage de confiance : au-dessus de 85 % c'est solide, 50-85 % signifie que l'entrée est courte ou partage des trigrammes avec une autre langue, en dessous de 50 % le résultat n'est pas fiable.
- Ouvre les 5 meilleurs candidats en dessous. Si le deuxième candidat est à quelques pourcents du premier, ton texte est peut-être un mélange ou l'une des fameuses paires "look-alike" (tchèque / slovaque, norvégien / danois, espagnol / portugais).
- Pour un texte multilingue (un email anglais avec une citation polonaise par exemple), attends-toi à ce que le détecteur choisisse la langue dominante, pas à ce qu'il scinde le résultat.
Quand c'est utile
Cinq usages quotidiens honnêtes pour un détecteur de langue rapide :
- Trier les emails de support entrants ou les messages de formulaire de contact avant de les router. Glisse le corps, regarde si c'est de l'anglais, du polonais, de l'allemand, etc., puis transfère à la bonne équipe. Plus rapide que de deviner depuis un nom ou un domaine.
- Auditer une base de contenus avant de lancer des jobs de traduction. Colle un échantillon de ligne, confirme que la langue correspond à ce que la colonne dit. Détecte les lignes mal étiquetées qui seraient sinon envoyées au mauvais traducteur.
- Identifier rapidement un extrait que tu as trouvé dans des logs, dans un vieux document, dans un résultat d'OCR sur capture d'écran, quand tu n'as aucune idée de la langue. La détection plus le drapeau suffit en général à savoir où regarder ensuite.
- Vérifier rapidement le contenu généré quand un LLM est censé répondre dans une langue précise et que tu soupçonnes qu'il a répondu en anglais par erreur. Colle, regarde le code iso3, terminé.
- Enseigner comment fonctionne la détection par trigrammes. La liste du top 5 avec barres est un excellent support visuel parce que tu peux voir *à quel point* le tchèque est proche du slovaque ou le portugais de l'espagnol dans l'espace des trigrammes.
Outils connexes : détecteur de texte IA, compteur de texte, convertisseur de casse, compteur de tokens LLM.