Warum scheitern kurze Texte ("hallo") fast immer?

Weil **Trigramm-Statistik Datenpunkte braucht**. Ein Fünf-Buchstaben-Wort gibt dir drei Trigramme. Eine Zehn-Zeichen-Nachricht gibt dir acht. Mit so wenigen Samples kannst du Deutsch nicht von Niederländisch unterscheiden, beide haben "der" / "het" Muster und viele geteilte Wurzeln. Die Bibliothek gibt die beste Vermutung zurück, die sie machen kann, aber die **Konfidenz ist bei dieser Länge bedeutungslos**. Realistische Faustregel: **30 Zeichen sind das absolute Minimum**, **100 Zeichen sind solide**, **500+ Zeichen sind im Grunde bombensicher** für jede gut unterstützte Sprache.

Was ist der Unterschied zwischen ISO 639-1 und ISO 639-3?

Beide sind Sprachcode-Standards der **International Organization for Standardization**, decken aber verschiedene Mengen ab. **ISO 639-1** nutzt zwei Buchstaben ("de", "en", "pl") und deckt nur die am weitesten verbreiteten Sprachen ab, etwa 184. **ISO 639-3** nutzt drei Buchstaben ("deu", "eng", "pol") und deckt praktisch jede Sprache der Erde ab, mehr als 7.000 Einträge. franc-min gibt ISO 639-3 zurück, weil es Sprachen unterstützt, die keinen 639-1-Code haben (etwa viele regionale oder Minderheitensprachen). Wir zeigen beide, wenn ein 639-1-Code existiert, damit du den kopieren kannst, den dein Downstream-System erwartet.

Was passiert bei gemischtem Text (zwei Sprachen in einem Block)?

Der Detektor wählt die **dominante Sprache**, die mit den meisten passenden Trigrammen. Fügst du eine englische E-Mail mit einem einzelnen deutschen Zitat ein, bekommst du Englisch zurück. Fügst du eine Nahe-50/50-Mischung ein, zeigt die Top-5-Liste beide Sprachen mit ähnlicher Konfidenz - das ist das Signal, dass die Eingabe gemischt ist. Das Tool **kann nicht** ein Dokument in Pro-Absatz-Sprachen splitten, das braucht einen ausgefeilteren Segmentierungsschritt, den franc-min nicht macht.

Warum verwechselt es Tschechisch und Slowakisch (oder Norwegisch und Dänisch)?

Weil diese Sprachen **den größten Teil ihres Trigramm-Raums teilen**. Tschechisch und Slowakisch haben fast identische Phonotaktik, sehr ähnliches Stammvokabular und überlappende Funktionswörter. Aus Sicht des Detektors sehen sie wie Dialekte derselben Sprache aus. Dasselbe gilt für **Norwegisch Bokmål vs. Dänisch** (die Schriftformen sind extrem nah), **Serbisch vs. Kroatisch vs. Bosnisch**, **Indonesisch vs. Malaiisch** und in geringerem Maß **Spanisch vs. Portugiesisch**. Ist die Lücke zwischen Top-1 und Top-2 klein, behandel das Ergebnis als "eines von diesen beiden", nicht als eine einzige Antwort.

Wie genau ist das in der Praxis?

Für **gut unterstützte Sprachen bei Eingaben über 100 Zeichen** liegt die Genauigkeit typisch **über 95 %**. Für Eingaben zwischen 30 und 100 Zeichen fällt sie auf **85-92 %**, je nach Sprache. Unter 30 Zeichen fällt sie in **50-70 %**-Territorium. Kurze Tweets, Ein-Wort-Anfragen, Dateinamen und Code-Snippets sind notorisch schwer. Lange, natürliche Prosa in einer Hauptsprache ist im Grunde immer richtig. Die Bibliothek ist dieselbe, die **GitHub Linguist** nutzt (das Ding, das entscheidet "dieses Repo ist überwiegend Python") und **diverse i18n-Tools**, sie ist also auf viel echtem Text battle-tested.

Warum bekommt mein technischer oder code-gemischter Text die falsche Sprache?

Weil technisches Schreiben in jeder Sprache **stark vom Englischen leiht** (Variablennamen, Funktionsnamen, API-Endpunkte, Fehlermeldungen). Ein deutscher Blogpost über React mit Code-Snippets, Befehlsausgaben und englischen Fehlermeldungen kann höher für Englisch scoren als für Deutsch, selbst wenn die Prosa klar Deutsch ist. Der Detektor ist ehrlich darüber, was er sieht, die Trigramm-Verteilung neigt in dem Fall wirklich Richtung Englisch. Willst du die **Sprache des Autors** erkennen, strippe zuerst Code und englische Anleihen oder verlass dich auf einen längeren reinen Prosa-Absatz.

Wird mein Text an einen externen Dienst gesendet?

**Nein, nie**. franc-min ist eine selbstständige Node-Bibliothek, die Referenzprofile sind Teil des Pakets. Unsere API-Route führt die Erkennung **im selben Prozess** durch, der die Seite ausliefert, und gibt das Ergebnis zurück. Wir loggen den Text nicht, wir speichern ihn nicht, wir leiten ihn nirgendwohin weiter. Die volle Pipeline ist "Browser → unser Server → franc-min → zurück". Vergleich das mit Cloud-Sprach-APIs, die deine Eingabe an Google oder Azure für Abrechnung und Analytics senden würden.

Welche Sprachen werden unterstützt?

franc-min erkennt **etwa 82 der häufigsten Sprachen**, die mit mindestens 1 Million Muttersprachlern. Das umfasst Deutsch, Englisch, Spanisch, Mandarin, Hindi, Arabisch, Portugiesisch, Bengali, Russisch, Japanisch, Punjabi, Koreanisch, Französisch, Vietnamesisch, Türkisch, Italienisch, Polnisch, Ukrainisch, Persisch, Rumänisch, Niederländisch, Ungarisch, Griechisch, Tschechisch, Schwedisch, Bulgarisch, Dänisch, Finnisch, Slowakisch, Kroatisch, Serbisch, Bosnisch, Slowenisch, Norwegisch, Hebräisch, Thai, Indonesisch, Malaiisch, Tagalog, Suaheli, Zulu, Afrikaans, Amharisch, Hausa, Yoruba, Igbo, Somali, Georgisch, Armenisch, Aserbaidschanisch, Kasachisch, Usbekisch, Mongolisch, Nepali, Singhalesisch, Birmanisch, Khmer, Laotisch und viele mehr. Das vollständige Referenzprofil ist im franc-min-Repository verfügbar.

Kann ich der Konfidenz-Prozentangabe vertrauen?

Es ist ein **relativer Score**, keine Wahrscheinlichkeit. Eine Konfidenz von 100 % heißt "diese Sprache war der beste Treffer mit klarem Abstand", eine Konfidenz von 50 % heißt "der beste Treffer war kaum besser als der nächste". Der Detektor gibt **immer** seine beste Vermutung zurück, selbst bei Müll-Input, eine niedrige Konfidenz ist also deine Warnung, dass das Ergebnis wackelig ist. Die ehrliche Interpretation: über **85 %** als verlässlich behandeln, **50-85 %** durch Blick auf den Top-2-Kandidaten gegenprüfen, unter **50 %** annehmen, dass die Eingabe zu kurz oder zu rauschig ist, um sauber erkannt zu werden.

Sprach-Erkennung - kostenlos

Welche Sprache ist das?

Füg einen beliebigen Textblock ein und das Tool sagt dir, welche Sprache das ist, mit einem Konfidenzwert und den fünf besten passenden Kandidaten. Es nutzt franc-min, eine kleine Node-Bibliothek, die über 80 Sprachen durch eine reine statistische Methode erkennt: sie splittet Text in Drei-Buchstaben-Stücke namens Trigramme, zählt, wie oft jedes vorkommt, und vergleicht diese Häufigkeiten mit Referenzprofilen aus echten Sprachproben.

Alles läuft auf unserem Server in normalem JavaScript. Kein Machine-Learning-Modell, keine externe API, keine Daten verlassen unsere Infrastruktur über die Anfrage hinaus. Wir speichern den eingereichten Text nicht.

Zwei wichtige Dinge vorab. Kurze Eingaben scheitern: unter 20 Zeichen ist die Trigramm-Statistik im Grunde Rauschen, die Antwort kann mit einem zusätzlichen Wort die Sprache wechseln. Und eng verwandte Sprachen verwirren den Detektor: Tschechisch und Slowakisch teilen so viele Trigramme, dass ein kurzer tschechischer Satz manchmal höher für Slowakisch scort. Schau immer auf die Top-5-Liste, bevor du das Hauptresultat als Evangelium nimmst.

So nutzt du es

Füg deinen Text in die Eingabebox. Alles zählt: eine E-Mail, ein Absatz, eine Chat-Nachricht, ein Tweet.
Probier die Beispiel-Chips unter der Box, wenn du sehen willst, wie sich die Erkennung bei Englisch, Deutsch, Polnisch, Japanisch und Arabisch verhält.
Klick "Sprache erkennen". Das Ergebnis kommt in unter 100 Millisekunden zurück, weil nichts unseren Server verlässt.
Lies das Hauptergebnis: der erkannte Sprachname, seine Flagge, der ISO-639-3-Drei-Buchstaben-Code und der ISO-639-1-Zwei-Buchstaben-Code (wo vorhanden).
Wirf einen Blick auf den Konfidenz-Prozentsatz: alles über 85 % ist solide, 50-85 % heißt, die Eingabe ist kurz oder teilt Trigramme mit einer anderen Sprache, unter 50 % heißt, das Ergebnis ist unzuverlässig.
Öffne die Top-5-Kandidaten darunter. Liegt der zweite Kandidat innerhalb weniger Prozent vom ersten, könnte dein Text eine Mischung sein oder eines der berühmten "Doppelgänger"-Paare (Tschechisch / Slowakisch, Norwegisch / Dänisch, Spanisch / Portugiesisch).
Bei gemischtsprachigem Text (z. B. eine englische E-Mail mit einem deutschen Zitat) wähle der Detektor die dominante Sprache, er splittet das Ergebnis nicht.

Wann das nützlich ist

Fünf ehrliche, alltägliche Einsätze für einen schnellen Sprach-Detektor:

Eingehende Support-E-Mails oder Kontaktformular-Nachrichten triagieren vor dem Routing. Body einfügen, sehen, ob Deutsch, Englisch, Französisch etc., dann an das richtige Team weiterleiten. Schneller als aus Name oder Domain zu raten.
Eine Content-Datenbank auditieren vor Übersetzungs-Jobs. Einen Beispiel-Datensatz einfügen, prüfen, ob die Sprache zu dem passt, was die Spalte sagt. Fängt falsch getaggte Zeilen ab, die sonst zum falschen Übersetzer gingen.
Ein Snippet schnell identifizieren, das du in Logs, in einem alten Dokument, in einem Screenshot-OCR-Ergebnis gefunden hast, wenn du keine Ahnung hast, welche Sprache es ist. Erkennung plus Flagge reichen meist, um zu wissen, wo als Nächstes zu schauen ist.
Generierten Inhalt prüfen, wenn ein LLM in einer bestimmten Sprache antworten soll und du den Verdacht hast, es hat versehentlich auf Englisch geantwortet. Einfügen, ISO-3-Code sehen, fertig.
Lehren, wie Trigramm-Erkennung funktioniert. Die Top-5-Liste mit Balken ist ein großartiges visuelles Hilfsmittel, weil du sehen kannst, *wie nah* Tschechisch an Slowakisch oder Portugiesisch an Spanisch im Trigramm-Raum liegt.

Fragen und Antworten

Ein Trigramm ist eine Drei-Buchstaben-Sequenz, wie "der", "ein", "ich" im Deutschen, "the", "ion", "ing" im Englischen oder "nie", "cie", "tej" im Polnischen. Jede Sprache hat eine charakteristische Häufigkeitstabelle: im Englischen sind "the" und "and" extrem häufig, im Deutschen "der" und "die", im Polnischen stechen "nie" und "cie" hervor, im Deutschen trifft das Trigramm "sch" viel härter als irgendwo sonst. franc-min liefert vorgefertigte Referenzprofile für jede unterstützte Sprache. Wenn du Text einfügst, extrahiert die Bibliothek deine Trigramme, zählt sie und misst die Distanz zwischen deiner Verteilung und jedem Sprachprofil. Die kleinste Distanz gewinnt. Kein Machine Learning, kein neuronales Netzwerk, kein Trainingsschritt auf unserer Seite - die Referenzdaten sind Teil der Bibliothek.

Welche Sprache ist das?

So nutzt du es

Füg deinen Text in die Eingabebox. Alles zählt: eine E-Mail, ein Absatz, eine Chat-Nachricht, ein Tweet.

Probier die Beispiel-Chips unter der Box, wenn du sehen willst, wie sich die Erkennung bei Englisch, Deutsch, Polnisch, Japanisch und Arabisch verhält.

Klick "Sprache erkennen". Das Ergebnis kommt in unter 100 Millisekunden zurück, weil nichts unseren Server verlässt.

Lies das Hauptergebnis: der erkannte Sprachname, seine Flagge, der ISO-639-3-Drei-Buchstaben-Code und der ISO-639-1-Zwei-Buchstaben-Code (wo vorhanden).

Wirf einen Blick auf den Konfidenz-Prozentsatz: alles über 85 % ist solide, 50-85 % heißt, die Eingabe ist kurz oder teilt Trigramme mit einer anderen Sprache, unter 50 % heißt, das Ergebnis ist unzuverlässig.

Öffne die Top-5-Kandidaten darunter. Liegt der zweite Kandidat innerhalb weniger Prozent vom ersten, könnte dein Text eine Mischung sein oder eines der berühmten "Doppelgänger"-Paare (Tschechisch / Slowakisch, Norwegisch / Dänisch, Spanisch / Portugiesisch).

Bei gemischtsprachigem Text (z. B. eine englische E-Mail mit einem deutschen Zitat) wähle der Detektor die dominante Sprache, er splittet das Ergebnis nicht.

Wann das nützlich ist

Fünf ehrliche, alltägliche Einsätze für einen schnellen Sprach-Detektor:

Eingehende Support-E-Mails oder Kontaktformular-Nachrichten triagieren vor dem Routing. Body einfügen, sehen, ob Deutsch, Englisch, Französisch etc., dann an das richtige Team weiterleiten. Schneller als aus Name oder Domain zu raten.
Eine Content-Datenbank auditieren vor Übersetzungs-Jobs. Einen Beispiel-Datensatz einfügen, prüfen, ob die Sprache zu dem passt, was die Spalte sagt. Fängt falsch getaggte Zeilen ab, die sonst zum falschen Übersetzer gingen.
Ein Snippet schnell identifizieren, das du in Logs, in einem alten Dokument, in einem Screenshot-OCR-Ergebnis gefunden hast, wenn du keine Ahnung hast, welche Sprache es ist. Erkennung plus Flagge reichen meist, um zu wissen, wo als Nächstes zu schauen ist.
Generierten Inhalt prüfen, wenn ein LLM in einer bestimmten Sprache antworten soll und du den Verdacht hast, es hat versehentlich auf Englisch geantwortet. Einfügen, ISO-3-Code sehen, fertig.
Lehren, wie Trigramm-Erkennung funktioniert. Die Top-5-Liste mit Balken ist ein großartiges visuelles Hilfsmittel, weil du sehen kannst, *wie nah* Tschechisch an Slowakisch oder Portugiesisch an Spanisch im Trigramm-Raum liegt.

Fragen und Antworten

Sprach-Erkennung

Welche Sprache ist das?

So nutzt du es

Wann das nützlich ist

Fragen und Antworten

Passende Tools

KI-Text-Detector

Wort- und Zeichen-Zähler

Schreibweise-Konverter

E-Mail-Header Analyzer

LLM-Token-Zähler

Sprach-Erkennung

Welche Sprache ist das?

So nutzt du es

Wann das nützlich ist

Fragen und Antworten

Passende Tools

KI-Text-Detector

Wort- und Zeichen-Zähler

Schreibweise-Konverter

E-Mail-Header Analyzer

LLM-Token-Zähler