Welche Sprache ist das?
Füg einen beliebigen Textblock ein und das Tool sagt dir, welche Sprache das ist, mit einem Konfidenzwert und den fünf besten passenden Kandidaten. Es nutzt franc-min, eine kleine Node-Bibliothek, die über 80 Sprachen durch eine reine statistische Methode erkennt: sie splittet Text in Drei-Buchstaben-Stücke namens Trigramme, zählt, wie oft jedes vorkommt, und vergleicht diese Häufigkeiten mit Referenzprofilen aus echten Sprachproben.
Alles läuft auf unserem Server in normalem JavaScript. Kein Machine-Learning-Modell, keine externe API, keine Daten verlassen unsere Infrastruktur über die Anfrage hinaus. Wir speichern den eingereichten Text nicht.
Zwei wichtige Dinge vorab. Kurze Eingaben scheitern: unter 20 Zeichen ist die Trigramm-Statistik im Grunde Rauschen, die Antwort kann mit einem zusätzlichen Wort die Sprache wechseln. Und eng verwandte Sprachen verwirren den Detektor: Tschechisch und Slowakisch teilen so viele Trigramme, dass ein kurzer tschechischer Satz manchmal höher für Slowakisch scort. Schau immer auf die Top-5-Liste, bevor du das Hauptresultat als Evangelium nimmst.
So nutzt du es
- Füg deinen Text in die Eingabebox. Alles zählt: eine E-Mail, ein Absatz, eine Chat-Nachricht, ein Tweet.
- Probier die Beispiel-Chips unter der Box, wenn du sehen willst, wie sich die Erkennung bei Englisch, Deutsch, Polnisch, Japanisch und Arabisch verhält.
- Klick "Sprache erkennen". Das Ergebnis kommt in unter 100 Millisekunden zurück, weil nichts unseren Server verlässt.
- Lies das Hauptergebnis: der erkannte Sprachname, seine Flagge, der ISO-639-3-Drei-Buchstaben-Code und der ISO-639-1-Zwei-Buchstaben-Code (wo vorhanden).
- Wirf einen Blick auf den Konfidenz-Prozentsatz: alles über 85 % ist solide, 50-85 % heißt, die Eingabe ist kurz oder teilt Trigramme mit einer anderen Sprache, unter 50 % heißt, das Ergebnis ist unzuverlässig.
- Öffne die Top-5-Kandidaten darunter. Liegt der zweite Kandidat innerhalb weniger Prozent vom ersten, könnte dein Text eine Mischung sein oder eines der berühmten "Doppelgänger"-Paare (Tschechisch / Slowakisch, Norwegisch / Dänisch, Spanisch / Portugiesisch).
- Bei gemischtsprachigem Text (z. B. eine englische E-Mail mit einem deutschen Zitat) wähle der Detektor die dominante Sprache, er splittet das Ergebnis nicht.
Wann das nützlich ist
Fünf ehrliche, alltägliche Einsätze für einen schnellen Sprach-Detektor:
- Eingehende Support-E-Mails oder Kontaktformular-Nachrichten triagieren vor dem Routing. Body einfügen, sehen, ob Deutsch, Englisch, Französisch etc., dann an das richtige Team weiterleiten. Schneller als aus Name oder Domain zu raten.
- Eine Content-Datenbank auditieren vor Übersetzungs-Jobs. Einen Beispiel-Datensatz einfügen, prüfen, ob die Sprache zu dem passt, was die Spalte sagt. Fängt falsch getaggte Zeilen ab, die sonst zum falschen Übersetzer gingen.
- Ein Snippet schnell identifizieren, das du in Logs, in einem alten Dokument, in einem Screenshot-OCR-Ergebnis gefunden hast, wenn du keine Ahnung hast, welche Sprache es ist. Erkennung plus Flagge reichen meist, um zu wissen, wo als Nächstes zu schauen ist.
- Generierten Inhalt prüfen, wenn ein LLM in einer bestimmten Sprache antworten soll und du den Verdacht hast, es hat versehentlich auf Englisch geantwortet. Einfügen, ISO-3-Code sehen, fertig.
- Lehren, wie Trigramm-Erkennung funktioniert. Die Top-5-Liste mit Balken ist ein großartiges visuelles Hilfsmittel, weil du sehen kannst, *wie nah* Tschechisch an Slowakisch oder Portugiesisch an Spanisch im Trigramm-Raum liegt.
Verwandte Tools: KI-Text-Detektor, Text-Zähler, Groß-/Klein-Konverter, LLM-Token-Zähler.