W jakim jezyku jest ten tekst?
Wklej dowolny fragment tekstu, a tool powie Ci w jakim jest jezyku, poda pewnosc i pokaze pieciu najlepszych kandydatow. Pod spodem dziala franc-min, mala biblioteka Node ktora rozpoznaje ponad 80 jezykow czysto statystycznie: dzieli tekst na trzyliterowe fragmenty zwane trigramami, liczy ile razy kazdy wystepuje, i porownuje rozklad z profilami referencyjnymi zbudowanymi z prawdziwych probek jezykowych.
Wszystko leci na naszym serwerze w czystym JavaScript. Bez modelu uczenia maszynowego, bez zewnetrznego API, zaden bajt nie opuszcza naszej infrastruktury poza samym requestem. Nie zapisujemy tekstu ktory wysylasz.
Dwie wazne rzeczy do zapamietania. Krotki tekst zawodzi: ponizej dwudziestu znakow statystyka trigramow to praktycznie szum, wiec odpowiedz potrafi sie zmienic przy jednym dodatkowym slowie. I bliskie sobie jezyki myla detektor: czeski i slowacki dziela tyle trigramow, ze krotkie czeskie zdanie czasem wygrywa jako slowackie. Zawsze patrz na liste top-5 zanim potraktujesz glowny wynik jak prawde absolutna.
Jak uzywac
- Wklej tekst w pole. Cokolwiek sie liczy, mail, akapit, wiadomosc z czatu, tweet.
- Mozesz kliknac probki pod polem zeby zobaczyc jak detekcja zachowuje sie na angielskim, polskim, niemieckim, japonskim i arabskim.
- Kliknij "Rozpoznaj jezyk". Wynik wraca w mniej niz sto milisekund, bo nic nie opuszcza naszego serwera.
- Przeczytaj glowny werdykt: nazwa wykrytego jezyka, jego flaga, trzyliterowy kod ISO 639-3 i dwuliterowy kod ISO 639-1 (jesli istnieje).
- Spojrz na pewnosc: powyzej 85% to solidny wynik, 50-85% znaczy ze tekst jest krotki albo dzieli trigramy z innym jezykiem, ponizej 50% wynik jest niepewny.
- Rozwin top-5 kandydatow. Jesli drugi kandydat ma wynik bliski pierwszemu, Twoj tekst moze byc mieszany albo nalezy do slawnej pary "podobniakow" (czeski / slowacki, norweski / dunski, hiszpanski / portugalski).
- Dla tekstu mieszanego (angielski mail z jednym polskim cytatem) detektor wybierze jezyk dominujacy, nie podzieli wyniku.
Kiedy sie przydaje
Piec uczciwych, codziennych zastosowan szybkiego detektora jezyka:
- Triaz przychodzacych maili wsparcia albo wiadomosci z formularza, zanim rozdzielisz je na zespoly. Wrzuc tresc, sprawdz czy to angielski, polski, niemiecki itd., i prosto do wlasciwej osoby. Szybciej niz zgadywanie z imienia czy domeny.
- Audyt bazy tresci przed odpaleniem tlumaczen. Wklej probke wiersza, potwierdz ze jezyk pasuje do tego co kolumna deklaruje. Lapie zle otagowane wiersze ktore inaczej polecialyby do zlego tlumacza.
- Szybka identyfikacja fragmentu ktory znalazles w logach, w starym dokumencie, w wyniku OCR ze zrzutu ekranu, gdy nie masz pojecia co to za jezyk. Detekcja plus flaga zwykle wystarczaja zeby wiedziec gdzie szukac dalej.
- Sanity-check tresci wygenerowanej przez LLM, gdy model mial odpowiedziec w konkretnym jezyku, a podejrzewasz ze wsadzil angielski. Wklejasz, widzisz kod iso3, gotowe.
- Nauka jak dziala detekcja trigramowa. Lista top-5 z paskami jest swietna jako pomoc wizualna, bo widac *jak blisko* w przestrzeni trigramow stoja sobie czeski i slowacki albo portugalski i hiszpanski.
Powiazane: detektor tekstu AI, licznik tekstu, konwerter wielkosci liter, licznik tokenow LLM.