Dlaczego krotkie teksty ("czesc") prawie zawsze zawodza?

Bo **statystyki trigramow potrzebuja punktow danych**. Pieciodznakowe slowo daje Ci trzy trigramy. Dziesiecioznakowa wiadomosc osiem. Z tylu probek nie da sie odroznic angielskiego od holenderskiego, oba maja wzorce typu "the" / "het" i mase wspolnych rdzeni. Biblioteka zwroci swoje najlepsze zgadywanie, ale **pewnosc na tej dlugosci jest bez znaczenia**. Praktyczna zasada: **30 znakow to absolutne minimum**, **100 znakow to solidna baza**, **500+ znakow to praktycznie pewnik** dla kazdego dobrze wspieranego jezyka.

Czym sie rozni ISO 639-1 od ISO 639-3?

Oba to standardy kodow jezykow z **Miedzynarodowej Organizacji Normalizacyjnej**, ale obejmuja rozne zbiory. **ISO 639-1** uzywa dwoch liter ("en", "pl", "de") i pokrywa tylko najpopularniejsze jezyki, okolo 184. **ISO 639-3** uzywa trzech liter ("eng", "pol", "deu") i pokrywa praktycznie kazdy jezyk swiata, ponad 7000 wpisow. franc-min zwraca ISO 639-3, bo wspiera jezyki ktore nie maja kodu 639-1 (na przyklad wiele regionalnych albo mniejszosciowych). Pokazujemy oba gdy istnieje kod 639-1, zebys mogl skopiowac ten ktorego oczekuje Twoj dalszy system.

Co sie dzieje gdy tekst jest mieszany (dwa jezyki w jednym bloku)?

Detektor wybierze **jezyk dominujacy**, ten z najwieksza liczba pasujacych trigramow. Jesli wkleisz angielski mail z jednym polskim cytatem, dostaniesz angielski. Jesli wkleisz miksowke prawie 50/50, lista top-5 pokaze oba jezyki z podobna pewnoscia, i to bedzie sygnal ze tekst jest mieszany. Tool **nie potrafi** podzielic dokumentu na jezyki per akapit, to wymaga bardziej zaawansowanego kroku segmentacji ktorego franc-min nie ma.

Dlaczego myli czeski i slowacki (albo norweski i dunski)?

Bo te jezyki **dziela wiekszosc przestrzeni trigramowej**. Czeski i slowacki maja prawie identyczna fonotaktyke, bardzo podobne rdzenie slow i nakladajace sie slowa funkcyjne. Z punktu widzenia detektora wygladaja jak dialekty tego samego jezyka. To samo dotyczy **norweskiego bokmal vs dunskiego** (formy pisane sa skrajnie bliskie), **serbskiego vs chorwackiego vs bosniackiego**, **indonezyjskiego vs malajskiego** i w mniejszym stopniu **hiszpanskiego vs portugalskiego**. Gdy roznica miedzy top-1 a top-2 jest mala, traktuj wynik jak "jeden z tych dwoch", a nie jak jedna odpowiedz.

Jak to dokladne w praktyce?

Dla **dobrze wspieranych jezykow na tekstach ponad 100 znakow** dokladnosc to zwykle **ponad 95%**. Dla wejsc miedzy 30 a 100 znakow spada do **85-92%** w zaleznosci od jezyka. Ponizej 30 znakow leci z urwiska w okolice **50-70%**. Krotkie tweety, jednowyrazowe zapytania, nazwy plikow i fragmenty kodu sa notorycznie trudne. Dluga, naturalna proza w popularnym jezyku jest praktycznie zawsze trafiana. Biblioteka jest ta sama ktorej uzywa **GitHub Linguist** (to ktore decyduje "to repo jest glownie w Pythonie") i **rozne narzedzia i18n**, wiec byla sprawdzona na masie prawdziwego tekstu.

Dlaczego moj tekst techniczny albo mieszany z kodem dostaje zly jezyk?

Bo pisanie techniczne w dowolnym jezyku **mocno zapozycza z angielskiego** (nazwy zmiennych, funkcji, endpointow API, komunikaty bledow). Polski blog o Reakcie ze snippetami kodu, outputami komend i angielskimi bledami moze dostac wyzszy wynik dla angielskiego niz dla polskiego, nawet gdy proza jest oczywiscie polska. Detektor jest uczciwy z tym co widzi, rozklad trigramow naprawde leci w strone angielskiego. Jesli chcesz wykryc **jezyk autora**, wytnij kod i angielskie zapozyczenia, albo poslij dluzszy akapit samej prozy.

Czy moj tekst jest wysylany do jakiejs zewnetrznej uslugi?

**Nie, nigdy**. franc-min to samodzielna biblioteka Node, profile referencyjne sa czescia paczki. Nasz endpoint API odpala detekcje **w tym samym procesie** ktory serwuje strone i zwraca wynik. Nie logujemy tekstu, nie zapisujemy, nie wysylamy nigdzie. Pelen pipeline to "przegladarka -> nasz serwer -> franc-min -> z powrotem". Porownaj to z chmurowymi API jezykowymi, ktore wysylalyby Twoje wejscie do Google albo Azure dla rozliczen i analityki.

Jakie jezyki sa wspierane?

franc-min rozpoznaje **okolo 82 najpopularniejszych jezykow**, te ktore maja co najmniej milion natywnych uzytkownikow. Pokrywa to angielski, hiszpanski, mandarynski, hindi, arabski, portugalski, bengalski, rosyjski, japonski, pendzabi, niemiecki, koreanski, francuski, wietnamski, turecki, wloski, polski, ukrainski, perski, rumunski, holenderski, wegierski, grecki, czeski, szwedzki, bulgarski, dunski, finski, slowacki, chorwacki, serbski, bosniacki, slowenski, norweski, hebrajski, tajski, indonezyjski, malajski, tagalog, suahili, zulu, afrikaans, amharski, hausa, joruba, igbo, somalijski, gruzinski, ormianski, azerski, kazachski, uzbecki, mongolski, nepalski, syngaleski, birmanski, khmerski, laotanski i wiele wiecej. Pelny profil referencyjny jest w repozytorium franc-min.

Czy moge ufac procentowi pewnosci?

To jest **wynik wzgledny**, nie prawdopodobienstwo. Pewnosc 100% znaczy "ten jezyk byl najlepszym dopasowaniem z wyrazna przewaga", pewnosc 50% znaczy "najlepsze dopasowanie ledwo wygralo z nastepnym". Detektor **zawsze** zwraca swoje najlepsze zgadywanie, nawet na smieciowym wejsciu, wiec niska pewnosc to Twoje ostrzezenie ze wynik jest niepewny. Uczciwa interpretacja: powyzej **85%** traktuj jako solidne, **50-85%** sanity-check patrzac na drugiego kandydata, ponizej **50%** zaloz ze tekst jest za krotki albo za halaśliwy zeby cokolwiek czysto wykryc.

Detekcja języka tekstu - darmowy

W jakim jezyku jest ten tekst?

Wklej dowolny fragment tekstu, a tool powie Ci w jakim jest jezyku, poda pewnosc i pokaze pieciu najlepszych kandydatow. Pod spodem dziala franc-min, mala biblioteka Node ktora rozpoznaje ponad 80 jezykow czysto statystycznie: dzieli tekst na trzyliterowe fragmenty zwane trigramami, liczy ile razy kazdy wystepuje, i porownuje rozklad z profilami referencyjnymi zbudowanymi z prawdziwych probek jezykowych.

Wszystko leci na naszym serwerze w czystym JavaScript. Bez modelu uczenia maszynowego, bez zewnetrznego API, zaden bajt nie opuszcza naszej infrastruktury poza samym requestem. Nie zapisujemy tekstu ktory wysylasz.

Dwie wazne rzeczy do zapamietania. Krotki tekst zawodzi: ponizej dwudziestu znakow statystyka trigramow to praktycznie szum, wiec odpowiedz potrafi sie zmienic przy jednym dodatkowym slowie. I bliskie sobie jezyki myla detektor: czeski i slowacki dziela tyle trigramow, ze krotkie czeskie zdanie czasem wygrywa jako slowackie. Zawsze patrz na liste top-5 zanim potraktujesz glowny wynik jak prawde absolutna.

Jak uzywac

Wklej tekst w pole. Cokolwiek sie liczy, mail, akapit, wiadomosc z czatu, tweet.
Mozesz kliknac probki pod polem zeby zobaczyc jak detekcja zachowuje sie na angielskim, polskim, niemieckim, japonskim i arabskim.
Kliknij "Rozpoznaj jezyk". Wynik wraca w mniej niz sto milisekund, bo nic nie opuszcza naszego serwera.
Przeczytaj glowny werdykt: nazwa wykrytego jezyka, jego flaga, trzyliterowy kod ISO 639-3 i dwuliterowy kod ISO 639-1 (jesli istnieje).
Spojrz na pewnosc: powyzej 85% to solidny wynik, 50-85% znaczy ze tekst jest krotki albo dzieli trigramy z innym jezykiem, ponizej 50% wynik jest niepewny.
Rozwin top-5 kandydatow. Jesli drugi kandydat ma wynik bliski pierwszemu, Twoj tekst moze byc mieszany albo nalezy do slawnej pary "podobniakow" (czeski / slowacki, norweski / dunski, hiszpanski / portugalski).
Dla tekstu mieszanego (angielski mail z jednym polskim cytatem) detektor wybierze jezyk dominujacy, nie podzieli wyniku.

Kiedy sie przydaje

Piec uczciwych, codziennych zastosowan szybkiego detektora jezyka:

Triaz przychodzacych maili wsparcia albo wiadomosci z formularza, zanim rozdzielisz je na zespoly. Wrzuc tresc, sprawdz czy to angielski, polski, niemiecki itd., i prosto do wlasciwej osoby. Szybciej niz zgadywanie z imienia czy domeny.
Audyt bazy tresci przed odpaleniem tlumaczen. Wklej probke wiersza, potwierdz ze jezyk pasuje do tego co kolumna deklaruje. Lapie zle otagowane wiersze ktore inaczej polecialyby do zlego tlumacza.
Szybka identyfikacja fragmentu ktory znalazles w logach, w starym dokumencie, w wyniku OCR ze zrzutu ekranu, gdy nie masz pojecia co to za jezyk. Detekcja plus flaga zwykle wystarczaja zeby wiedziec gdzie szukac dalej.
Sanity-check tresci wygenerowanej przez LLM, gdy model mial odpowiedziec w konkretnym jezyku, a podejrzewasz ze wsadzil angielski. Wklejasz, widzisz kod iso3, gotowe.
Nauka jak dziala detekcja trigramowa. Lista top-5 z paskami jest swietna jako pomoc wizualna, bo widac *jak blisko* w przestrzeni trigramow stoja sobie czeski i slowacki albo portugalski i hiszpanski.

Powiazane: detektor tekstu AI, licznik tekstu, konwerter wielkosci liter, licznik tokenow LLM.

Pytania i odpowiedzi

Trigram to trzyliterowa sekwencja, na przyklad "the", "ion", "ing" po angielsku albo "nie", "cie", "tej" po polsku. Kazdy jezyk ma charakterystyczna tabele czestosci: w angielskim "the" i "and" wystepuja absurdalnie czesto, w polskim wyrozniaja sie "nie" i "cie", w niemieckim trigram "sch" wali duzo mocniej niz gdziekolwiek indziej. franc-min ma wbudowane wstepnie policzone profile referencyjne dla kazdego obslugiwanego jezyka. Gdy wklejasz tekst, biblioteka wyciaga z niego trigramy, liczy je i mierzy dystans miedzy Twoim rozkladem a profilem kazdego jezyka. Wygrywa najmniejszy dystans. Bez uczenia maszynowego, bez sieci neuronowej, bez kroku treningu po naszej stronie, dane referencyjne sa czescia biblioteki.

W jakim jezyku jest ten tekst?

Jak uzywac

Wklej tekst w pole. Cokolwiek sie liczy, mail, akapit, wiadomosc z czatu, tweet.

Mozesz kliknac probki pod polem zeby zobaczyc jak detekcja zachowuje sie na angielskim, polskim, niemieckim, japonskim i arabskim.

Kliknij "Rozpoznaj jezyk". Wynik wraca w mniej niz sto milisekund, bo nic nie opuszcza naszego serwera.

Przeczytaj glowny werdykt: nazwa wykrytego jezyka, jego flaga, trzyliterowy kod ISO 639-3 i dwuliterowy kod ISO 639-1 (jesli istnieje).

Spojrz na pewnosc: powyzej 85% to solidny wynik, 50-85% znaczy ze tekst jest krotki albo dzieli trigramy z innym jezykiem, ponizej 50% wynik jest niepewny.

Rozwin top-5 kandydatow. Jesli drugi kandydat ma wynik bliski pierwszemu, Twoj tekst moze byc mieszany albo nalezy do slawnej pary "podobniakow" (czeski / slowacki, norweski / dunski, hiszpanski / portugalski).

Dla tekstu mieszanego (angielski mail z jednym polskim cytatem) detektor wybierze jezyk dominujacy, nie podzieli wyniku.

Kiedy sie przydaje

Piec uczciwych, codziennych zastosowan szybkiego detektora jezyka:

Triaz przychodzacych maili wsparcia albo wiadomosci z formularza, zanim rozdzielisz je na zespoly. Wrzuc tresc, sprawdz czy to angielski, polski, niemiecki itd., i prosto do wlasciwej osoby. Szybciej niz zgadywanie z imienia czy domeny.
Audyt bazy tresci przed odpaleniem tlumaczen. Wklej probke wiersza, potwierdz ze jezyk pasuje do tego co kolumna deklaruje. Lapie zle otagowane wiersze ktore inaczej polecialyby do zlego tlumacza.
Szybka identyfikacja fragmentu ktory znalazles w logach, w starym dokumencie, w wyniku OCR ze zrzutu ekranu, gdy nie masz pojecia co to za jezyk. Detekcja plus flaga zwykle wystarczaja zeby wiedziec gdzie szukac dalej.
Sanity-check tresci wygenerowanej przez LLM, gdy model mial odpowiedziec w konkretnym jezyku, a podejrzewasz ze wsadzil angielski. Wklejasz, widzisz kod iso3, gotowe.
Nauka jak dziala detekcja trigramowa. Lista top-5 z paskami jest swietna jako pomoc wizualna, bo widac *jak blisko* w przestrzeni trigramow stoja sobie czeski i slowacki albo portugalski i hiszpanski.

Powiazane: detektor tekstu AI, licznik tekstu, konwerter wielkosci liter, licznik tokenow LLM.

Pytania i odpowiedzi

Detekcja języka tekstu

W jakim jezyku jest ten tekst?

Jak uzywac

Kiedy sie przydaje

Pytania i odpowiedzi

Powiązane narzędzia

Detektor tekstu AI

Licznik słów i znaków

Konwerter wielkości liter

Analizator nagłówków e-maila

Licznik tokenów LLM

Detekcja języka tekstu

W jakim jezyku jest ten tekst?

Jak uzywac

Kiedy sie przydaje

Pytania i odpowiedzi

Powiązane narzędzia

Detektor tekstu AI

Licznik słów i znaków

Konwerter wielkości liter

Analizator nagłówków e-maila

Licznik tokenów LLM