Język polski w AI: zaskakująco najłatwiejszy dla modeli językowych

Najnowszy raport opublikowany na portalu arXiv przez zespół naukowców w składzie: Yekyung Kim, Jenna Russell, Marzena Karpińska oraz Mohit Iyyer, zaskoczył środowisko inżynierów zajmujących się sztuczną inteligencją. W badaniu modeli językowych AI obsługujących długi kontekst odkryto, że język polski – mimo najmniejszych zasobów w internecie – jest najłatwiejszy do przetwarzania dla sztucznej inteligencji. To wynik, który zaskoczył nawet samych autorów badania.

Jak to możliwe? Polski łatwiejszy dla modeli niż angielski

Choć język polski to zaledwie ułamek globalnych danych tekstowych dostępnych w sieci, okazało się, że modele AI potrafią lepiej rozumieć i przetwarzać polszczyznę niż język angielski czy chiński. Naukowcy zaznaczają, że mimo iż modele nie były intensywnie trenowane na danych polskojęzycznych, to właśnie język polski osiągnął najwyższe wskaźniki skuteczności. Jest to tym bardziej zaskakujące, że dotychczas angielski uważano za naturalny wybór do trenowania i oceny modeli językowych.

Niespodziewany ranking języków: co zawiodło angielski i chiński?

Co ciekawe, języki takie jak angielski i chiński – tradycyjnie uważane za najlepiej obsługiwane przez systemy AI – nie znalazły się nawet w pierwszej piątce najłatwiejszych języków. To bezprecedensowa sytuacja, która może wymusić zmianę w podejściu do projektowania i trenowania modeli wielojęzycznych. Eksperci wskazują, że dane z badania powinny zostać potraktowane poważnie przez twórców technologii sztucznej inteligencji.

Co te wyniki oznaczają dla przyszłości modeli wielojęzycznych?

Dane z badania otwierają nowe perspektywy dla rozwoju AI w kontekście wielojęzyczności. Wynik języka polskiego sugeruje, że nie tylko wielkość zasobu treningowego, ale też struktura języka i jego cechy gramatyczne mogą mieć kluczowe znaczenie dla skuteczności AI. To sygnał dla twórców modeli: warto inwestować również w języki niszowe.

Dla polskich użytkowników technologii AI to wiadomość niezwykle budująca. Okazuje się, że polszczyzna – często pomijana w globalnych rankingach – ma ogromny potencjał w kontekście przyszłości sztucznej inteligencji.

Źródło: konferencja Colm 2025

Nasz ekspert

Łukasz Załuski

Redaktor naczelny „National Geographic Polska” i National-Geographic.pl. Dziennikarz podróżniczy i popularnonaukowy z 20-letnim stażem. Wcześniej odpowiedzialny m.in. za magazyny „Focus”, „Focus Historia” i „Sekrety Nauki”. Uważny obserwator zmieniającego się świata i nowych trendów podróżniczych. Inicjator projektu pierwszej naukowej rekonstrukcji wizerunków władców z dynastii Jagiellonów. Miłośnik tenisa, książek kryminalnych i europejskich stolic.