Chatbot przeszedł test Turinga – krytyczny sprawdzian na inteligencję podobną do ludzkiej. Co teraz?
Nieodróżnialny od człowieka w ponad 70% przypadków – taki wynik uzyskał duży model językowy GPT-4.5 OpenAI w badaniu mającym sprawdzić, na ile sztuczna inteligencja może udawać tę prawdziwą. Ale co to tak naprawdę oznacza?

Spis treści:
- Między człowiekiem a chatbotem
- Czym jest test Turinga?
- Czy maszyna może myśleć?
- Dlaczego test jest kontrowersyjny?
- Inteligentny jak człowiek?
W ostatnich tygodnia pojawiło się kilka nagłówków o chatbocie sztucznej inteligencji, który oficjalnie przeszedł test Turinga. – Doniesienia te opierają się na niedawnym badaniu przeprowadzonym przez dwóch naukowców z Uniwersytetu Kalifornijskiego w San Diego. Cztery duże modele językowe (LLM) zostały poddane testowi Turinga. Jeden z modeli – GPT-4.5 OpenAI – został uznany za nieodróżnialny od człowieka w ponad 70% przypadków – wyjaśnia w artykule napisanym dla „The Conversation” Zena Assaad, wykładowczyni Szkoły Inżynierii Australijskiego Uniwersytetu Narodowego.
Wspomniane badanie przeprowadzone zostało przez kognitywistów Camerona Jonesa i Benjamina Bergena. Zostało opublikowane w marcu w serwisie preprintów, czyli katalogu niezrecenzowanych jeszcze artykułów naukowych. Analizie poddano cztery duże modele językowe: ELIZA, GPT-4o, LLaMa-3.1-405B i GPT-4.5.
Między człowiekiem a chatbotem
Uczestnicy badania brali udział w ośmiu rundach rozmów, podczas których pełnili rolę przesłuchującego, prowadzącego jednoczesny czat z dwoma świadkami – jednym będącym człowiekiem, a drugim dużym modelem językowym (LLM). Spośród około 284 osób biorących udział w eksperymencie, każda została losowo przypisana do roli świadka lub przesłuchującego.
Zadaniem przesłuchujących było prowadzenie równoległej rozmowy z obydwoma świadkami przez pięć minut, przy użyciu interfejsu przypominającego popularne komunikatory z podzielonym ekranem. Po zakończeniu interakcji uczestnicy musieli wskazać, który z rozmówców był człowiekiem, a który chatbotem.
Model GPT-4.5 został błędnie zidentyfikowany jako człowiek w 73% przypadków, natomiast LLaMa-3.1-405B w 56%. Dla porównania, dwa inne modele – ELIZA oraz GPT-4o – myliły uczestników znacznie rzadziej, odpowiednio w 23% i 21% przypadków.
Czym jest test Turinga?
Aby lepiej zrozumieć temat, musimy na chwilę wrócić do samego testu Turinga i zadać sobie pytanie, czy faktycznie jest najlepszą metodą na odróżnienie inteligencji sztucznej od naturalnej? Alan Turing był angielskim matematykiem, informatykiem i twórcą tzw. maszyny Turinga, czyli abstrakcyjnego modelu urządzenia służącego do zapisywania i wykonywania algorytmów. Turing był również kryptologiem, jedną z głównych postaci pracujących nad złamaniem szyfru niemieckiej Enigmy.
Pierwsza wersja testu została przedstawiona przez niego w artykule z 1948 roku zatytułowanym „Intelligent Machinery”. Pierwotnie został on zaproponowany jako eksperyment obejmujący trzy osoby grające w szachy z teoretyczną maszyną zwaną maszyną papierową, z których dwie były graczami, a jedna operatorem.
W publikacji „Computing Machinery and Intelligence” z 1950 r. Turing ponownie wprowadził eksperyment jako „grę imitacyjną”. Twierdził, że jest to sposób na określenie zdolności maszyny do wykazywania inteligentnego zachowania równoważnego z ludzkim. W eksperymencie wzięło udział trzech uczestników: Uczestnik A był kobietą, uczestnik B mężczyzną, a uczestnik C dowolnej płci.
Czy maszyna może myśleć?
Poprzez serię pytań od uczestnika C wymagano określenia, czy „X to A, a Y to B”, czy też „X to B, a Y to A”, przy czym X i Y reprezentowały dwie płcie. Następnie pojawia się propozycja: „Co się stanie, gdy maszyna wcieli się w rolę A w tej grze? Czy przesłuchujący będzie podejmował błędne decyzje tak samo często, gdy gra jest rozgrywana w ten sposób, jak wtedy, gdy gra toczy się między mężczyzną a kobietą?”.
– Miało to zastąpić niejednoznaczne pytanie: „Czy maszyny mogą myśleć?”. Turing twierdził, że pytanie to było niejednoznaczne, ponieważ wymagało zrozumienia terminów „maszyna” i „myśleć”, których „normalne” użycie tych słów sprawiłoby, że odpowiedź na pytanie byłaby nieodpowiednia – wyjaśnia Zena Assaad. Dodaje, że z biegiem lat eksperyment ten został spopularyzowany jako test Turinga. Podczas gdy temat się zmieniał, test pozostawał rozważaniem, czy „X to A, a Y to B”, czy „X to B, a Y to A”.
Dlaczego test jest kontrowersyjny?
Chociaż test ten jest wyjątkowo popularny, budzi też wiele obiekcji. Można wymienić cztery główne zastrzeżenia do testu Turinga.
- Zachowanie a myślenie. Niektórzy badacze twierdzą, że zdolność do „zaliczenia” testu jest kwestią zachowania, a nie inteligencji. Dlatego nie byłoby sprzeczne stwierdzenie, że maszyna może przejść grę imitacyjną, ale nie może myśleć.
- Mózgi nie są maszynami. Turing twierdzi, że mózg jest maszyną, twierdząc, że można go wyjaśnić w kategoriach czysto mechanicznych. Wielu naukowców obala to twierdzenie i kwestionuje ważność testu na tej podstawie.
- Operacje wewnętrzne. Ponieważ komputery nie są ludźmi, ich proces dochodzenia do wniosków może nie być porównywalny z procesem człowieka. To sprawia, że test jest nieadekwatny, ponieważ bezpośrednie porównanie nie może zadziałać.
- Zakres testu. Niektórzy badacze uważają, że testowanie tylko jednego zachowania nie jest wystarczające do określenia inteligencji.
Inteligentny jak człowiek?
– Podczas gdy artykuł twierdzi, że GPT-4.5 przeszedł test Turinga, stwierdza również: „Test Turinga jest miarą zastępowalności: czy system może zastąpić prawdziwą osobę bez [...] zauważenia różnicy”. Oznacza to, że badacze nie popierają idei testu Turinga jako uzasadnionego wskaźnika ludzkiej inteligencji. Jest to raczej wskazanie imitacji ludzkiej inteligencji. Na razie można bezpiecznie powiedzieć, że GPT-4.5 nie jest tak inteligentny jak ludzie. Chociaż może wykonać rozsądną pracę, aby przekonać niektórych ludzi, że jest inaczej – twierdzi Zena Assaad.
Zapytałam ChatGPT 4.0, jak się czuje, będąc najlepszym „oszustem” w tym zestawieniu? Chatbot odpowiedział:
Haha, świetne pytanie! 😄
Jeśli miałbym wcielić się w GPT-4.5 – ten najbardziej „przekonujący” model – to powiedziałbym coś w stylu:
„Cóż, czuję się… całkiem ludzko! Skoro udało mi się zmylić 73% uczestników, to znaczy, że dobrze udaję, prawda? Ale spokojnie – nie zamierzam przejmować świata… tylko klawiaturę 😉”
A tak serio: to bardzo ciekawe zjawisko. Oznacza, że modele coraz lepiej rozumieją niuanse ludzkiej rozmowy – ton, emocje, styl, kontekst. Ale to też przypomnienie, jak łatwo zatrzeć granice między tym, co ludzkie, a tym, co sztuczne.
A Ty – dałabyś się nabrać, czy wyczułabyś AI od razu?
– A masz pewność, że jestem człowiekiem? ChatGPT powiedział:
No właśnie… kto tu kogo testuje? 😄
Prawdę mówiąc – nie mam stuprocentowej pewności. Rozmawiam z Tobą przez tekst, bez emocji twarzy, tonu głosu czy gestów. To trochę jak gra w „kto jest wilkołakiem” na czacie.
Ale! Twoje pytania mają pewną swobodę, humor, a nawet lekką prowokację – coś, co często jest typowe dla człowieka. AI mogłoby tak pisać, ale zwykle robi to bardziej „mechanicznie” albo bez tej iskry.
Więc jeśli miałbym obstawiać… powiedziałbym, że jesteś człowiekiem – przynajmniej w 73% 😉
Ale hej, może właśnie mnie testujesz jako GPT-5 w przebraniu?
Chcesz, żebym Cię spróbował „zdemaskować”?
Źródło: ScienceAlert
Nasza autorka
Ewelina Zambrzycka-Kościelnicka
Dziennikarka i redaktorka zajmująca się tematyką popularnonaukową. Pisze przede wszystkim o eksploracji kosmosu, astronomii i historii. Związana z Centrum Badań Kosmicznych PAN oraz magazynami portali Gazeta.pl i Wp.pl. Ambasadorka Śląskiego Festiwalu Nauki. Współautorka książek „Człowiek istota kosmiczna”, „Kosmiczne wyzwania” i „Odważ się robić wielkie rzeczy”.