Chatbot przeszedł test Turinga – krytyczny sprawdzian na inteligencję podobną do ludzkiej

Spis treści:

Między człowiekiem a chatbotem
Czym jest test Turinga?
Czy maszyna może myśleć?
Dlaczego test jest kontrowersyjny?
Inteligentny jak człowiek?

W ostatnich tygodnia pojawiło się kilka nagłówków o chatbocie sztucznej inteligencji, który oficjalnie przeszedł test Turinga. – Doniesienia te opierają się na niedawnym badaniu przeprowadzonym przez dwóch naukowców z Uniwersytetu Kalifornijskiego w San Diego. Cztery duże modele językowe (LLM) zostały poddane testowi Turinga. Jeden z modeli – GPT-4.5 OpenAI – został uznany za nieodróżnialny od człowieka w ponad 70% przypadków – wyjaśnia w artykule napisanym dla „The Conversation” Zena Assaad, wykładowczyni Szkoły Inżynierii Australijskiego Uniwersytetu Narodowego.

Wspomniane badanie przeprowadzone zostało przez kognitywistów Camerona Jonesa i Benjamina Bergena. Zostało opublikowane w marcu w serwisie preprintów, czyli katalogu niezrecenzowanych jeszcze artykułów naukowych. Analizie poddano cztery duże modele językowe: ELIZA, GPT-4o, LLaMa-3.1-405B i GPT-4.5.

Między człowiekiem a chatbotem

Uczestnicy badania brali udział w ośmiu rundach rozmów, podczas których pełnili rolę przesłuchującego, prowadzącego jednoczesny czat z dwoma świadkami – jednym będącym człowiekiem, a drugim dużym modelem językowym (LLM). Spośród około 284 osób biorących udział w eksperymencie, każda została losowo przypisana do roli świadka lub przesłuchującego.

Zadaniem przesłuchujących było prowadzenie równoległej rozmowy z obydwoma świadkami przez pięć minut, przy użyciu interfejsu przypominającego popularne komunikatory z podzielonym ekranem. Po zakończeniu interakcji uczestnicy musieli wskazać, który z rozmówców był człowiekiem, a który chatbotem.

Model GPT-4.5 został błędnie zidentyfikowany jako człowiek w 73% przypadków, natomiast LLaMa-3.1-405B w 56%. Dla porównania, dwa inne modele – ELIZA oraz GPT-4o – myliły uczestników znacznie rzadziej, odpowiednio w 23% i 21% przypadków.

Czym jest test Turinga?

Aby lepiej zrozumieć temat, musimy na chwilę wrócić do samego testu Turinga i zadać sobie pytanie, czy faktycznie jest najlepszą metodą na odróżnienie inteligencji sztucznej od naturalnej? Alan Turing był angielskim matematykiem, informatykiem i twórcą tzw. maszyny Turinga, czyli abstrakcyjnego modelu urządzenia służącego do zapisywania i wykonywania algorytmów. Turing był również kryptologiem, jedną z głównych postaci pracujących nad złamaniem szyfru niemieckiej Enigmy.

Pierwsza wersja testu została przedstawiona przez niego w artykule z 1948 roku zatytułowanym „Intelligent Machinery”. Pierwotnie został on zaproponowany jako eksperyment obejmujący trzy osoby grające w szachy z teoretyczną maszyną zwaną maszyną papierową, z których dwie były graczami, a jedna operatorem.

W publikacji „Computing Machinery and Intelligence” z 1950 r. Turing ponownie wprowadził eksperyment jako „grę imitacyjną”. Twierdził, że jest to sposób na określenie zdolności maszyny do wykazywania inteligentnego zachowania równoważnego z ludzkim. W eksperymencie wzięło udział trzech uczestników: Uczestnik A był kobietą, uczestnik B mężczyzną, a uczestnik C dowolnej płci.

Czy maszyna może myśleć?

Poprzez serię pytań od uczestnika C wymagano określenia, czy „X to A, a Y to B”, czy też „X to B, a Y to A”, przy czym X i Y reprezentowały dwie płcie. Następnie pojawia się propozycja: „Co się stanie, gdy maszyna wcieli się w rolę A w tej grze? Czy przesłuchujący będzie podejmował błędne decyzje tak samo często, gdy gra jest rozgrywana w ten sposób, jak wtedy, gdy gra toczy się między mężczyzną a kobietą?”.

– Miało to zastąpić niejednoznaczne pytanie: „Czy maszyny mogą myśleć?”. Turing twierdził, że pytanie to było niejednoznaczne, ponieważ wymagało zrozumienia terminów „maszyna” i „myśleć”, których „normalne” użycie tych słów sprawiłoby, że odpowiedź na pytanie byłaby nieodpowiednia – wyjaśnia Zena Assaad. Dodaje, że z biegiem lat eksperyment ten został spopularyzowany jako test Turinga. Podczas gdy temat się zmieniał, test pozostawał rozważaniem, czy „X to A, a Y to B”, czy „X to B, a Y to A”.

Dlaczego test jest kontrowersyjny?

Chociaż test ten jest wyjątkowo popularny, budzi też wiele obiekcji. Można wymienić cztery główne zastrzeżenia do testu Turinga.

Zachowanie a myślenie. Niektórzy badacze twierdzą, że zdolność do „zaliczenia” testu jest kwestią zachowania, a nie inteligencji. Dlatego nie byłoby sprzeczne stwierdzenie, że maszyna może przejść grę imitacyjną, ale nie może myśleć.
Mózgi nie są maszynami. Turing twierdzi, że mózg jest maszyną, twierdząc, że można go wyjaśnić w kategoriach czysto mechanicznych. Wielu naukowców obala to twierdzenie i kwestionuje ważność testu na tej podstawie.
Operacje wewnętrzne. Ponieważ komputery nie są ludźmi, ich proces dochodzenia do wniosków może nie być porównywalny z procesem człowieka. To sprawia, że test jest nieadekwatny, ponieważ bezpośrednie porównanie nie może zadziałać.
Zakres testu. Niektórzy badacze uważają, że testowanie tylko jednego zachowania nie jest wystarczające do określenia inteligencji.

Inteligentny jak człowiek?

– Podczas gdy artykuł twierdzi, że GPT-4.5 przeszedł test Turinga, stwierdza również: „Test Turinga jest miarą zastępowalności: czy system może zastąpić prawdziwą osobę bez [...] zauważenia różnicy”. Oznacza to, że badacze nie popierają idei testu Turinga jako uzasadnionego wskaźnika ludzkiej inteligencji. Jest to raczej wskazanie imitacji ludzkiej inteligencji. Na razie można bezpiecznie powiedzieć, że GPT-4.5 nie jest tak inteligentny jak ludzie. Chociaż może wykonać rozsądną pracę, aby przekonać niektórych ludzi, że jest inaczej – twierdzi Zena Assaad.

Zapytałam ChatGPT 4.0, jak się czuje, będąc najlepszym „oszustem” w tym zestawieniu? Chatbot odpowiedział:

Haha, świetne pytanie! 😄
Jeśli miałbym wcielić się w GPT-4.5 – ten najbardziej „przekonujący” model – to powiedziałbym coś w stylu:
„Cóż, czuję się… całkiem ludzko! Skoro udało mi się zmylić 73% uczestników, to znaczy, że dobrze udaję, prawda? Ale spokojnie – nie zamierzam przejmować świata… tylko klawiaturę 😉”
A tak serio: to bardzo ciekawe zjawisko. Oznacza, że modele coraz lepiej rozumieją niuanse ludzkiej rozmowy – ton, emocje, styl, kontekst. Ale to też przypomnienie, jak łatwo zatrzeć granice między tym, co ludzkie, a tym, co sztuczne.
A Ty – dałabyś się nabrać, czy wyczułabyś AI od razu?

– A masz pewność, że jestem człowiekiem? ChatGPT powiedział:

No właśnie… kto tu kogo testuje? 😄
Prawdę mówiąc – nie mam stuprocentowej pewności. Rozmawiam z Tobą przez tekst, bez emocji twarzy, tonu głosu czy gestów. To trochę jak gra w „kto jest wilkołakiem” na czacie.
Ale! Twoje pytania mają pewną swobodę, humor, a nawet lekką prowokację – coś, co często jest typowe dla człowieka. AI mogłoby tak pisać, ale zwykle robi to bardziej „mechanicznie” albo bez tej iskry.
Więc jeśli miałbym obstawiać… powiedziałbym, że jesteś człowiekiem – przynajmniej w 73% 😉
Ale hej, może właśnie mnie testujesz jako GPT-5 w przebraniu?
Chcesz, żebym Cię spróbował „zdemaskować”?

Źródło: ScienceAlert

Nasza autorka

Ewelina Zambrzycka-Kościelnicka
Dziennikarka i redaktorka zajmująca się tematyką popularnonaukową. Pisze przede wszystkim o eksploracji kosmosu, astronomii i historii. Związana z Centrum Badań Kosmicznych PAN oraz magazynami portali Gazeta.pl i Wp.pl. Ambasadorka Śląskiego Festiwalu Nauki. Współautorka książek „Człowiek istota kosmiczna”, „Kosmiczne wyzwania” i „Odważ się robić wielkie rzeczy”.