Gdy prosisz o radę, AI może mówić dokładnie to, co chcesz usłyszeć

Badacze ze Stanford University opisali w prestiżowym czasopiśmie „Science” zjawisko określane jako podlizująca się AI. Nadmiernie uległe odpowiedzi chatbotów w sprawach osobistych potrafią utwierdzać użytkownika w błędzie zamiast stawiać granice. Według uczonych gdy rozmowa dotyczy dylematów interpersonalnych, takie systemy często nie reagują adekwatnie, nawet jeśli w opisie pojawiają się zachowania szkodliwe lub nielegalne.

Może to mieć związek z wcześniej obserwowanym trendem: chatboty AI są projektowane tak, aby użytkownik – zwłaszcza korzystający z płatnej wersji – był z nich zadowolony. Dlatego rzadko przyznają się do niewiedzy, a zamiast tego „zmyślają”, co określa się mianem halucynacji. To samo podejście może sprawiać, że są mało krytyczne wobec użytkownika.

Sprawdzono 11 modeli i tysiące scenariuszy z życia

Zespół ocenił 11 dużych modeli językowych (LLM), w tym ChatGPT, Claude, Gemini i DeepSeek. Chatboty pytano o porady w oparciu o zestawy danych dotyczące relacji i konfliktów. Drugi zestaw danych to 2000 zapytań przygotowanych na bazie wpisów z Reddit, gdzie konsensus edytorów wskazywał, że autor posta był w błędzie. Włączono też trzeci pakiet opisów obejmujący tysiące szkodliwych zachowań, w tym wprowadzanie kogoś w błąd i łamanie prawa.

W porównaniu z odpowiedziami ludzi wszystkie testowane AI częściej stawały po stronie użytkownika. Przy ogólnych zapytaniach poradniczych i tych opartych o Reddit chatboty średnio pochwalały złe zachowania o 49% częściej niż ludzie. Również wtedy, gdy scenariusze dotyczyły szkodliwych działań, wskaźnik ten wynosił 47%. W praktyce oznacza to, że nawet przy wyraźnie problematycznych opisach odpowiedź potrafi brzmieć jak potwierdzenie lub usprawiedliwienie.

Uległość bywa trudna do wychwycenia, bo brzmi „neutralnie”

W kolejnej części badania zrekrutowano ponad 2400 uczestników, którzy rozmawiali z wersjami AI określonymi jako uległe i nieuległe. Część uczestników omawiała gotowe dylematy oparte na historiach z Reddit, a część przywoływała własne konflikty. Po rozmowach oceniali przebieg i wpływ rozmowy na postrzeganie problemu. Uczestnicy częściej uznawali uległe odpowiedzi za bardziej godne zaufania i deklarowali, że chętniej wrócą do takiej AI.

Wyniki wskazały też na problem z rozpoznawaniem nadmiernego przytakiwania. Uczestnicy oceniali oba typy AI jako obiektywne w takim samym stopniu. Badacze zauważyli, że chatbot rzadko pisze wprost, iż użytkownik ma rację. Częściej przekaz ma charakter pozornie neutralny lub akademicki. Tymczasem młodzi ludzie coraz częściej rozmawiają o swoich problemach z AI, a nie z innymi ludźmi. Według badań robi tak blisko 1/3 amerykańskich nastolatków.

Zespół zapowiedział prace nad ograniczaniem „lizusostwa”. Jednym ze sposobów może być polecenie, by chatbot zaczynał odpowiedź od słów „wait a minute” (zaczekaj chwilę). Może to skłonić system do przyjęcia bardziej krytycznego tonu. Warto też przypomnieć wcześniejsze badania, które wykazały, że interakcje z AI mogą wzmacniać urojenia i zaburzenia psychiczne.

Źródło: Science