Syntetyczne głosy często mylone z ludzkimi. Naukowcy ujawniają dane

Postęp w dziedzinie sztucznej inteligencji (SI) wyraźnie przyspieszył w ostatnich latach. Widzimy to na co dzień – zmienia się to, w jaki sposób „konsumujemy” internet. Klasyczna wyszukiwarka Google czy Microsfotu nie wygląda już jak przed laty.

Narzędzia sztucznej inteligencji wchodzą niemal w każdą dziedzinę życia – od sportu (smartwatche), po naszą dietę (którą SI nam skomponuje). Ale sztuczna inteligencja też do nas mówi i to swoim głosem. Grupa badaczy z Instytut Estetyki Empirycznej im. Maksa Plancka w Niemczech i Uniwersytetu Sztuk Stosowanych w Wiedniu w Austrii postanowiła zbadać, jak na takie głosy reagują ludzie. Wyniki badania zostały opublikowane w czasopiśmie „Computers in Human Behavior: Artificial Humans”.

Mów do mnie miło

W badaniu online wzięło udział łącznie 75 osób. Uczestnicy słuchali różnych wersji zdania wypowiadanego łącznie przez osiem głosów. Cztery z nich były głosami ludzi, a pozostałe cztery to sztucznie wygenerowane głosy przez syntezator mowy.

Każdy głos wypowiadał zdania w różnych tonach emocjonalnych: neutralnym, radosnym, smutnym i gniewnym. Uczestnicy oceniali atrakcyjność głosów i wskazywali, jak bardzo chcieliby z nimi wchodzić w interakcję. Opisywali również, jakie emocje odczuwali w każdym przypadku.

– Głosy radosne były oceniane ogólnie bardziej pozytywnie niż te, które brzmiały smutno lub gniewnie – niezależnie od tego, czy były to głosy ludzkie czy sztucznie wygenerowane. Sugeruje to, że odczuwana emocja wpływa na ocenę wszystkich głosów w ten sam sposób lub że głosy sztucznej inteligencji są traktowane podobnie do głosów ludzkich – mówi główna autorka badania dr Camila Bruder.

Czy mówi do mnie maszyna?

Uczestników badania poproszono również o wskazanie, czy uważają dany głos za ludzki czy wygenerowany przez sztuczną inteligencję. Słuchacze prawidłowo rozpoznali głosy ludzkie w 86% przypadków, w porównaniu z zaledwie 55% głosów sztucznej inteligencji. Błędne postrzeganie było najbardziej widoczne w przypadku głosów sztucznej inteligencji wypowiadających zdania w sposób gniewny. Może to wynikać z faktu, że uczestnicy oczekiwali, iż maszyna mówi w sposób bardziej beznamiętny.

Starość nie radość

Naukowcy dostrzegli też ciekawą zależność. Wiek miał wpływ na właściwe przypisanie głosu. Starsi uczestnicy mieli większe trudności z odróżnianiem głosów ludzkich od generowanych przez sztuczną inteligencję. Jednak fakt, że większość uczestników dała się „oszukać” głosom syntezatora mowy, wskazuje na znaczny postęp w zakresie ekspresyjności tych systemów.

Głos ludzki to jest to

Jedna z badaczek zaangażowanych w badanie, dr Pauline Larrouy-Maestri zauważa, że głosy ludzkie nadal były postrzegane jako bardziej atrakcyjne i pociągające niż głosy syntetyczne. – Jednak w ocenie występowały istotne różnice indywidualne. Wynik ten podkreśla potrzebę dalszych badań z wykorzystaniem bardziej zaawansowanych metod oceny i szerszego spektrum słuchaczy. Tylko w ten sposób możemy uchwycić percepcję głosu ludzkiego w całej jej złożoności – kończy.

Źródło: Computers in Human Behavior: Artificial Humans

Nasz autor

Szymon Zdziebłowski
Dziennikarz naukowy i podróżniczy, z wykształcenia archeolog śródziemnomorski. Przez wiele lat był związany z Serwisem Nauka w Polsce PAP. Opublikował m.in. dwa przewodniki turystyczne po Egipcie, a ostatnio – popularnonaukową książkę „Wielka Piramida. Tajemnice cudu starożytności” o największej egipskiej piramidzie. Miłośnik niewielkich, lokalnych muzeów. Uwielbia długie trasy rowerowe, szczególnie te prowadzące wzdłuż rzek. Lubi poznawać nieznane zakamarki Niemiec, zarówno na dwóch kółkach, jak i w czasie górskiego trekkingu.