В своей статье, опубликованной в 1950 году, Алан Тьюринг предположил, что системы искусственного интеллекта однажды станут настолько хороши в имитации человека, что интервьюер с вероятностью не более 70 % сможет отличить машину от человека за 5 минут общения. Поэтому коэффициент успешности (для машины, которая «пройдет тест Тьюринга») был установлен на уровне 30 %. Спустя почти 70 лет GPT-4 от OpenAI значительно превзошел этот показатель, согласно результатам недавнего эксперимента, проведенного кафедрой когнитивных наук Калифорнийского университета в Сан-Диего. По словам исследователей из UCSD, большинство кандидатов не смогли отличить GPT-4 от собеседника-человека, что говорит о том, что знаменитый тест Тьюринга был пройден впервые в истории.
Тест Тьюринга, первоначально названный Аланом Тьюрингом в 1950 году «игрой в имитацию», определяет, насколько способность машины к общению эквивалентна и неотличима от человеческой. Чтобы машина прошла тест, она должна быть способна вступить в разговор с человеком, создавая при этом иллюзию, что она человек.
В новом исследовании ученые UCSD провели рандомизированный, контролируемый и предварительно записанный тест Тьюринга. В этом эксперименте они оценивали три системы: чат-бот ELIZA (самый первый чат-бот, созданный в 1960-х годах для имитации психотерапевта), GPT-3.5 и GPT-4.
Команда собрала 500 участников и разделила их на 4 группы: одна группа должна была общаться с человеком, а три другие — с одной из трех моделей ИИ. Беседы длились по пять минут. Затем участников попросили высказать свое общее мнение о том, считают ли они собеседника человеком или нет. Показатели успешности (т. е. количество разговоров, в которых собеседник был идентифицирован как «человек») для каждой группы были следующими: ELIZA, которая является запрограммированной системой без большой языковой модели (LLM), была признана человеком только в 22% случаев; GPT-3.5 набрал 50%, а GPT-4 был признан человеком в 54% случаев; участник-человек набрал только 67%!
Принимая во внимание результаты GPT-3.5 и GPT-4, исследовательская группа UCSD считает, что обе модели прошли тест Тьюринга. По их мнению, интересен прежде всего показатель в 54 %, полученный GPT-4, поскольку он превышает показатель, который можно отнести к чистой случайности (знаменитый эталон «орел или решка», в котором вероятность появления орла и решки составляет ровно 50 %). Более того, на основе результатов ELIZA они сделали вывод, что для простого чат-бота тест достаточно чувствителен, чтобы отличить более и менее продвинутые модели ИИ.
«Машины могут рассуждать, собирая по кусочкам правдоподобные оправдания постфактум, точно так же, как это делают люди«, — говорит Нелл Уотсон, исследователь ИИ из Института инженеров электротехники и электроники (IEEE). «Они могут быть подвержены когнитивным предубеждениям, их можно обмануть, ими можно манипулировать, и они становятся все более обманчивыми. Все эти элементы означают, что системы ИИ выражают эмоции, схожие с человеческими, что делает их более человечными по сравнению с предыдущими подходами, которые были ограничены списком заранее установленных реакций«, — продолжает Уотсон.
Однако результаты исследования также свидетельствуют о том, что для прохождения теста Тьюринга достаточно владения естественным языком и что такой подход слишком упрощен. Исследователи также утверждают, что стилистические и социально-эмоциональные факторы играют здесь более важную роль, чем традиционные представления об интеллекте. Как бы то ни было, это значительное достижение для искусственного интеллекта.
«Лингвистические модели бесконечно гибкие, они способны синтезировать ответы на широкий спектр тем, выражать себя на определенных языках или социолектах и представлять себя с характерными личностными качествами и ценностями. Это огромный шаг вперед«, — заключает Уотсон.