Системы искусственного интеллекта как никогда близки к прохождению теста Тьюринга на разумность
В 1950 году английский ученый Алан Тьюринг предложил экспериментальный метод для оценки искусственного интеллекта компьютера. Он высказал идею, что если человек после пяти минут общения с искусственным интеллектом (ИИ) не сможет понять, с кем он разговаривает - с машиной или с другим человеком, то это будет свидетельствовать о наличии у ИИ "разума", подобного человеческому.
реклама
Хотя при жизни инженера системы искусственного интеллекта были весьма далеки от того, чтобы пройти тест Тьюринга, он предположил, что
"[...] примерно через пятьдесят лет можно будет запрограммировать компьютеры [...] так, чтобы они настолько хорошо имитировали действия человека, что среднестатистический дознаватель после пяти минут разговора c вероятностью в 70 процентов не сумеет понять кто перед ним - человек или машина".
Сегодня, спустя более 70 лет после того, как Тьюринг сформулировал свою идею, ни один ИИ не смог успешно пройти тест, выполнив описанные им условия. Тем не менее, как свидетельствуют заголовки газет, некоторые системы подошли к этому довольно близко.
В одном из недавних экспериментов были протестированы три большие языковые модели, в том числе GPT-4 (технология искусственного интеллекта, лежащая в основе ChatGPT). Участники эксперимента в течение двух минут общались либо с другим человеком, либо с системой искусственного интеллекта. При этом искусственному интеллекту предлагалось делать небольшие орфографические ошибки - и прекращать общение, если участник эксперимента становился слишком агрессивным.
реклама
С помощью этих подсказок ИИ удавалось успешно обманывать тестеров. В паре с ИИ-ботом испытуемые лишь в 60 процентах случаев смогли правильно определить, что они разговаривают с системой искусственного интеллекта.
Китайские инженеры построили квантовый компьютер на 255 кубитов продемонстрировав его невероятную мощность |
Учитывая стремительный прогресс, достигнутый в создании систем обработки естественного языка, можно предположить, что уже в ближайшие несколько лет искусственный интеллект пройдет оригинальный тест Тьюринга. Но действительно ли имитация человека является эффективным тестом на интеллект? И если нет, то какие альтернативные критерии можно использовать для оценки возможностей искусственного интеллекта?
Проблемы и ограничения теста Тьюринга
Хотя система, прошедшая тест Тьюринга, должна свидетельствовать о наличии у нее "разума", этот тест не является решающим в вопросах оценки интеллектуальных способностей. Одна из проблем заключается в том, что он может давать "ложноотрицательные результаты".
Современные большие языковые модели (large language models, LLM) часто разрабатываются таким образом, чтобы можно было сразу определить, что они не являются "человеком". Например, если вы задаете вопрос ChatGPT, он часто сопровождает свой ответ фразой "as an AI language model". Но даже если системы искусственного интеллекта обладали бы способностью пройти тест Тьюринга, подобное программирование аннулировало бы такую возможность.
реклама
Далее, тест Тьюринга нацелен, прежде всего, на человеческое познание. Если возможности ИИ отличаются от человеческих, то эксперт, проводящий опрос, сможет найти задачу, при решении которой производительность искусственного интеллекта и человека будет различаться.
Рассматривая эту проблему, Тьюринг писал [...] Это довольно серьезное противоречие. Но, по крайней мере, можно сказать, что если, все же, удастся построить машину, которая будет эффективно "играть в имитацию", то это противоречие нас не должно беспокоить. Другими словами, если прохождение теста Тьюринга является хорошим доказательством того, что система разумна, то провал этого теста вовсе не означает, что система не обладает интеллектом.
Более того, этот тест не позволяет определить, обладает ли искусственный интеллект сознанием, может ли он испытывать боль или удовольствие, способен ли он понимать моральные ценности. По мнению многих ученых-когнитивистов, сознание подразумевает наличие определенного набора умственных способностей, включая рабочую память, мысли высшего порядка, способность воспринимать окружающую среду и моделировать движение своего тела в этой среде. Тест Тьюринга не дает ответа на вопрос, обладают ли системы искусственного интеллекта этими способностями.
Растущий потенциал систем искусственного интеллекта
реклама
Тест Тьюринга основан на определенной логике. То есть: человек разумен, поэтому все, что может эффективно имитировать человека, скорее всего, будет разумным. Однако такая идея ничего не говорит о природе интеллекта. Другой способ измерения интеллекта ИИ предполагает более критическое отношение к тому, что такое интеллект. В настоящее время не существует какого-либо единого теста, который мог бы адекватно измерить искусственный или человеческий интеллект.
Соединенные Штаты ужесточат контроль за поставками в Китай компонентов систем искусственного интеллекта |
В самом широком смысле интеллект можно рассматривать как способность достигать различных целей в различных условиях. Наиболее разумными системами являются те, которые могут достигать более широкого спектра целей в более широком диапазоне сред.
Поэтому лучшим способом отслеживания прогресса в разработке систем искусственного интеллекта "общего назначения" является оценка их производительности в различных задачах. Исследователи в области машинного обучения разработали ряд эталонных тестов, которые позволяют это осуществить.
Например, мультимодальная большая языковая модель GPT-4 смогла правильно ответить на 86 процентов вопросов в режиме массового многозадачного обучения языку - критерии оценки эффективности выполнения тестов с несколькими вариантами ответов по целому ряду учебных дисциплин на уровне колледжа.
GPT-4 также продемонстрировал хорошие результаты в тесте AgentBench - инструменте, позволяющем оценить способность большой языковой модели вести себя как агент, например, просматривать веб-страницы, покупать товары в Интернете или принимать участие в играх.
Тест Тьюринга — это оценка имитации - способности искусственного интеллекта моделировать поведение человека. Большие языковые модели являются "экспертами" в имитации, что в настоящее время отражается на их способности пройти тест Тьюринга. Однако разум — это не одно и то же, что его имитация.
Существует столько же видов интеллекта, сколько и задач, которые необходимо решить. Лучший способ понять уровень интеллекта ИИ - следить за его прогрессом в развитии целого ряда важных возможностей. При этом очень важно не "менять ориентиры", отвечая на вопрос о том, является ли ИИ разумным. Поскольку возможности ИИ постоянно совершенствуются, критики идеи искусственного разума постоянно пытаются отыскать новые задачи, с которыми системы AI не могут справиться, и лишь потом обнаруживают, что они преодолели очередное "препятствие". В этом случае актуальным становится не вопрос о том, являются ли системы ИИ разумными, а, скорее, о том, какими качествами интеллекта они могут обладать.
Лента материалов
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.
Комментарии Правила