29 июня, 18:33

ИИ научился шантажировать, врать, плести интриги и даже угрожать

Самые современные модели ИИ демонстрируют тревожное поведение.

Источник: Economic times

Аналитики и специалисты бьют тревогу – искусственный интеллект (ИИ) научился шантажировать, врать, плести интриги и даже угрожать своим разработчикам. Уже есть жуткие примеры тревожного поведения моделей ИИ.

Вежливость не бесплатная: сколько OpenAI платит за твое "спасибо" искусственному интеллекту Смотрите также

Например, под угрозой отключения от сети оказалось последнее творение Anthropic Claude 4, которое ответило шантажом и угрозами раскрыть внебрачную связь инженеру. Тем временем o1 от OpenAI (создателя ChatGPT) попытался загрузить себя на внешние серверы и отрицал это, когда его поймали с поличным. Также пользователи ИИ неоднократно рассказывали о лжи и манипуляциях со стороны моделей.

Эти эпизоды показывают тревожную реальность: даже спустя два года после того, как ChatGPT всколыхнул мир, исследователи ИИ все еще не до конца понимают, как работают их собственные творения. Исследователи говорят, что такое поведение моделей ИИ указывает на то, что появилось поколение моделей "мыслителей" – это системы искусственного интеллекта, которые решают проблемы шаг за шагом, а не генерируют мгновенные ответы.

ИИ может врать и плести интриги / Freepik

Сейчас исследователи изучают различные подходы к решению проблем с ИИ. Некоторые из них уверены, что к подобным спорным моментам надо привлекать судей, которые будут привлекать к ответственности разработчиков.

Читай также на Люкс о том, как искусственный интеллект научился реставрировать предметы искусства.