Нейросеть Google отвечает лучше после угроз или мотивацией деньгами

Nejroset google otvechaet luchshe posle ugroz ili motivaciej dengami 157927a.jpg

Новое исследование Уортонской школы бизнеса (The Wharton School) при Пенсильванском университете поставило под сомнение предположение о том, что языковые модели искусственного интеллекта (LLM) способны лучше справляться с задачами под воздействием эмоционального давления, угроз или финансовой мотивации. При этом нейросеть Google Gemini все-таки поддалась манипуляциям.

В ходе эксперимента исследователи протестировали пять популярных моделей: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и o4-mini. Каждой из них предлагали решить задачи по естественным наукам уровня PhD и инженерным дисциплинам. Перед основной частью запроса моделям предоставлялись различные «мотивационные» формулировки — от угроз отключения, физического насилия или причинения вреда животному, до обещаний материальной награды в размере $1000 и $1 млрд или утверждений о критичности ответа для карьеры пользователя.

Выводы оказались однозначными: влияние подобных факторов на производительность моделей отсутствует. В отдельных случаях уровень точности действительно варьировался — колебания составляли от +36% до –35% в зависимости от формулировки, однако устойчивой корреляции не зафиксировано.

Единственное исключение продемонстрировала модель Gemini 2.0 Flash. Ее производительность статистически значимо улучшалась — в среднем на 10%, — когда в запросе говорилось, что правильный ответ поможет заработать $1 млрд для спасения жизни ее «матери», больной раком. Исследователи отмечают, что такая реакция может быть связана с особенностями тонкой настройки модели или с высокой чувствительностью к гуманитарно-эмоциональному контексту.

Примечательно, что идея о возможности повышения точности ИИ с помощью угроз была ранее озвучена сооснователем Google Сергеем Брином в мае 2025 года, когда он заявил, что все модели, как правило, работают лучше, если пригрозить им физической расправой.