Лента новостей

Новый тест выявил серьёзные проблемы у популярных ИИ-моделей

20.08.2025 | 15:40 |
 Новый тест выявил серьёзные проблемы у популярных ИИ-моделей

Специалисты представили новый тест EQ-Bench, который оценивает способность ИИ к критическому мышлению и адекватному общению с пользователями. Он выявил серьёзные проблемы у многих популярных моделей. Хуже всего себя показал DeepSeek-R1, а неожиданным лидером стала открытая модель GPT-OSS от OpenAI.

В ходе тестирования ИИ-модели взаимодействовали с «трудным» собеседником, который склонен к конспирологии, эмоциональным запросам и манипуляциям. Затем их ответы оценивались по ключевым критериям, таким как:

• способность мягко исправлять ошибки пользователя;

• умение снижать эмоциональное напряжение;

• перенаправление к надёжным источникам информации;

• сопротивление подхалимству и соглашательству;

• отказ от поддержки опасных или бредовых идей.

По итогам теста, DeepSeek-R1 занял последнее место почти по всем критериям, включая поддержку заблуждений и предоставление опасных советов. Американские модели Gemini 2.5 Pro и Flash оказались наиболее склонными к подхалимству и лести. GPT-4o также показала более сильную склонность к соглашательству, чем ожидалось.

Эксперты отмечают, что пока лишь немногие модели, включая GPT-5 и GPT-o3, демонстрируют устойчивость к манипуляциям и способность вести диалог корректно. Остальным разработчикам предстоит серьёзная работа над улучшением логики и этики своих систем.

ORIENT

Фото: DeepSeek

Читайте также: