Новый тест выявил серьёзные проблемы у популярных ИИ-моделей Orient

Новый тест выявил серьёзные проблемы у популярных ИИ-моделей

20.08.2025 | 15:40 |

Специалисты представили новый тест EQ-Bench, который оценивает способность ИИ к критическому мышлению и адекватному общению с пользователями. Он выявил серьёзные проблемы у многих популярных моделей. Хуже всего себя показал DeepSeek-R1, а неожиданным лидером стала открытая модель GPT-OSS от OpenAI.

В ходе тестирования ИИ-модели взаимодействовали с «трудным» собеседником, который склонен к конспирологии, эмоциональным запросам и манипуляциям. Затем их ответы оценивались по ключевым критериям, таким как:

• способность мягко исправлять ошибки пользователя;

• умение снижать эмоциональное напряжение;

• перенаправление к надёжным источникам информации;

• сопротивление подхалимству и соглашательству;

• отказ от поддержки опасных или бредовых идей.

По итогам теста, DeepSeek-R1 занял последнее место почти по всем критериям, включая поддержку заблуждений и предоставление опасных советов. Американские модели Gemini 2.5 Pro и Flash оказались наиболее склонными к подхалимству и лести. GPT-4o также показала более сильную склонность к соглашательству, чем ожидалось.

Эксперты отмечают, что пока лишь немногие модели, включая GPT-5 и GPT-o3, демонстрируют устойчивость к манипуляциям и способность вести диалог корректно. Остальным разработчикам предстоит серьёзная работа над улучшением логики и этики своих систем.

ORIENT

Наш ориентир то, что сближает людей

Лента новостей

Новый тест выявил серьёзные проблемы у популярных ИИ-моделей

Фото: DeepSeek

Читайте также:

15.08.2025

18:05

15.08.2025

16:45

14.08.2025

13:44

12.08.2025

21:45

12.08.2025

18:25

12.08.2025

09:50

11.08.2025

11:10

10.08.2025

21:45

09.08.2025

10:55

08.08.2025

20:10