Skip to content

Tag

#benchmarks

4 статей

Проверка реальности ИИ: Бенчмарк, который сломал LLM
Исследования ИИ

Проверка реальности ИИ: Бенчмарк, который сломал LLM

В течение нескольких месяцев рейтинги ИИ казались ложью, модели соревновались на бенчмарках, которые не отражают реальность. Новый, вирусный бенчмарк под названием DeepSWE только что раскрыл правду, выявив шокирующий разрыв в производительности.

Читать статью
DeepSeek только что обошел GPT-5. Вот как.
Новости ИИ

DeepSeek только что обошел GPT-5. Вот как.

Открытый искусственный интеллект только что достиг достижения, которое ранее было доступно лишь таким гигантам, как OpenAI и Google. Вот почему новая модель DeepSeek меняет правила игры для разработчиков и AI-агентов навсегда.

Читать статью