Клод 4.5: ИИ, который только что сверг Гугл

Anthropic только что выпустила Claude Opus 4.5, непосредственно бросив вызов новейшему Gemini 3 Pro от Google в впечатляющем рыночном маневре. Узнайте, какая модель теперь доминирует в кодировании, разумных рассуждениях и будущем агентного ИИ.

Stork.AI
Hero image for: Клод 4.5: ИИ, который только что сверг Гугл
💡

TL;DR / Key Takeaways

Anthropic только что выпустила Claude Opus 4.5, непосредственно бросив вызов новейшему Gemini 3 Pro от Google в впечатляющем рыночном маневре. Узнайте, какая модель теперь доминирует в кодировании, разумных рассуждениях и будущем агентного ИИ.

Арена ИИ только что взорвалась

Gemini 3 Pro от Google едва успел насладиться своей коронацией, как на сцену вышел новый соперник. Всего через несколько дней доминирования Gemini 3 Pro в обсуждениях AI в Twitter и оценочных таблицах, Anthropic представила Opus 4.5, мгновенно заставив переписать нарратив о том, «кто на вершине?».

Gemini 3 Pro установил жесткую планку. Он поразил разработчиков исключительной производительностью кодирования, выдал потрясающую графику с помощью Nanaban Pro и набрал 76,2% на SWE-Verified, одном из самых уважаемых стандартов кодирования. На короткое время казалось, что Google завоевал корону в области рассуждений, многомодального понимания и генерации кода.

Opus 4.5 приходит как «скромное» обновление, но на этом уровне скромное выглядит монументально. На SWE-Verified Opus 4.5 достигает 80,9%, значительно опережая 76,2% Gemini 3 Pro в тесте, где каждое процентное значение дается с трудом. В тесте на использование компьютеров OS World Opus 4.5 набирает 66,3% против 62,9% Claude Sonnet 4.5, устанавливая новый рекорд для моделей, предназначенных для работы в настольной среде.

Бенчмарки теперь напоминают боксерский судейский кард, а не простую таблицу лидеров. Opus 4.5 опережает Gemini 3 Pro в терминальном кодировании и использовании инструментов, хотя немного уступает в некоторых «классических» экзаменах, таких как GPQA и MMU, где Gemini и последние модели GPT от OpenAI продолжают обмен ударами. Даже в симуляциях с длительным горизонтом «управление бизнесом в течение 350 дней», таких как Vending Bench 2, Gemini 3 Pro сохраняет небольшое преимущество — чуть менее $5,500 в симулированной прибыли против чуть менее $5,000 для Opus 4.5.

В этой статье рассматриваются Opus 4.5 и Gemini 3 Pro как прямое сопоставление по таким критериям, как кодирование, логическое мышление, использование компьютера, многомодальная работа и эффективность затрат, чтобы определить, какая модель на самом деле представляет собой современное состояние дел в конце 2025 года. Anthropic, Google и OpenAI сейчас развиваются так быстро, что "король холма" удерживается примерно столько же времени, сколько длится презентация нового продукта. Для пользователей эта гонка вооружений напрямую приводит к более дешевым токенам, более умным агентам и моделям, которые могут не только написать ваше приложение, но и установить его, протестировать и тихо запускать ваши таблицы, пока вы спите.

Новый Шериф в Мире Кода

Blog illustration

На этой неделе тихо обновилась новая таблица лидеров на SWE-verified, одном из немногих тестов по программированию, который действительно пытается измерить реальные навыки в области разработки программного обеспечения, а не простые головоломки. Opus 4.5 набирает 80.9 баллов, опережая Gemini 3 Pro на 76.2 с такой разницей, что это вряд ли случайность. SWE-verified проверяет не только то, компилируется ли код, но и проходит ли он полные тестовые наборы в рамках больших многофайловых проектов, поэтому разрыв более четырех баллов свидетельствует о более надежной реализации от начала до конца.

Цифры становятся более осязаемыми благодаря одноразовому клону Minecraft, который сейчас демонстрирует Anthropic. Opus 4.5 сгенерировал примерно 3,500 строк кода за один проход, связывая генерацию миров с несколькими биомами, базовым крафтом и игровым циклом без человеческого вмешательства для соединения частичных выходов. Генерация длинного кода в таком масштабе подчеркивает все аспекты, в которых модели плохи: соблюдение порядка API, избегание циклических импортов и поддержание единых структур данных в сотнях вызовов.

Anthropic также протестировала Opus 4.5 на известном своем внутреннем испытании для инженеров, представляющем собой многочасовое задание, которое компании используют для фильтрации старших кандидатов. По данным компании, Opus 4.5 превзошел результаты каждого человека, когда-либо проходившего этот тест, не только по правильности, но и по скорости и архитектурному качеству. Этот результат потребует внешней проверки, но он согласуется с тем, что показывают публичные тесты по программированию.

Где разработчики почувствуют изменения наиболее сильно, так это в Агентном Терминальном Кодировании. На Terminal-Bench, который измеряет автономную работу с командной строкой, Opus 4.5 набирает 59.3 против 54.2 у Gemini 3 Pro, что дает значительное преимущество, когда вы позволяете ИИ выполнять команды shell на реальных системах. Агентное Терминальное Кодирование означает, что модель планирует последовательность команд, выполняет их, проверяет ошибки и восстанавливается без стороннего контроля.

Для разработчиков это означает более безопасную автоматизацию задач, которые ранее выполнялись вручную: настройка и конфигурация разработческих сред, выполнение и исправление миграций, просмотр логов для отслеживания регрессий или настройка cron-задач и CI-скриптов. В сочетании с лидерством Opus 4.5 в области общего использования компьютеров, он начинает восприниматься не просто как автоматический автозаполнение кода, а скорее как младший инженер, который живет внутри вашего терминала.

Битва за сырую разведку

Показатели исходной интеллекции демонстрируют более напряженную борьбу, чем предполагают результаты кодирования. На ARC-AGI-2 компания Anthropic сообщает, что Opus 4.5 достигает точности около 37–38%, что более чем вдвое превышает некоторые ранние базовые показатели и обходится Gemini 3 Pro примерно на 6 процентных пунктов при схожих "бюджетах мышления". Этот результат, выделенный в официальном Анонсе Claude Opus 4.5 от Anthropic, теперь является эталоном для выпущенных передовых моделей, когда речь идет о выявлении абстрактных паттернов, а не о воспоминаниях тривиальной информации.

ARC-AGI-2 акцентирует внимание на композиционном рассуждении по странным, синтетическим задачам, которые трудно запомнить. Когда Anthropic увеличивает объем контекста, используемого для внутреннего «мышления», с 0 до 64K токенов, кривая интеллекта Opus 4.5 поднимается быстрее, чем у конкурентов, обеспечивая наилучшие результаты на графиках стоимости по сравнению с оценками. Неопубликованный вариант Deep Think от Gemini всё ещё показывает более высокие чистые показатели, но Opus 4.5 достигает своих успехов с гораздо меньшими потерями токенов и по более низкой цене за задачу.

Общепринятые и экзаменационные показатели рассказывают более тонкую историю. В тестах формата GPQA и MMU, которые представляют собой «последний экзамен человечества», Opus 4.5 лишь немного отстает от Gemini 3 Pro, а по некоторым подтестам – от GPT 5.1. Gemini по-прежнему демонстрирует высокие результаты в области академического QA в длинных форматах, плотного понимания текста и многомодальных вопросов, которые сочетают диаграммы, графики и текст.

Использование компьютера является тем местом, где Opus 4.5 устанавливает ясный стандарт. На бенчмарке OS World, который измеряет успех в реальных задачах графического интерфейса — установке приложений, настройке параметров, навигации по файловым системам — Opus 4.5 достиг 66,3% успешности. Этот результат превосходит предыдущего чемпиона, Claude Sonnet 4.5, с показателем 62,9%, и устанавливает новую высокую планку для выпущенных моделей на переднем крае, которые действительно управляют рабочим столом, а не просто говорят о нем.

Н ninguna лаборатория владеет всеми лидербордами. Opus 4.5 занимает лидирующие позиции по ARC-AGI-2, OS World, SWE-Verified и нескольким тестам на агентные терминалы и использование инструментов, в то время как Gemini 3 Pro или модели GPT все еще опережают на некоторых экзаменах, многомодальных задачах и бизнес-агентских бенчмарках. Тем не менее, паттерн ясен: прорыв Opus 4.5 в рассуждениях и компетенции использования компьютера имеет большее значение, чем любое единственное достижение, поскольку он напрямую переводится в агентов, которые могут мыслить дольше, действовать более надежно и оставаться сосредоточенными в запутанных реальных рабочих процессах.

Ведение бизнеса в течение 350 дней

Vending Bench тихо стал одним из самых показательных стресс-тестов для современного ИИ: смоделированный бизнес с торговыми автоматами, который работает в течение 300–350 игровых дней и требует долгосрочного планирования, стратегии управления запасами и базового финансового сознания. Вместо решения статических головоломок модели должны исследовать продукты, предсказывать спрос клиентов, управлять денежными потоками и поддерживать автомат в наличии, не скатываясь в бессмыслицу.

На Vending Bench 2 Gemini 3 Pro по-прежнему удерживает корону. Его прибыль составляет чуть меньше $5,500, начиная с $500 начального капитала, после почти года симулированной работы. Эта маржа важна, потому что каждый доллар на этом бенчмарке приходит от десятков мелких решений: какие закуски покупать, как агрессивно пополнять запасы, когда отказываться от неэффективных продуктов.

Opus 4.5 не занимает первое место здесь, но его прирост трудно игнорировать. Модель заканчивает с прибылью около $4,967, что почти в 10 раз больше первоначальных $500 и значительно превосходит результат Claude Sonnet 4.5, который составляет примерно $3,800 на том же тесте. На практике флагман Anthropic теперь ведет себя скорее как осторожный младший оператор, чем сбитый с толку стажер, который забывает, что делал на 120-й день.

Эти долгосрочные агентные ориентиры выявляют другой аспект возможностей, в отличие от ключевых показателей IQ или таблиц лидеров по программированию. Они измеряют, может ли модель оставаться на заданной задаче на протяжении сотен шагов, поддерживать последовательную бизнес-стратегию и избегать катастрофических ошибок, таких как потеря всего капитала из-за одного неудачного заказа. По мере увеличения масштабов моделей, показатели Vending Bench растут, что свидетельствует о том, что количество параметров и улучшенное обучение напрямую ведут к более стабильному и менее безумному принятию решений со временем.

Alpha Arena развивает ту же идею в более жесткой области: почти живой криптоторг. Во втором сезоне участвуют Gemini 3 Pro и Claude Sonnet 4.5, однако Opus 4.5 заметно отсутствует в официальном списке участников. Высокоэффективная «модель-головоломка», которая сейчас занимает второе место, сразу за GPT 5.1, уже вызвала спекуляции о том, что Anthropic тихо тестирует рискованность Opus 4.5, прежде чем добавить его имя в рейтинг.

Восход оркестратора ИИ

Blog illustration

Появление AI-оркестратора может стать самым важным достижением, которое Anthropic тихо внедрил с Opus 4.5. Вместо того чтобы рассматривать одну гигантскую модель как конечный мозг, Opus 4.5 все больше ведет себя как менеджер, который планирует, делегирует и ревизирует работу, выполненную более мелкими и дешевыми моделями, такими как Haiku 4.5. Эта схема проявляется в долгосрочных задачах, таких как Vending Bench, где устойчивое согласие на протяжении 300–350 симулированных дней важнее любого отдельного ответа.

Многоагентные системы теперь стабильно превосходят одноагентные базовые модели в сложных исследовательских задачах. Дайте одной инстанции Opus 4.5 широкое задание — исследовать научную область, составить карту конкурентов, разработать техническое задание — и она сможет запустить суб-агенты Haiku 4.5 для сбора документов, резюмирования статей и параллельного тестирования идей. Бенчмарки, акцентирующие внимание на длительных, ресурсоемких рабочих процессах, от Vending Bench 2 до компьютерного использования в стиле OS World, вознаграждают такое разделение труда более высокими показателями успеха и меньшим количеством сбоев.

Экономическая логика движет этой архитектурой так же, как и сырой потенциал. Запуск Opus 4.5 для каждого токена каждой подзадачи desperdichit дорогие ресурсы на стандартные обобщения и рутинные преобразования, которые Haiku 4.5 может выполнять за малую долю стоимости. Модель организатора, которая "думает усердно" только при планировании, декомпозиции задач или разрешении конфликтов, а в остальном передает выполнение, масштабируется больше как человеческий менеджер, координирующий команду, чем как одинокий завышенно квалифицированный подрядчик, делающий все самостоятельно.

Эта модель менеджер–команда обобщается не только на поиск и исследование. В программировании оркестратор Opus 4.5 может спроектировать систему, определить интерфейсы, а затем создать агентов Haiku 4.5 для реализации модулей, написания тестов и выполнения команд инструментов в стиле Terminal-Bench, прежде чем провести окончательную интеграцию и обзор. Для креативной работы модель верхнего уровня может наметить кампанию, в то время как подагенты разрабатывают варианты текста, создают раскадровки визуалов и адаптируют контент для различных платформ.

Бизнес-анализ может измениться больше всего. Оркестратор может указывать одному агенту собирать неструктурированные данные из Интернета в таблицы через Claude для Chrome, другому - очищать и структурировать их в Claude для Excel, а третьему - запускать сценарии и проверять выводы. По мере того как эти паттерны оркестрации устанавливаются, "использование ИИ" начинает выглядеть не как общение с одной моделью, а скорее как найм виртуальной фирмы, управляемой одним, очень способным директором.

Где Gemini 3 Pro по-прежнему правит балом

Мультимодальность по-прежнему является сильной стороной Gemini 3 Pro. Хотя Opus 4.5 превосходит его в кодировании и абстрактном мышлении, Gemini 3 Pro по-прежнему обеспечивает более чистые и надежные результаты, когда важны текст, изображения и макет одновременно, особенно в производственных рабочих процессах, которые объединяют скриншоты, графики и встроенные медиа.

Генерация графики демонстрирует наибольшую разницу. Nanaband Pro от Google, включенный в Gemini 3 Pro, создает «абсолютно невероятные» иллюстрации и макеты интерфейсов, которые больше напоминают специализированную модель изображения, чем просто дополнение. В свою очередь, Opus 4.5 по-прежнему ведет себя как система, ориентированная на текст, которая может анализировать изображения, а не как истинно визуальный натив.

Понимание видео - это еще одна область, в которой Gemini 3 Pro выделяется на фоне конкурентов. Он может отслеживать объекты и людей в разных клипах, следить за изменениями сцен и последовательно отвечать на детализированные вопросы о том, что происходит в определенные моменты времени, с большей точностью, чем Opus. Для команд, обобщающих встречи, аннотирующих обучающие материалы или анализирующих видео пользовательских исследований, Gemini 3 Pro остается более надежным выбором.

Рабочие процессы, насыщенные документами, имеют ту же тенденцию. Если загрузить Gemini 3 Pro 200-страничный годовой отчет, полный плотных таблиц, графиков и диаграмм, он обычно сохраняет структуру, ссылается на цифры и сохраняет визуальный контекст. Opus 4.5 может обрабатывать PDF-файлы, но Gemini 3 Pro, как правило, делает меньше ошибок, когда цифры находятся внутри сложных визуальных макетов.

Динамическое создание веб-интерфейсов может быть самым недооцененным преимуществом Gemini 3 Pro. Он может читать технические задания, генерировать адаптивный HTML/CSS/JS и итеративно работать над макетом вместе с дизайнером, используя скриншоты в качестве общего языка. В паре с Nanaband Pro он может прототипировать целые потоки — лендинги, панели управления, маркетинговые сайты — не выходя из одного чата.

Этот сочетание сильных сторон делает Gemini 3 Pro стандартным выбором для: - Творческих профессионалов, создающих визуалы, раскадровки и интерактивные макеты - Аналитиков данных, работающих с презентациями, BI панелями и визуально насыщенными PDF - Разработчиков, создающих интерактивные веб-приложения и внутренние инструменты, зависящие от качественной визуализации интерфейса

Каждый, кто оценивает эти компромиссы, должен начать с официальной матрицы возможностей в **Официальной документации Google DeepMind Gemini**, а затем добавить факторы стоимости, задержки и то, насколько их рабочая нагрузка по сути ориентирована на визуализацию по сравнению с текстом или кодом.

Биллионный доллар вопрос: стоимость против IQ

Назовите это кривой интеллекта или кривой цен, но пограничные модели теперь существуют на графике с двумя осями: сырой способностью и тем, что Антропик называет «бюджетом мышления». Пропустите больше токенов через модель — 8K, 16K, 32K, 64K целенаправленного рассуждения — и производительность увеличивается, но стоимость возрастает нелинейно. Индустрия теперь оптимизирует не только под максимальные оценки, но и под то, сколько IQ вы получаете за доллар на каждом из этих этапов.

Собственные графики Anthropic отображают это на логарифмической оси затрат. Каждый шаг вправо представляет собой значительный скачок в расходах на вычисления, однако кривая "лосось" модели Opus 4.5 плотно прилегает к верхнему левому углу ARC-AGI2: высокие оценки при относительно низких затратах на задачу. Неизданный Gemini 3 Deep Think от Google поднимается ещё выше, но при этом с гораздо большей стоимостью, в то время как выпущенный Gemini 3 Pro отстает от Opus 4.5 при сопоставимых бюджетах на мышление.

Это позиционирование подкрепляет смелое утверждение генерального директора Anthropic Дарио Амодеи: сопоставимые результаты с конкурентами при использовании примерно одной десятой капитальных затрат. Если это верно, то это преимущество усугубляется — более дешевое экспериментирование, больше тренировочных запусков и быстрее итерации по таким вопросам, как использование инструментов и агентивное поведение. Современные показатели Opus 4.5 в ARC-AGI2 и OS World предполагают, что эффективность проявляется не только в прибыли и убытках, но и в бенчмарках.

Для покупателей история затрат и выгод делится по задачам. При чистом анализе — SWE-Verified кодирование (80.9 против 76.2 у Gemini 3 Pro), Terminal-Bench, ARC-AGI2, задачи долгосрочных агентов, такие как Vending Bench — Opus 4.5 часто достигает целевого качества с меньшими потерями токенов, чем режимы стиля Deep Think от Gemini. Если вас интересует экономическая эффективность сложных бэкенд-систем, агентов или автоматизированных операций, Opus 4.5 вероятно приведет к более низким фактическим затратам на каждую решённую задачу.

Переключившись на мультимодальные возможности, подход меняется. Обработка изображений, видео и документов в Gemini 3 Pro, а также генерация с помощью инструментов, таких как Nanaban Pro, могут сократить целые рабочие процессы в один, чуть более дорогой вызов, который заменяет несколько шагов только с текстом. Для всего, что доминирует визуальным вводом-выводом — макеты интерфейсов, маркетинговые материалы, презентации, понимание видео — Gemini 3 Pro часто выигрывает в стоимости за доставляемый результат, даже если Opus 4.5 остается дешевле за токен «мышления».

Ваш рабочий стол теперь с суперзарядкой

Blog illustration

Бенчмарки имеют значение только в том случае, если они воплощаются в продуктах, и Anthropic не тратит время впустую. Наряду с Opus 4.5 компания запускает Claude для Chrome и Claude для Excel — две функции, которые эффективно превращают победы в бенчмарках по использованию компьютеров и долгосрочному планированию в возможности, доступные на ноутбуке на работе.

Claude для Chrome напрямую опирается на уровень успеха Opus 4.5 в 66,3% по бенчмарку компьютерного использования OS World, который теперь является лучшим среди выпущенных моделей на переднем крае технологий. Вместо простого суммирования страницы, Claude может управлять браузером: переходить по многошаговым потокам, заполнять формы, перемещаться по панелям управления и извлекать данные с плохо структурированных сайтов, которые смешивают текст, изображения и странные макеты.

Это имеет значение для типов задач, которые такие бенчмарки, как Vending Bench, пытаются смоделировать. Исследование продуктов, сравнение цен, отслеживание запаса или наблюдение за конкурентами по десяткам вкладок становится делегированной задачей для ИИ-оркестратора, который может поддерживать последовательность на протяжении сотен шагов, а не просто чатом, который отвечает на вопросы.

Claude для Excel нацелен на другую половину офисной рутины: числа и структуру. Opus 4.5 способен обрабатывать большие, запутанные таблицы, объяснять, что делает каждый лист и формула, отслеживать зависимости между книгами и выявлять аномалии, которые обычно требовали бы от человека-аналитика часами смотреть на сводные таблицы.

Помимо объяснений, Anthropic явно нацеливается на анализ и планирование. Claude для Excel может обрабатывать необработанные экспорты, нормализовать столбцы, генерировать вычисляемые поля, строить графики и затем синтезировать тренды и рекомендации — именно тот многопроцессный рабочий процесс с использованием инструментов, в котором Opus 4.5 уже превосходит Gemini 3 Pro в агентном использовании инструментов и задачах в терминальном стиле.

Anthropic также выравнивает доступ в тех местах, где это имеет наибольшее значение. Claude для Chrome запускается для всех пользователей Max, в то время как Claude для Excel расширяется в бета-версии для пользователей Max, командных и корпоративных клиентов, которые чаще всего работают с браузерными SaaS и обширными финансовыми моделями.

В совокупности эти запуски демонстрируют, как Anthropic реализует свои специфические сильные стороны: современное использование вычислительной техники, отличная работа с таблицами и управление долгосрочными, последовательными задачами. Opus 4.5 не только показывает более высокие результаты в синтетических тестах, но и незаметно интегрирует эти возможности в повседневный программный пакет, который поддерживает современную работу.

Порог Автономии

Автономия теперь имеет рабочее определение в лабораториях: R&D4. В таксономии Anthropic это означает точку, в которой ИИ может «полностью автоматизировать работу начинающего исследователя, работающего удаленно», охватывая обзор литературы, проектирование экспериментов, базовый анализ и написание отчетов, требуя лишь легкого человеческого надзора. Это не общее «AGI»; это момент, когда ИИ может быть внедрен в рабочее пространство Notion и на доску Jira и просто выполнять свою работу.

Anthropic явно утверждает, что Opus 4.5 не соответствует этому критерию. Модель все еще не облает широким ситуационным суждением, особенно когда требования меняются в процессе проекта или когда заинтересованные стороны не согласны. Она также испытывает трудности с неясными моментами реальной исследовательской работы: разрешением неоднозначных инструкций, сопротивлением плохим идеям и координацией действий с несколькими людьми, у которых противоречивые приоритеты.

Заметка, скрытая в самом релизе Anthropic, намного интереснее, чем отказ от ответственности. С помощью “высокопроизводительных каркасных структур” — слоев планирования, систем памяти, API инструментов и проверок с участием человека — Anthropic утверждает, что модели, подобные Opus 4.5, «не очень далеки» от R&D4. На практике это означает создание оркестровочных фреймворков, которые разбивают работу на подзадачи, направляют их к более дешевым моделям, таким как Haiku 4.5, и поддерживают долгосрочную повестку в течение сотен шагов.

Разработчики уже занимаются этой задачей. Агентные стеки, которые объединяют Opus 4.5 с векторным поиском, выполнением кода и управлением браузером с помощью таких инструментов, как Anthropic Python SDK Repository, могут проводить многодневные исследовательские циклы: собирать научные статьи, подводить итоги методам, генерировать эксперименты и автономно обновлять лабораторный дневник. Ограничение больше не заключается только в чистом IQ, а в том, насколько хорошо каркас ограничивает и контролирует этот интеллект.

Проект Google Alpha Evolve даёт представление о том, куда это движется. В первых отчетах Google обернул старую, менее мощную модель в жесткий эволюционный цикл — автоматическое генерирование гипотез, симуляция, оценка и отбор — и всё же смог добиться по-настоящему новых научных результатов. Прорыв не произошел благодаря одному гигантскому разуму, а стал следствием системы, которая рассматривала модель как компонент в более крупном автономном процессе.

Opus 4.5 с более надежными строительными лесами выглядит как тот же паттерн, нацеленный на общую интеллектуальную работу. Как только R&D4 преодолено, «начинающий исследователь» перестает быть описанием работы и становится конфигурацией системы.

Ваш следующий шаг в гонке вооружений ИИ

Команды ИИ теперь стоят перед простым выбором: сопоставить каждую модель с работой, которая действительно приносит или экономит деньги. Бенчмарки, такие как SWE-Verified (Opus 4.5 с 80.9 против Gemini 3 Pro с 76.2) и Vending Bench 2 (Gemini 3 Pro чуть менее $5,500 против Opus 4.5 чуть менее $5,000), теперь напрямую влияют на выбор продуктов, планы по набору сотрудников и расходы на облачные сервисы.

Выберите Opus 4.5 для: - Усовершенствованного программирования: рефакторинг с длительным горизонтом, миграции фреймворков и отладка нескольких репозиториев, где важны оценки SWE-Verified и Terminal-Bench. - Агентной оркестровки: “оркестратор” Opus делегирует задачи Claude Sonnet и Haiku 4.5 для выполнения менее дорогих подзадач, особенно в рабочих процессах, схожих с использованием компьютеров в стиле OS World. - Сложного мышления: абстрактные задачи уровня ARC-AGI-2, многодневные исследования и автоматизация “начального уровня исследователя” в стиле R&D4, где важны мыслительные токены, а не объем сырого выхода.

Выберите Gemini 3 Pro для: - Мультимодальной работы: плотные PDF, макеты интерфейсов и визуально сложные дашборды, где его способности к пониманию изображений и документов все еще лидируют. - Творческой генерации: маркетинговые кампании, раскадровки и графика высокого качества с помощью таких систем, как Nanaban Pro. - Видео и динамических медиа: логика временных шкал, анализ сцен и смешанные проекты с текстом, изображениями и видео, которые Opus 4.5 пока не может сопоставить в полном объеме.

Стратегия для практиков: стандартизируйтесь на двухстековой архитектуре. Используйте Opus 4.5 в качестве основы для рассуждений и кодирования, особенно для агентов, работающих в течение нескольких часов или дней, и отправляйте все визуальное, киношное или брендовое на Gemini 3 Pro. Оберните оба решения за маршрутизатором использования, который учитывает тип задачи, размер контекста и бюджет по задержке, а затем выбирает самую дешевую модель, соответствующую вашим стандартам качества.

Быстрые, стремительные релизы от Anthropic, Google и других стерли любое представление о прочной монополии на современный ИИ. Кривые интеллекта теперь обновляются с периодичностью 60–90 дней, а не на протяжении нескольких лет, и каждая новая модель перераспределяет задачи, которые можно выгодно автоматизировать.

Через шесть месяцев ожидайте, как минимум, еще один уровень автономии: агенты, которые не только выполняют ваши задачи "начального уровня исследователя", но также разрабатывают, запускают и проводят A/B-тестирование продуктов в веб-, мобильных и данных стэках — в то время как вы тихо подменяете модель из любой лаборатории, которая находится на вершине кривой.

🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts