Новый ИИ Claude имеет скрытый налог

Anthropic только что выпустила Claude Opus 4.7, мощный инструмент для кодирования, который превосходит бенчмарки и создает потрясающие пользовательские интерфейсы. Но незаметное изменение токенизатора означает, что вы можете платить на 35% больше за те же самые промпты.

Stork.AI
Hero image for: Новый ИИ Claude имеет скрытый налог
💡

Кратко / Главное

Anthropic только что выпустила Claude Opus 4.7, мощный инструмент для кодирования, который превосходит бенчмарки и создает потрясающие пользовательские интерфейсы. Но незаметное изменение токенизатора означает, что вы можете платить на 35% больше за те же самые промпты.

Лучший ИИ-кодер только что получил повышение оплаты

Последняя флагманская модель Anthropic, Opus 4.7, представляет собой значительное обновление для разработчиков и создателей, обещая существенные прорывы в возможностях ИИ. Выпущенная 16 апреля 2026 года, эта итерация по-настоящему улучшает опыт работы с Claude, расширяя границы в таких критически важных областях, как генерация кода и визуальное понимание. Ее появление немедленно позиционирует ее как ведущего претендента в быстро развивающемся ландшафте ИИ.

Несмотря на впечатляющие улучшения производительности, Opus 4.7 несет в себе скрытые затраты, с которыми разработчикам придется столкнуться. Хотя Anthropic сохраняет постоянную цену за токен, обновленный токенизатор и новые настройки по умолчанию означают, что одни и те же входные промпты теперь могут потреблять значительно больше токенов на практике, что приводит к увеличению операционных расходов. Этот тонкий сдвиг вводит «скрытый налог» на то, что изначально кажется бесплатным повышением производительности.

Opus 4.7 демонстрирует радикально улучшенные бенчмарки кодирования. Он достиг 10%-го превосходства над своим предшественником, Opus 4.6, на SWE-bench Pro, достигнув впечатляющих 64,3%. На SWE-bench Verified модель набрала 87,6%, что отражает 7%-й прирост. Эти цифры подтверждают ее статус превосходного инструмента для сложного анализа кода, системной инженерии и долгосрочных автономных задач.

Помимо кодирования, Opus 4.7 значительно расширяет свою мультимодальную поддержку. Модель теперь обрабатывает изображения более высокого разрешения, принимая входные данные до 2576 пикселей по самой длинной стороне, что составляет примерно 3,75 мегапикселя — в три раза больше разрешения предыдущих моделей. Это улучшение значительно повышает эффективность таких задач, как извлечение данных из сложных документов и диаграмм, а также генерация более «вкусных и креативных» дизайнов пользовательского интерфейса, как было продемонстрировано в недавних тестах по созданию адаптивных веб-сайтов для кафе.

Увеличенное потребление токенов обусловлено двумя основными изменениями. Обновленный токенизатор сопоставляет одно и то же входное содержимое примерно с 1,0 до 1,35 раза большим количеством токенов, в зависимости от типа данных. Кроме того, Opus 4.7 «больше думает» на более высоких уровнях усилий, что является поведением по умолчанию в Claude Code, где новый уровень усилий `xhigh` теперь включен для всех планов. Это более глубокое рассуждение повышает надежность, но неизбежно расходует больше выходных токенов, напрямую влияя на затраты.

Сокрушая код, путая факты?

Иллюстрация: Сокрушая код, путая факты?
Иллюстрация: Сокрушая код, путая факты?

Opus 4.7 действительно превосходит в генерации кода и решении проблем, демонстрируя значительные достижения по сравнению со своим предшественником. Модель достигла 10%-го превосходства на SWE-bench Pro, достигнув впечатляющей точности в 64,3%, значительно превзойдя Opus 4.6. Это существенное улучшение позиционирует Opus 4.7 как мощный инструмент для разработчиков, решающих сложные задачи программной инженерии.

Далее, укрепляя свое доминирование в кодировании, Opus 4.7 также показал 7%-й прирост на SWE-bench Verified, набрав 87,6%. Эти победы в бенчмарках подчеркивают приверженность Anthropic к улучшению способности модели справляться с долгосрочной автономией, системной инженерией и сложными задачами анализа кода.

Парадоксально, но эти триумфы в кодировании сопровождаются загадочным снижением показателей кибербезопасности. Собственные бенчмарки Anthropic показывают небольшое снижение в этой области, что является преднамеренным результатом новых, строгих мер безопасности, реализованных в Opus 4.7. Компания намеренно создала эти улучшенные киберзащиты, чтобы блокировать запросы, указывающие на запрещенное или высокорисковое использование в области кибербезопасности.

Этот стратегический выбор означает, что модель искусственно поддерживает свою производительность в области кибербезопасности ниже, чем могла бы достичь. Anthropic стремится учиться на этих взаимодействиях, что будет способствовать разработке еще более мощных, но при этом более безопасных будущих моделей, таких как невыпущенный Mythos-class, подчеркивая напряженность между чистой производительностью и ответственным дизайном ИИ.

Несмотря на свое программное мастерство, Opus 4.7 демонстрирует тревожную регрессию в понимании длинного контекста, что является критически важной возможностью для многих передовых приложений ИИ. Внутренние оценки по методу «иголка в стоге сена» выявили резкое «падение» производительности в длинном контексте по сравнению с Opus 4.6. Это говорит о том, что Opus 4.7 с большим трудом извлекает конкретную информацию, глубоко запрятанную в огромных объемах текста.

Это неожиданное падение вызывает серьезные вопросы о надежности модели при обработке обширных документов, суммировании длительных разговоров или поддержании связности в течение продолжительных многосессионных задач. Для пользователей, полагающихся на Claude для глубокого контекстного понимания, это потенциальное ухудшение может серьезно повлиять на реальное использование.

Попрощайтесь со своими старыми промптами

Opus 4.7 представляет радикально иной подход к следованию инструкциям, требующий полной переоценки устоявшихся стратегий промптинга. В отличие от предыдущих моделей Claude, которые часто интерпретировали директивы свободно или даже пропускали менее акцентированные части, Opus 4.7 разработан для беспрецедентной буквальности и точности. Этот фундаментальный сдвиг означает, что модель теперь строго придерживается каждой предоставленной инструкции, выполняя команды с такой точностью, которая принципиально меняет то, как пользователи должны взаимодействовать с ней.

Пользователи, использующие промпты, разработанные для старых, более снисходительных моделей, почти наверняка столкнутся с неожиданными или чрезмерно буквальными результатами. Там, где предыдущая итерация могла бы вывести намерение или приоритизировать одни инструкции над другими, Opus 4.7 будет выполнять все части промпта с одинаковым весом. Это может привести к нежелательным результатам, если промпты не были тщательно проработаны с учетом его новой строгости, потенциально нарушая сложные рабочие процессы и требуя значительной отладки.

Это критическое изменение требует всестороннего аудита и переоценки существующих библиотек промптов. Разработчики и создатели теперь должны тщательно дорабатывать свои промпты, устраняя любую двусмысленность и гарантируя, что каждая инструкция является явной и преднамеренной. Адаптация к этой точной парадигме — это не просто опция, а требование для полного использования расширенных возможностей Opus 4.7, особенно для сложного кодирования и агентских задач, где точное соблюдение многошаговых инструкций имеет первостепенное значение.

Использование улучшенного следования инструкциям модели означает принятие более дисциплинированного подхода к промпт-инжинирингу. Однако результатом является модель, способная выдавать высокоточные и предсказуемые результаты, при условии, что входные данные соответствуют ее буквальности. Эти инвестиции в доработку промптов раскроют истинный потенциал Opus 4.7, превратив его в более надежный и мощный инструмент для сложных задач. Для тех, кто планирует обширные переработки промптов, жизненно важно понимать новейшие структуры токенизации и ценообразования; подробную информацию см. на странице Anthropic Model Pricing | Anthropic.

35% «Налог на токенизатор», который вы теперь платите

Opus 4.7 вводит фундаментальное изменение в то, как флагманская модель Anthropic обрабатывает текст, напрямую влияя на операционные расходы для разработчиков и опытных пользователей. Anthropic обновила токенизатор модели — внутренний механизм, разбивающий входной текст на дискретные единицы для понимания ИИ. Эта техническая корректировка, улучшая внутреннюю обработку, влечет за собой значительные финансовые последствия для пользователей.

Ранее данный входной запрос (input prompt) соответствовал предсказуемому количеству токенов для выставления счетов API. С Opus 4.7 тот же самый входной запрос теперь может соответствовать от 1,0 до 1,35 раза большему количеству токенов, в зависимости от типа контента. Пользователи фактически платят больше за идентичную информацию, несмотря на то, что Anthropic сохраняет свои первоначальные цены за токен. Это увеличенное потребление токенов функционирует как коварный «налог на токенизатор» (tokenizer tax) при каждом вызове API, незаметно увеличивая операционные расходы.

Рассмотрим практический пример для разработчика API, использующего Opus 4.7 для сложной задачи кодирования. Входной запрос (input prompt), который ранее потреблял 1000 токенов на Opus 4.6, при входной цене Anthropic в $15,00 за 1 миллион токенов, стоил бы $0,015. Это был простой расчет.

С новым токенизатором тот же входной запрос на 1000 токенов теперь может преобразоваться в 1350 токенов для Opus 4.7. Это напрямую приводит к новой стоимости входного запроса в $0,02025 за идентичный prompt, что является резким увеличением расходов на 35% исключительно из-за изменения токенизатора. Этот «налог» применяется еще до учета тенденции Opus 4.7 «больше думать» на более высоких уровнях усилий (effort levels), что еще больше увеличивает общее потребление токенов.

Разработчики теперь должны тщательно отслеживать количество токенов и корректировать стратегии запросов (prompting strategies), чтобы снизить эти растущие расходы. Казалось бы, незначительное техническое обновление токенизатора требует полной переоценки бюджетных прогнозов и оптимизации запросов, превращая мощное обновление в более дорогостоящее предложение. Предсказуемое использование токенов закончилось, открывая эру тщательного управления затратами.

Ваш ИИ работает сверхурочно (по умолчанию)

Иллюстрация: Ваш ИИ работает сверхурочно (по умолчанию)
Иллюстрация: Ваш ИИ работает сверхурочно (по умолчанию)

Opus 4.7 представляет новый уровень усилий `xhigh`, расположенный между настройками рассуждений `high` и `max`. Это дополнение предлагает разработчикам более тонкий контроль над обработкой модели, балансируя более глубокие вычислительные размышления с задержкой ответа. На этих более высоких уровнях усилий Opus 4.7 «больше думает», особенно на более поздних этапах в агентных настройках, что значительно повышает его надежность при решении сложных проблем.

Это улучшенное рассуждение сопряжено с критической, часто скрытой, стоимостью: Anthropic установила уровень усилий extra high в качестве по умолчанию в Claude Code для всех планов. Без вмешательства пользователя Opus 4.7 теперь работает сверхурочно по умолчанию, потребляя значительно больше токенов, чем пользователи могли бы ожидать для своих запросов. Это изменение напрямую способствует «налогу на токенизатор» (Tokenizer Tax), обсуждавшемуся ранее, поскольку многословность модели увеличивается.

Чтобы представить это в перспективе, новый уровень усилий `extra high` в Opus 4.7 использует примерно такое же количество токенов, как уровень усилий *max* в Opus 4.6. Это означает, что пользователи, привыкшие к производительности Opus 4.6 на его максимальной настройке, теперь получают аналогичную скорость сжигания токенов в качестве базовой в Opus 4.7, даже для рутинных задач. Этот параметр по умолчанию значительно влияет на операционные расходы.

Однако опытные разработчики могут стратегически ориентироваться в этом новом ландшафте затрат. Эксперты настоятельно рекомендуют тестировать различные уровни усилий, чтобы найти оптимальный баланс. Ключевая рекомендация: измените настройку по умолчанию в Claude Code на `high` вместо `extra high`.

Эта, казалось бы, незначительная корректировка приносит значительные преимущества. Уровень усилий `high` в Opus 4.7 фактически *превосходит* уровень усилий `max` в Opus 4.6, при этом используя меньше токенов. Внеся это единственное изменение в конфигурацию, пользователи могут достичь превосходной производительности по сравнению с пиком предыдущего поколения, но со значительным сокращением потребления токенов и соответствующих затрат. Это представляет собой четкий путь к оптимизации как качества вывода, так и расходов.

Финальная битва дизайна пользовательского интерфейса

Помимо чистой мощи кодирования, Anthropic также рекламировала улучшенные возможности дизайна пользовательского интерфейса Opus 4.7. Простой тест «веб-сайт кафе», требующий только файла `index.html`, противопоставил Opus 4.7 его предшественнику, Opus 4.6, наряду с конкурентами Gemini 3.1 и GPT 5.4. Этот реальный сценарий был направлен на оценку творческого потенциала моделей и их способности преобразовать простую концепцию в визуально привлекательную веб-страницу.

Opus 4.7 продемонстрировал «довольно хороший» результат, сгенерировав адаптивный веб-сайт кафе с изящным шрифтом и хорошо интегрированными изображениями Unsplash. Дизайн вызывал подлинное ощущение кафе, демонстрируя явный шаг вперед по сравнению с результатом Opus 4.6. Его предшественник создал менее отполированную версию, отличающуюся менее привлекательным градиентным фоном и в целом менее утонченной эстетикой, что сделало улучшение Opus 4.7 ощутимым.

Однако настоящий сюрприз преподнес Gemini 3.1, который стал предпочтительным дизайном для этой конкретной творческой задачи. Его результат отличался поразительным фиксированным фоном, хорошо выполненными разделами изображений и красиво оформленным меню, что впечатлило тестировщиков. Gemini 3.1 продемонстрировал сильное визуальное чутье, доказав, что чистая способность к кодированию не всегда равнозначна превосходному эстетическому суждению в дизайне пользовательского интерфейса.

Напротив, GPT 5.4 занял последнее место. Его сгенерированный веб-сайт страдал от общего, сразу узнаваемого «внешнего вида и ощущения GPT», характеризующегося чрезмерным использованием размытых элементов карточек. Этот дизайн не смог передать желаемую атмосферу кафе, подчеркивая трудности модели с творческой, стилистической интерпретацией по сравнению с ее аналогами.

Это противостояние в дизайне пользовательского интерфейса подчеркивает, что, хотя бенчмарки количественно оценивают техническую производительность, субъективные творческие задачи часто выявляют отличительные особенности и сильные стороны моделей. Понимание этих нюансов крайне важно для разработчиков, выбирающих правильный ИИ для разнообразных проектов. Для получения дополнительной информации об экономических последствиях этих моделей и их развивающемся использовании токенов читатели могут ознакомиться с Claude Opus 4.7 Pricing: The Real Cost Story Behind the “Unchanged” Price Tag - Finout.

Создание полнофункционального приложения за один раз

Выходя за рамки простых одностраничных веб-сайтов, окончательное испытание для современной мощи кодирования ИИ включает в себя создание полнофункционального приложения с нуля. Мы предложили ведущим моделям создать комплексную панель управления личными финансами, предоставив им полную автономию в выборе предпочтительного технологического стека и реализации основных функций. Эта сложная задача исследует не только дизайн пользовательского интерфейса, но и логику бэкенда, управление данными и принятие архитектурных решений.

Opus 4.7 продемонстрировал поистине впечатляющий первоначальный результат, показав уровень интеграции и согласованности дизайна, не имеющий аналогов у его конкурентов. Сгенерированное приложение отличалось чистым, интуитивно понятным пользовательским интерфейсом с тщательно подобранной цветовой схемой. Его эстетическая привлекательность сразу бросалась в глаза, отражая заявленные улучшения модели в «изысканной и творческой» генерации пользовательского интерфейса.

Функционально, компоненты фронтенда были надежными и хорошо реализованными. Пользователи могли взаимодействовать с различными элементами, вводить финансовые данные и перемещаться по различным разделам панели управления. Код демонстрировал глубокое понимание современных принципов веб-разработки, создавая адаптивный и привлекательный пользовательский опыт, который на первый взгляд казался готовым к производству.

Однако сложный результат Opus 4.7 скрывал критический недостаток дизайна глубоко в выбранной архитектуре. Несмотря на впечатляющий фронтенд, модель выбрала решение с базой данных в оперативной памяти для обработки всех пользовательских данных. Этот фундаментальный выбор серьезно подорвал реальную полезность приложения, внеся фатальный недостаток для любого инструмента отслеживания финансов.

База данных в оперативной памяти означает, что вся информация, от учетных записей пользователей до истории транзакций, находится исключительно в активной памяти приложения. Следовательно, любой перезапуск сервера или процесса приложения мгновенно стирает все хранящиеся данные. Это полное отсутствие сохраняемости данных делает финансовую панель совершенно непрактичной для ее предполагаемого назначения.

Хотя Opus 4.7 продемонстрировал исключительное мастерство в генерации сложного, хорошо структурированного кода и привлекательных пользовательских интерфейсов, его архитектурное решение выявило значительное упущение. Модель не смогла уделить первостепенное внимание наиболее важному аспекту приложения для личных финансов: безопасному и постоянному хранению конфиденциальной финансовой информации. Этот недочет подчеркивает постоянную проблему даже для самых продвинутых AI-кодеров: понимание неявных требований пользователей, выходящих за рамки явных инструкций.

Как выглядит конкуренция

Иллюстрация: Как выглядит конкуренция
Иллюстрация: Как выглядит конкуренция

После того как Opus 4.7 успешно спроектировал и создал панель управления личными финансами, выбрав собственный стек технологий и предоставив работоспособное приложение за один проход, сравнительный анализ выявляет резкие различия между ведущими моделями. Его способность генерировать связное, функциональное full-stack решение на основе высокоуровневого запроса устанавливает грозный стандарт для конкурентов в практической разработке программного обеспечения.

Предыдущая итерация Anthropic, Opus 4.6, показала более смешанный результат. Хотя ее пользовательский интерфейс оказался менее впечатляющим и эстетически утонченным, чем вывод 4.7, модель продемонстрировала более глубокое понимание сохранения данных на бэкенде. Она правильно реализовала постоянную базу данных SQLite и предоставила больше рабочих функций, критически важных для функционального приложения. Эта старая модель отдавала приоритет основной логике приложения, подчеркивая тонкий компромисс между визуальной отточенностью и надежной базовой функциональностью.

GPT-5.4 от OpenAI значительно затруднился с full-stack задачей, представив попытку, которая была функционально непригодна. Он не смог предоставить связное или работоспособное приложение, генерируя фрагментированный код, требующий значительного ручного вмешательства. Кроме того, модель выбрала технически базовый подход, полагаясь на обычный JavaScript и HTML вместо демонстрации владения современными фреймворками. Этот результат ставит GPT-5.4 далеко позади в генерации сложных, многокомпонентных приложений.

Gemini 3.1 от Google показал наименее эффективную производительность в этом требовательном тесте. Он принципиально не смог создать работающее приложение из первоначального запроса, требуя многочисленных последующих взаимодействий и обширных указаний пользователя для достижения даже частичной функциональности. Эта неспособность генерировать самодостаточный, исполняемый проект без значительного внешнего вмешательства подчеркивает его текущие ограничения в автономных сценариях full-stack разработки, что делает его наименее способным в этом бенчмарке.

Эти результаты как простого теста пользовательского интерфейса веб-сайта кафе, так и более сложной full-stack задачи по созданию панели управления личными финансами, дают четкое представление о текущем ландшафте AI-кодирования. В то время как Opus 4.7 превосходит в создании отполированных, работоспособных приложений с современными принципами дизайна и надежной функциональностью, его конкуренты часто отстают либо по эстетическому качеству, либо по функциональной полноте, либо по критической способности предоставить работающий продукт без обширных указаний пользователя и итеративных запросов. Этот разрыв в производительности укрепляет текущее лидерство Opus 4.7 в сложной, многогранной генерации кода.

Знакомьтесь, Mythos: ИИ, которого у нас пока нет

В то время как Opus 4.7 является самой мощной общедоступной моделью, собственные бенчмарки Anthropic выявляют скрытый, более мощный ИИ: Mythos. Эта передовая модель, продемонстрированная во внутренних оценках, явно превосходит даже последнюю итерацию Claude, но остается недоступной для разработчиков и создателей. Ее существование подчеркивает быстрый, часто незаметный прогресс, происходящий в исследовательских лабораториях ИИ.

Anthropic в настоящее время не выпускает Mythos в публичный доступ из-за критических проблем безопасности. Огромные возможности модели, особенно ее потенциал для неправомерного использования, требуют надежных мер защиты и обширного тестирования, прежде чем она сможет быть широко развернута. Этот осторожный подход подчеркивает продолжающуюся борьбу отрасли за баланс между инновациями и ответственной разработкой ИИ.

Opus 4.7 играет ключевую, стратегическую роль в этом тонком балансе. Anthropic специально разработала ее как жизненно важный испытательный стенд для новых киберзащит, активно блокируя запросы, указывающие на запрещенное или высокорисковое использование в области кибербезопасности. Этот преднамеренный выбор дизайна объясняет уникальную аномалию производительности Opus 4.7: небольшое, контролируемое снижение ее показателей в бенчмарках кибербезопасности по сравнению с Opus 4.6, что служит искусственным ограничением для снижения потенциальных рисков.

Реальные данные, собранные в результате развертывания Opus 4.7 в соответствии с этими строгими протоколами, бесценны. Они позволяют Anthropic тщательно оценивать эффективность своих механизмов безопасности и понимать сложные взаимодействия между мощным ИИ и потенциальными угрозами. Этот итеративный процесс обучения является фундаментальным для совершенствования будущих моделей.

В конечном итоге, Opus 4.7 представляет собой решающий, фундаментальный шаг к возможному безопасному внедрению моделей класса Mythos. Ее публичный выпуск обеспечивает контролируемую среду для проверки передовых функций безопасности, прокладывая путь к более мощным, но безопасным системам ИИ. Когда Mythos или ее преемники наконец появятся, они обещают радикально изменить разработку программного обеспечения, предлагая беспрецедентные возможности только после строгой проверки безопасности.

Вердикт: Несовершенный шедевр?

Opus 4.7 представляет собой многогранную картину, предлагая новаторские возможности кодирования и дизайна пользовательского интерфейса. Ее 10%-ный скачок на SWE-bench Pro и 7%-ный прирост на бенчмарках Verified по сравнению с Opus 4.6 демонстрируют ее чистую мощь, показывая впечатляющую генерацию полнофункциональных приложений в наших тестах. Однако эта улучшенная производительность сопровождается значительным увеличением стоимости, в частности, потенциальным 35%-ным 'налогом на токенизацию' для существующих промптов. Кроме того, остаются вопросы относительно ее надежности в условиях длинного контекста, при этом некоторые бенчмарки типа 'иголка в стоге сена' предполагают снижение производительности по сравнению с Opus 4.6.

Решение Anthropic по умолчанию использовать новый уровень усилий `extra high` в Claude Code еще больше усугубляет потребление токенов. Хотя эта настройка обещает более глубокое рассуждение и повышенную надежность при решении сложных задач, она напрямую приводит к увеличению операционных расходов для разработчиков. Пользователи должны активно управлять этими настройками, исследуя уровень усилий `high`, чтобы найти лучший баланс между производительностью и экономической эффективностью. Такая бдительность становится решающей для любой продолжительной работы по разработке, особенно для агентских настроек.

Для сложных задач кодирования, сложного системного проектирования и изощренного дизайна пользовательского интерфейса Opus 4.7 является феноменальным инструментом, возможно, лучшей общедоступной моделью. Ее более буквальное следование инструкциям требует доработки промптов, но вознаграждает точность высокоточными результатами. Разработчики могут использовать ее улучшенную мультимодальную поддержку и самопроверку для получения удивительно надежных результатов, даже в многосессионных рабочих процессах.

В конечном итоге, Opus 4.7 — это несовершенный шедевр: не имеющий аналогов в определенных областях, но со скрытыми затратами и потенциальными слабостями в работе с длинным контекстом, которые пользователям придется учитывать. Он требует более стратегического подхода к использованию, делая осознанный выбор относительно уровней усилий и оптимизации промптов. Каковы ваши мысли о последнем обновлении Anthropic? Какая модель ИИ в настоящее время является вашей основной для разработки, и что вы думаете о компромиссах Opus 4.7?

Часто задаваемые вопросы

Каково основное обновление в Claude Opus 4.7?

Opus 4.7 предлагает значительные улучшения в кодировании, агентном мышлении и зрении высокого разрешения, демонстрируя 10%-ный скачок по бенчмарку SWE-bench Pro по сравнению со своим предшественником.

Почему использование Opus 4.7 стоит дороже для одного и того же промпта?

Он использует обновленный токенизатор, который может сопоставлять один и тот же текст с на 35% большим количеством токенов. В сочетании с уровнем усилий по умолчанию "extra high" в Claude Code это эффективно увеличивает стоимость задачи, несмотря на неизменную цену за токен.

Как производительность Opus 4.7 с длинным контекстом соотносится с 4.6?

Некоторые пользовательские тесты и бенчмарки, такие как тест "иголка в стоге сена", показывают значительную регрессию в извлечении информации из длинного контекста, предполагая, что был сделан потенциальный компромисс для усиления других возможностей.

Лучше ли Claude Opus 4.7, чем GPT-5.4, для кодирования?

Основываясь на тесте полнофункционального приложения, Opus 4.7 создал значительно более полное и хорошо спроектированное приложение с чистым пользовательским интерфейсом, в то время как GPT-5.4 сгенерировал базовый и непригодный для использования проект.

Часто задаваемые вопросы

Сокрушая код, путая факты?
See article for details.
Вердикт: Несовершенный шедевр?
Opus 4.7 представляет собой многогранную картину, предлагая новаторские возможности кодирования и дизайна пользовательского интерфейса. Ее 10%-ный скачок на SWE-bench Pro и 7%-ный прирост на бенчмарках Verified по сравнению с Opus 4.6 демонстрируют ее чистую мощь, показывая впечатляющую генерацию полнофункциональных приложений в наших тестах. Однако эта улучшенная производительность сопровождается значительным увеличением стоимости, в частности, потенциальным 35%-ным 'налогом на токенизацию' для существующих промптов. Кроме того, остаются вопросы относительно ее надежности в условиях длинного контекста, при этом некоторые бенчмарки типа 'иголка в стоге сена' предполагают снижение производительности по сравнению с Opus 4.6.
Каково основное обновление в Claude Opus 4.7?
Opus 4.7 предлагает значительные улучшения в кодировании, агентном мышлении и зрении высокого разрешения, демонстрируя 10%-ный скачок по бенчмарку SWE-bench Pro по сравнению со своим предшественником.
Почему использование Opus 4.7 стоит дороже для одного и того же промпта?
Он использует обновленный токенизатор, который может сопоставлять один и тот же текст с на 35% большим количеством токенов. В сочетании с уровнем усилий по умолчанию "extra high" в Claude Code это эффективно увеличивает стоимость задачи, несмотря на неизменную цену за токен.
Как производительность Opus 4.7 с длинным контекстом соотносится с 4.6?
Некоторые пользовательские тесты и бенчмарки, такие как тест "иголка в стоге сена", показывают значительную регрессию в извлечении информации из длинного контекста, предполагая, что был сделан потенциальный компромисс для усиления других возможностей.
Лучше ли Claude Opus 4.7, чем GPT-5.4, для кодирования?
Основываясь на тесте полнофункционального приложения, Opus 4.7 создал значительно более полное и хорошо спроектированное приложение с чистым пользовательским интерфейсом, в то время как GPT-5.4 сгенерировал базовый и непригодный для использования проект.
🚀Узнать больше

Будьте в курсе трендов ИИ

Откройте лучшие инструменты ИИ, агенты и MCP-серверы от Stork.AI.

Все статьи