A Nova AI de Claude Tem um Imposto Secreto

A Anthropic acaba de lançar o Claude Opus 4.7, uma potência de codificação que supera benchmarks e projeta UIs impressionantes. Mas uma mudança silenciosa no tokenizer significa que você pode estar pagando 35% a mais pelos mesmos prompts.

Stork.AI
Hero image for: A Nova AI de Claude Tem um Imposto Secreto
💡

Resumo / Pontos-chave

A Anthropic acaba de lançar o Claude Opus 4.7, uma potência de codificação que supera benchmarks e projeta UIs impressionantes. Mas uma mudança silenciosa no tokenizer significa que você pode estar pagando 35% a mais pelos mesmos prompts.

O Melhor Coder de AI Acabou de Receber Um Aumento

O mais recente modelo carro-chefe da Anthropic, Opus 4.7, chega como uma atualização formidável para desenvolvedores e criadores, prometendo avanços significativos nas capacidades de AI. Lançada em 16 de abril de 2026, esta iteração realmente aprimora a experiência Claude, expandindo os limites em áreas críticas como geração de código e compreensão visual. Sua chegada o posiciona imediatamente como um concorrente de primeira linha no cenário de AI em rápida evolução.

Apesar de seus impressionantes ganhos de desempenho, o Opus 4.7 acarreta um custo oculto que os desenvolvedores devem gerenciar. Embora a Anthropic mantenha preços consistentes por token, um tokenizer atualizado e novas configurações padrão significam que os mesmos prompts de entrada agora podem consumir substancialmente mais tokens na prática, traduzindo-se em despesas operacionais mais altas. Essa mudança sutil introduz um "imposto secreto" sobre o que inicialmente parece ser um aumento de desempenho gratuito.

O Opus 4.7 demonstra benchmarks de codificação radicalmente aprimorados. Ele alcançou um salto de 10% sobre seu predecessor, Opus 4.6, no SWE-bench Pro, atingindo impressionantes 64,3%. No SWE-bench Verified, o modelo obteve 87,6%, refletindo um ganho de 7%. Esses números solidificam sua posição como uma ferramenta superior para raciocínio de código complexo, engenharia de sistemas e tarefas autônomas de longo prazo.

Além da codificação, o Opus 4.7 eleva dramaticamente seu suporte multimodal. O modelo agora processa imagens de maior resolução, aceitando entradas de até 2.576 pixels na borda mais longa, aproximadamente 3,75 megapixels — três vezes a resolução dos modelos anteriores. Este aprimoramento melhora significativamente tarefas como extração de dados de documentos e gráficos intrincados, além de gerar designs de UI mais "elegantes e criativos", como demonstrado em testes recentes criando websites responsivos para cafés.

O aumento do consumo de tokens decorre de duas mudanças principais. Um tokenizer atualizado mapeia o mesmo conteúdo de entrada para aproximadamente 1,0 a 1,35 vezes mais tokens, dependendo do tipo de dados. Além disso, o Opus 4.7 “pensa mais” em níveis de esforço mais altos, um comportamento padrão no Claude Code onde um novo nível de esforço `xhigh` agora está habilitado para todos os planos. Este raciocínio mais profundo melhora a confiabilidade, mas invariavelmente consome mais tokens de saída, impactando diretamente os custos.

Esmagando Código, Tropeçando em Fatos?

Ilustração: Esmagando Código, Tropeçando em Fatos?
Ilustração: Esmagando Código, Tropeçando em Fatos?

O Opus 4.7 realmente se destaca na geração de código e resolução de problemas, apresentando avanços robustos em relação ao seu predecessor. O modelo alcançou um salto de 10% no SWE-bench Pro, atingindo uma impressionante precisão de 64,3%, superando significativamente o Opus 4.6. Esta melhoria substancial posiciona o Opus 4.7 como uma ferramenta formidável para desenvolvedores que enfrentam desafios complexos de engenharia de software.

Solidificando ainda mais seu domínio de codificação, o Opus 4.7 também registrou um ganho de 7% no SWE-bench Verified, pontuando 87,6%. Essas vitórias em benchmarks ressaltam o compromisso da Anthropic em aprimorar a capacidade do modelo de lidar com autonomia de longo prazo, engenharia de sistemas e tarefas intrincadas de raciocínio de código.

Paradoxalmente, esses triunfos de codificação chegam junto com uma queda intrigante nas pontuações de cibersegurança. Os próprios benchmarks da Anthropic revelam um ligeiro declínio nesta área, um resultado deliberado de novas e rigorosas salvaguardas implementadas no Opus 4.7. A empresa construiu intencionalmente essas proteções cibernéticas aprimoradas para bloquear solicitações que indicam usos proibidos ou de alto risco de cibersegurança.

Esta escolha estratégica significa que o modelo mantém artificialmente seu desempenho em segurança cibernética mais baixo do que poderia alcançar. A Anthropic visa aprender com essas interações, informando o desenvolvimento de modelos futuros ainda mais poderosos, porém mais seguros, como o Mythos-class não lançado, destacando uma tensão entre a capacidade bruta e o design responsável de IA.

Apesar de sua proficiência em programação, Opus 4.7 apresenta uma regressão preocupante na compreensão de contexto longo, uma capacidade crítica para muitas aplicações avançadas de IA. Avaliações internas de "needle-in-a-haystack" relataram um dramático "mergulho" no desempenho de contexto longo em comparação com Opus 4.6. Isso sugere que Opus 4.7 tem mais dificuldade em recuperar informações específicas enterradas em grandes volumes de texto.

Esta queda inesperada levanta questões significativas sobre a confiabilidade do modelo ao processar documentos extensos, resumir conversas longas ou manter a coerência em tarefas prolongadas e de múltiplas sessões. Para usuários que dependem de Claude para uma profunda consciência contextual, esta potencial degradação pode impactar severamente o uso no mundo real.

Diga Adeus aos Seus Prompts Antigos

Opus 4.7 introduz uma abordagem radicalmente diferente para seguir instruções, exigindo uma reavaliação completa das estratégias de prompting estabelecidas. Ao contrário dos modelos Claude anteriores que frequentemente interpretavam diretivas de forma vaga ou até ignoravam partes menos enfatizadas, Opus 4.7 é projetado para um literalismo e precisão inigualáveis. Esta mudança fundamental significa que o modelo agora adere estritamente a cada instrução fornecida, executando comandos com uma exatidão que altera fundamentalmente como os usuários devem interagir com ele.

Usuários que utilizam prompts projetados para modelos mais antigos e mais tolerantes quase certamente encontrarão saídas inesperadas ou excessivamente literais. Onde uma iteração anterior poderia ter inferido a intenção ou priorizado certas instruções sobre outras, Opus 4.7 executará todas as partes de um prompt com igual peso. Isso pode levar a resultados indesejáveis se os prompts não tiverem sido meticulosamente elaborados para levar em conta seu novo rigor, potencialmente descarrilando fluxos de trabalho complexos e exigindo depuração significativa.

Esta mudança crítica exige uma auditoria e reavaliação abrangentes das bibliotecas de prompts existentes. Desenvolvedores e criadores devem agora refinar meticulosamente seus prompts, eliminando qualquer ambiguidade e garantindo que cada instrução seja explícita e intencional. Adaptar-se a este paradigma preciso não é meramente uma opção, mas um requisito para aproveitar totalmente o poder aprimorado de Opus 4.7, particularmente para codificação complexa e tarefas agentic onde a adesão exata a instruções de várias etapas é primordial.

Aproveitar a melhoria na capacidade do modelo de seguir instruções significa adotar uma abordagem mais disciplinada para prompt engineering. A recompensa, no entanto, é um modelo capaz de entregar resultados altamente precisos e previsíveis, desde que a entrada corresponda ao seu literalismo. Este investimento no refinamento de prompts desbloqueará o verdadeiro potencial de Opus 4.7, transformando-o em uma ferramenta mais confiável e poderosa para tarefas complexas. Para aqueles que planejam revisões extensas de prompts, entender as mais recentes estruturas de tokenization e preços é vital; consulte a página Model Pricing | Anthropic da Anthropic para informações detalhadas.

O 'Imposto de Tokenizer' de 35% Que Você Está Pagando Agora

Opus 4.7 introduz uma mudança fundamental na forma como o modelo principal da Anthropic processa texto, impactando diretamente os custos operacionais para desenvolvedores e usuários avançados. A Anthropic atualizou o tokenizer do modelo, o mecanismo interno que divide o texto de entrada em unidades discretas para a IA entender. Este ajuste técnico, embora melhore o processamento interno, acarreta uma implicação financeira significativa para os usuários.

Anteriormente, um determinado prompt de entrada mapeava para um número previsível de tokens para faturamento de API. Com o Opus 4.7, essa mesma entrada pode agora mapear para 1.0 a 1.35 vezes mais tokens, dependendo do tipo de conteúdo. Os usuários efetivamente pagam mais pela mesma informação, apesar de a Anthropic manter seu preço original por token. Esse aumento no consumo de tokens funciona como um insidioso "imposto de tokenizer" em cada chamada de API, inflando silenciosamente as despesas operacionais.

Considere um exemplo prático para um desenvolvedor de API usando o Opus 4.7 para uma tarefa de codificação complexa. Um prompt de entrada que anteriormente consumia 1.000 tokens no Opus 4.6, ao preço de entrada da Anthropic de $15.00 por 1 milhão de tokens, teria custado $0.015. Este era um cálculo direto.

Com o novo tokenizer, essa mesma entrada de 1.000 tokens poderia agora se traduzir em até 1.350 tokens para o Opus 4.7. Isso se traduz diretamente em um novo custo de entrada de $0.02025 para o prompt idêntico, um aumento acentuado de 35% nos gastos unicamente devido à mudança do tokenizer. Este "imposto" se aplica mesmo antes de considerar a tendência do Opus 4.7 de "pensar mais" em níveis de esforço mais altos, o que inflaciona ainda mais o consumo geral de tokens.

Os desenvolvedores devem agora monitorar meticulosamente a contagem de tokens e ajustar as estratégias de prompting para mitigar esses custos crescentes. A atualização técnica aparentemente menor do tokenizer exige uma reavaliação completa das previsões orçamentárias e da otimização de prompts, transformando uma atualização poderosa em uma proposta mais cara. O uso previsível de tokens terminou, inaugurando uma era de gerenciamento cuidadoso de custos.

Sua IA Está Trabalhando Horas Extras (Por Padrão)

Ilustração: Sua IA Está Trabalhando Horas Extras (Por Padrão)
Ilustração: Sua IA Está Trabalhando Horas Extras (Por Padrão)

O Opus 4.7 introduz um novo nível de esforço `xhigh`, posicionado entre as configurações de raciocínio `high` e `max`. Esta adição oferece aos desenvolvedores um controle mais preciso sobre o processamento do modelo, equilibrando um pensamento computacional mais profundo com a latência de resposta. Nesses níveis de esforço mais altos, o Opus 4.7 "pensa mais", particularmente durante as últimas voltas em agentic settings, o que melhora significativamente sua confiabilidade em problemas complexos e difíceis.

Este raciocínio aprimorado vem com um custo crucial, muitas vezes oculto: a Anthropic definiu o nível de esforço extra high como o padrão no Claude Code para todos os planos. Sem intervenção do usuário, o Opus 4.7 está agora trabalhando horas extras por padrão, consumindo substancialmente mais tokens do que os usuários poderiam antecipar para seus prompts. Essa mudança contribui diretamente para o "Imposto de Tokenizer" discutido anteriormente, à medida que a verbosidade do modelo aumenta.

Para colocar isso em perspectiva, o novo nível de esforço `extra high` no Opus 4.7 usa aproximadamente a mesma quantidade de tokens que o nível de esforço *max* do Opus 4.6. Isso significa que os usuários acostumados ao desempenho do Opus 4.6 em sua configuração mais alta estão agora obtendo uma taxa de consumo de tokens semelhante como linha de base no Opus 4.7, mesmo para tarefas rotineiras. Este padrão impacta dramaticamente os custos operacionais.

Desenvolvedores experientes, no entanto, podem navegar por este novo cenário de custos estrategicamente. Especialistas aconselham fortemente testar os vários níveis de esforço para encontrar um equilíbrio ideal. Uma recomendação chave: mude a configuração padrão no Claude Code para `high` em vez de `extra high`.

Este ajuste aparentemente menor rende benefícios significativos. O nível de esforço `high` do Opus 4.7 na verdade *supera* o nível de esforço `max` do Opus 4.6, tudo isso enquanto utiliza menos tokens. Ao fazer esta única mudança de configuração, os usuários podem alcançar um desempenho superior em comparação com o pico da geração anterior, mas com uma redução notável no consumo de tokens e nos custos correspondentes. Isso apresenta um caminho claro para otimizar tanto a qualidade da saída quanto os gastos.

O Confronto Final de Design de UI

Além da pura destreza em codificação, a Anthropic também elogiou as capacidades aprimoradas de design de UI do Opus 4.7. Um teste direto de 'cafe website', exigindo apenas um arquivo `index.html`, colocou o Opus 4.7 contra seu predecessor, Opus 4.6, juntamente com os concorrentes Gemini 3.1 e GPT 5.4. Este cenário do mundo real visava avaliar o talento criativo dos modelos e a capacidade de traduzir um conceito simples em uma página web visualmente atraente.

O Opus 4.7 entregou um resultado "muito bom", gerando um website de café responsivo com uma fonte de bom gosto e imagens Unsplash bem integradas. O design evocava uma sensação autêntica de café, mostrando um claro avanço em relação à saída do Opus 4.6. Seu predecessor produziu uma versão menos polida, apresentando um fundo gradiente menos atraente e uma estética geralmente menos refinada, tornando a melhoria do Opus 4.7 tangível.

A verdadeira surpresa, no entanto, veio do Gemini 3.1, que surgiu como o design preferido para esta tarefa criativa específica. Sua saída ostentava um fundo fixo marcante, seções de imagem bem executadas e um menu bem organizado que impressionou os testadores. O Gemini 3.1 demonstrou um forte talento visual, provando que a capacidade de codificação bruta nem sempre equivale a um julgamento estético superior no design de UI.

Por outro lado, o GPT 5.4 ficou em um distante último lugar. Seu website gerado sofria de uma "aparência e sensação GPT" genérica e imediatamente reconhecível, caracterizada por um uso excessivo de elementos de cartão borrados. Este design não conseguiu capturar o ambiente de café desejado, destacando a dificuldade do modelo com a interpretação criativa e estilística em comparação com seus pares.

Este confronto de design de UI ressalta que, embora os benchmarks quantifiquem o desempenho técnico, tarefas criativas subjetivas frequentemente revelam personalidades e pontos fortes distintos dos modelos. Compreender essas nuances é crucial para desenvolvedores que escolhem a IA certa para projetos diversos. Para mais detalhes sobre as implicações econômicas desses modelos e seu uso de tokens em evolução, os leitores podem explorar Claude Opus 4.7 Pricing: The Real Cost Story Behind the “Unchanged” Price Tag - Finout.

Construindo um Aplicativo Fullstack de Uma Vez

Indo além de websites simples de página única, o teste definitivo para a destreza de codificação de IA moderna envolve a construção de um aplicativo fullstack do zero. Desafiamos os modelos líderes a construir um painel de finanças pessoais abrangente, concedendo-lhes total autonomia para selecionar sua pilha de tecnologia preferida e implementar funcionalidades essenciais. Esta tarefa complexa investiga não apenas o design de UI, mas também a lógica de backend, gerenciamento de dados e tomada de decisões arquitetônicas.

O Opus 4.7 entregou um resultado inicial genuinamente impressionante, exibindo um nível de integração e coerência de design inigualável por seus rivais. O aplicativo gerado apresentava uma interface de usuário limpa e intuitiva com um esquema de cores cuidadosamente escolhido. Seu apelo estético se destacou imediatamente, refletindo as melhorias elogiadas do modelo na geração de UI "de bom gosto e criativa".

Funcionalmente, os componentes de frontend eram robustos e bem implementados. Os usuários podiam interagir com vários elementos, inserindo dados financeiros e navegando por diferentes seções do painel. O código demonstrou um forte domínio dos princípios modernos de desenvolvimento web, produzindo uma experiência de usuário responsiva e envolvente que parecia pronta para produção à primeira vista.

No entanto, a saída sofisticada do Opus 4.7 abrigava uma falha de design crítica profundamente enraizada em sua arquitetura escolhida. Apesar do frontend impressionante, o modelo optou por uma solução de banco de dados em memória para lidar com todos os dados do usuário. Essa escolha fundamental minou severamente a utilidade do aplicativo no mundo real, introduzindo uma falha fatal para qualquer ferramenta de rastreamento financeiro.

Um banco de dados em memória significa que todas as informações, desde contas de usuário até históricos de transações, residem exclusivamente na memória ativa da aplicação. Consequentemente, qualquer reinício do servidor ou processo da aplicação apaga instantaneamente cada pedaço de dados armazenados. Essa completa falta de data persistence torna o painel financeiro totalmente impraticável para seu propósito.

Embora o Opus 4.7 tenha demonstrado habilidade excepcional na geração de código complexo e bem estruturado e UIs atraentes, sua decisão arquitetônica revelou um ponto cego significativo. O modelo falhou em priorizar o aspecto mais crucial de uma aplicação de finanças pessoais: o armazenamento seguro e permanente de informações financeiras sensíveis. Essa falha destaca um desafio contínuo para até mesmo os codificadores de AI mais avançados: compreender os requisitos implícitos do usuário além das instruções explícitas.

Como a Concorrência se Compara

Ilustração: Como a Concorrência se Compara
Ilustração: Como a Concorrência se Compara

Depois que o Opus 4.7 arquitetou e construiu com sucesso um painel de finanças pessoais, escolhendo sua própria tech stack e entregando uma aplicação executável em uma única passagem, a análise comparativa revela diferenças marcantes entre os modelos líderes. Sua capacidade de gerar uma solução full-stack coerente e funcional a partir de um prompt de alto nível estabelece um padrão formidável para a concorrência no desenvolvimento prático de software.

A iteração anterior da Anthropic, o Opus 4.6, apresentou um resultado mais misto. Embora sua user interface tenha se mostrado menos impressionante e esteticamente refinada do que a saída do 4.7, o modelo demonstrou uma compreensão mais forte da backend persistence. Ele implementou corretamente um persistent SQLite database e entregou mais recursos funcionais cruciais para uma aplicação funcional. Este modelo mais antigo priorizou a lógica central da aplicação, destacando uma troca sutil entre o polimento visual e a funcionalidade fundamental robusta.

O GPT-5.4 da OpenAI teve dificuldades significativas com a tarefa full-stack, produzindo uma tentativa que era funcionalmente inutilizável. Ele falhou em entregar uma aplicação coesa ou executável, gerando código fragmentado que exigiu intervenção manual substancial. Além disso, o modelo optou por uma abordagem tecnicamente básica, dependendo de plain JavaScript e HTML em vez de demonstrar proficiência com modern frameworks. Essa saída posiciona o GPT-5.4 muito atrás na geração de aplicações complexas e multi-componentes.

O Gemini 3.1 do Google entregou o desempenho menos eficaz neste teste exigente. Ele falhou fundamentalmente em produzir uma aplicação em execução a partir do prompt inicial, exigindo múltiplas interações de acompanhamento e extensa orientação do usuário para alcançar até mesmo funcionalidade parcial. Essa incapacidade de gerar um projeto autocontido e executável sem intervenção externa significativa ressalta suas limitações atuais em cenários de desenvolvimento full-stack autônomos, classificando-o como o menos capaz neste benchmark.

Esses resultados, tanto do teste de UI de um site de café simples quanto do desafio full-stack mais complexo do painel de finanças pessoais, pintam um quadro claro do cenário atual de codificação de AI. Enquanto o Opus 4.7 se destaca na criação de aplicações polidas e executáveis com princípios de design modernos e funcionalidade robusta, seus rivais frequentemente ficam aquém em qualidade estética, completude funcional ou na capacidade crítica de entregar um produto funcional sem extensa orientação do usuário e prompts iterativos. Essa lacuna de desempenho solidifica a liderança atual do Opus 4.7 na geração de código complexo e multifacetado.

Conheça Mythos: A AI Que Ainda Não Podemos Ter

Embora o Opus 4.7 reine como o modelo mais capaz disponível publicamente, os próprios benchmarks da Anthropic revelam uma IA oculta e mais poderosa: Mythos. Este modelo avançado, apresentado em avaliações internas, supera demonstravelmente até mesmo a última iteração do Claude, mas permanece inacessível para desenvolvedores e criadores. Sua existência ressalta o progresso rápido, muitas vezes invisível, que ocorre nos laboratórios de pesquisa de IA.

A Anthropic atualmente retém o Mythos do lançamento público devido a preocupações críticas de segurança. As imensas capacidades do modelo, particularmente seu potencial de uso indevido, exigem salvaguardas robustas e testes extensivos antes que possa ser amplamente implantado. Essa abordagem cautelosa destaca a luta contínua da indústria para equilibrar a inovação com o desenvolvimento responsável da IA.

O Opus 4.7 desempenha um papel fundamental e estratégico neste delicado equilíbrio. A Anthropic o projetou especificamente como um campo de testes vital para novas salvaguardas cibernéticas, bloqueando ativamente solicitações que indicam usos de cibersegurança proibidos ou de alto risco. Essa escolha de design deliberada explica a anomalia de desempenho única do Opus 4.7: uma leve e controlada queda em suas pontuações de benchmark de cibersegurança em comparação com o Opus 4.6, uma redução que serve como uma restrição artificial para mitigar riscos potenciais.

Os dados do mundo real coletados a partir da implantação do Opus 4.7 sob esses protocolos rigorosos são inestimáveis. Eles permitem que a Anthropic avalie rigorosamente a eficácia de seus mecanismos de segurança e compreenda as interações complexas entre IA poderosa e ameaças potenciais. Esse processo de aprendizado iterativo é fundamental para refinar modelos futuros.

Em última análise, o Opus 4.7 representa um passo crucial e fundamental para a eventual e segura introdução de modelos da classe Mythos. Seu lançamento público oferece um ambiente controlado para validar recursos de segurança avançados, abrindo caminho para sistemas de IA mais poderosos, porém seguros. Quando o Mythos ou seus sucessores finalmente chegarem, eles prometem remodelar radicalmente o desenvolvimento de software, oferecendo capacidades sem precedentes somente após rigorosa validação de segurança.

O Veredito: Uma Obra-Prima Imperfeita?

O Opus 4.7 apresenta um quadro matizado, entregando capacidades inovadoras de codificação e UI design. Seu salto de 10% no SWE-bench Pro e ganho de 7% nos Verified benchmarks em relação ao Opus 4.6 demonstram seu poder bruto, exibindo uma impressionante full-stack app generation em nossos testes. No entanto, este desempenho aprimorado vem com um aumento significativo de custo, especificamente um potencial 'tokenizer tax' de 35% em prompts existentes. Além disso, persistem questões sobre sua long-context reliability, com alguns needle-in-a-haystack benchmarks sugerindo uma queda de desempenho em comparação com o Opus 4.6.

A decisão da Anthropic de padronizar para o novo nível de esforço `extra high` no Claude Code exacerba ainda mais o consumo de tokens. Embora essa configuração prometa um raciocínio mais profundo e maior confiabilidade em problemas difíceis, ela se traduz diretamente em custos operacionais mais altos para os desenvolvedores. Os usuários devem gerenciar ativamente essas configurações, explorando o nível de esforço `high` para encontrar um melhor equilíbrio entre desempenho e eficiência econômica. Essa vigilância torna-se crucial para qualquer trabalho de desenvolvimento sustentado, especialmente para agentic settings.

Para tarefas de codificação complexas, engenharia de sistemas intrincada e UI design sofisticado, o Opus 4.7 se destaca como uma ferramenta fenomenal, indiscutivelmente o melhor modelo disponível publicamente. Sua interpretação mais literal das instruções exige refinamento de prompt, mas recompensa a precisão com saídas altamente exatas. Desenvolvedores podem aproveitar seu enhanced multimodal support e self-verification para resultados notavelmente robustos, mesmo em fluxos de trabalho multi-session.

Em última análise, Opus 4.7 é uma obra-prima imperfeita: inigualável em domínios específicos, mas com custos ocultos e potenciais fraquezas de contexto longo que os utilizadores devem navegar. Exige uma abordagem mais estratégica ao uso, fazendo escolhas conscientes sobre os níveis de esforço e otimização de prompts. Quais são as suas opiniões sobre a última atualização da Anthropic? Qual modelo de IA serve atualmente como o seu preferido para desenvolvimento, e o que pensa das compensações do Opus 4.7?

Perguntas Frequentes

Qual é a principal atualização no Claude Opus 4.7?

Opus 4.7 oferece grandes melhorias em codificação, raciocínio agêntico e visão de alta resolução, mostrando um salto de 10% no benchmark SWE-bench Pro em relação ao seu predecessor.

Por que o Opus 4.7 custa mais para usar para o mesmo prompt?

Ele usa um tokenizer atualizado que pode mapear o mesmo texto para até 35% mais tokens. Combinado com um nível de esforço padrão "extra alto" no Claude Code, isso aumenta efetivamente o custo por tarefa, apesar dos preços por token inalterados.

Como o desempenho de contexto longo do Opus 4.7 se compara ao 4.6?

Alguns testes de utilizadores e benchmarks, como o teste "agulha no palheiro", mostram uma regressão significativa na recuperação de contexto longo, sugerindo que uma potencial compensação foi feita para impulsionar outras capacidades.

O Claude Opus 4.7 é melhor que o GPT-5.4 para codificação?

Com base num teste de aplicação full-stack, o Opus 4.7 produziu uma aplicação significativamente mais completa e bem projetada com uma UI limpa, enquanto o GPT-5.4 gerou um projeto básico e inutilizável.

Perguntas frequentes

Esmagando Código, Tropeçando em Fatos?
See article for details.
O Veredito: Uma Obra-Prima Imperfeita?
O Opus 4.7 apresenta um quadro matizado, entregando capacidades inovadoras de codificação e UI design. Seu salto de 10% no SWE-bench Pro e ganho de 7% nos Verified benchmarks em relação ao Opus 4.6 demonstram seu poder bruto, exibindo uma impressionante full-stack app generation em nossos testes. No entanto, este desempenho aprimorado vem com um aumento significativo de custo, especificamente um potencial 'tokenizer tax' de 35% em prompts existentes. Além disso, persistem questões sobre sua long-context reliability, com alguns needle-in-a-haystack benchmarks sugerindo uma queda de desempenho em comparação com o Opus 4.6.
Qual é a principal atualização no Claude Opus 4.7?
Opus 4.7 oferece grandes melhorias em codificação, raciocínio agêntico e visão de alta resolução, mostrando um salto de 10% no benchmark SWE-bench Pro em relação ao seu predecessor.
Por que o Opus 4.7 custa mais para usar para o mesmo prompt?
Ele usa um tokenizer atualizado que pode mapear o mesmo texto para até 35% mais tokens. Combinado com um nível de esforço padrão "extra alto" no Claude Code, isso aumenta efetivamente o custo por tarefa, apesar dos preços por token inalterados.
Como o desempenho de contexto longo do Opus 4.7 se compara ao 4.6?
Alguns testes de utilizadores e benchmarks, como o teste "agulha no palheiro", mostram uma regressão significativa na recuperação de contexto longo, sugerindo que uma potencial compensação foi feita para impulsionar outras capacidades.
O Claude Opus 4.7 é melhor que o GPT-5.4 para codificação?
Com base num teste de aplicação full-stack, o Opus 4.7 produziu uma aplicação significativamente mais completa e bem projetada com uma UI limpa, enquanto o GPT-5.4 gerou um projeto básico e inutilizável.
🚀Descubra mais

Fique à frente da curva da IA

Descubra as melhores ferramentas de IA, agentes e servidores MCP selecionados pela Stork.AI.

Voltar a todas as publicações