A Aposta de IA da Anthropic: O Opus 4.7 é uma Porcaria?

A Anthropic acabou de lançar o Claude Opus 4.7, prometendo capacidades de IA de nível divino. Mas especialistas de topo como Matthew Berman estão a descobrir falhas graves que podem torná-lo um enorme passo para trás.

Stork.AI
Hero image for: A Aposta de IA da Anthropic: O Opus 4.7 é uma Porcaria?
💡

Resumo / Pontos-chave

A Anthropic acabou de lançar o Claude Opus 4.7, prometendo capacidades de IA de nível divino. Mas especialistas de topo como Matthew Berman estão a descobrir falhas graves que podem torná-lo um enorme passo para trás.

O Mundo da IA Prende a Respiração

Matthew Berman, um proeminente especialista em IA e fundador da Forward Future, não poupou palavras. O seu vídeo no YouTube, "Seeing if Opus 4.7 sucks [LIVE]," imediatamente estabeleceu um tom provocador, desafiando a narrativa padrão de progresso na inteligência artificial. Esta abordagem direta e sem rodeios capturou a atenção de uma comunidade já repleta de antecipação pelo mais recente modelo emblemático da Anthropic, Claude Opus 4.7. O título de Berman por si só sinalizou uma análise crítica aprofundada, indo além do hype de marketing para escrutinar o desempenho no mundo real, ecoando o sentimento dos seus recursos como "The Subtle Art of Not Being Replaced" e "Humanity's Last Prompt Engineering Guide."

A Anthropic posicionou o Claude Opus 4.7 como o seu modelo Opus mais capaz até à data, uma potência de raciocínio híbrido com uma impressionante janela de contexto de 1M. Lançado a 16 de abril de 2026, este modelo chegou com expectativas significativas. A indústria procurava um salto definitivo nas capacidades de IA, particularmente em áreas como: - Codificação agêntica - Processamento avançado de visão - Raciocínio complexo em várias etapas

A comunidade de IA, abrangendo desde desenvolvedores individuais até grandes usuários empresariais, aguardava ansiosamente o Opus 4.7. A sua ampla disponibilidade em plataformas importantes prometia uma integração generalizada: - Usuários Claude Pro, Max, Team e Enterprise - Desenvolvedores via Claude Platform API - Integrações no Amazon Bedrock, Vertex AI do Google Cloud e Microsoft Foundry - Lançamento gradual no GitHub Copilot

Os desenvolvedores esperavam uma ferramenta robusta para enfrentar projetos mais ambiciosos, enquanto as empresas buscavam ganhos de eficiência e soluções inovadoras, justificando o preço base do modelo de $5 por milhão de input tokens e $25 por milhão de output tokens. No entanto, um tokenizer atualizado poderia aumentar o custo real em até 35% para a mesma entrada, adicionando outra camada de escrutínio.

Por baixo da superfície das alegações oficiais e do entusiasmo inicial, uma questão crítica fervilhava: O Opus 4.7 cumpriu a sua promessa, ou a Anthropic tropeçou? Apesar das melhorias anunciadas, sussurros e análises de especialistas, incluindo as de Berman, sugeriam potenciais regressões. Relatórios indicaram uma diminuição significativa no desempenho de recuperação de contexto longo, com o benchmark MRCR a cair, segundo relatos, de 78.3% no Opus 4.6. A comunidade preparava-se para uma resposta: seria este um salto inovador para a Anthropic, ou um erro significativo que poderia redefinir as expectativas para os modelos de IA de fronteira?

O Que a Anthropic Prometeu: Uma Nova Fronteira

Ilustração: O Que a Anthropic Prometeu: Uma Nova Fronteira
Ilustração: O Que a Anthropic Prometeu: Uma Nova Fronteira

A Anthropic revelou oficialmente o Claude Opus 4.7 a 16 de abril de 2026, posicionando-o como o seu modelo mais capaz e ambicioso até à data. A empresa apresentou esta nova iteração como um salto significativo, construído sobre três pilares fundamentais: codificação agêntica aprimorada, capacidades avançadas de visão e raciocínio robusto de nível empresarial. Este lançamento visava redefinir os limites do que a IA autónoma poderia alcançar, estabelecendo um alto padrão para as suas expectativas de desempenho.

As afirmações da Anthropic para o Opus 4.7 foram particularmente ousadas, focando na sua capacidade de lidar com desafios sofisticados e de múltiplas etapas. Eles afirmaram que o modelo poderia construir software complexo autonomamente a partir de instruções de alto nível, um passo significativo em direção a agentes de IA mais independentes. Além disso, sua visão avançada permitiu a análise de documentos de alta resolução e dados visuais intrincados, facilitando uma compreensão mais profunda e a extração de insights de diversos formatos. A 1M context window do modelo sustentou essas capacidades, permitindo-lhe processar e raciocinar sobre vastas quantidades de informação.

A ampla disponibilidade marcou outro movimento estratégico para a Anthropic. O Opus 4.7 tornou-se geralmente acessível a uma vasta gama de utilizadores, incluindo subscritores Claude Pro, Max, Team e Enterprise. Para desenvolvedores e grandes organizações, a Anthropic garantiu uma integração perfeita através de múltiplas plataformas: - The Claude Platform API - Amazon Bedrock - Google Cloud's Vertex AI - Microsoft Foundry Esta estratégia de implementação generalizada sublinhou a intenção da Anthropic de incorporar o Opus 4.7 profundamente no ecossistema de IA existente, tornando-o uma ferramenta ubíqua para desenvolvimento e implementação. O seu lançamento no GitHub Copilot solidificou ainda mais a sua presença no fluxo de trabalho do desenvolvedor.

A linguagem de marketing da Anthropic para o Opus 4.7 foi inequivocamente assertiva, posicionando o modelo diretamente contra os principais concorrentes no espaço LLM. A empresa destacou o desempenho superior do Opus 4.7 em tarefas complexas e multimodais e o seu apelido de "enterprise-grade", sinalizando a sua adequação para aplicações de negócios críticas que exigem alta confiabilidade e precisão. Esta mensagem estratégica visava capturar o mercado empresarial de alto valor, enfatizando a capacidade do modelo para resolução de problemas intrincados e implementação robusta.

A estrutura de preços para o Opus 4.7 refletiu o seu posicionamento premium. A Anthropic definiu o custo base em $5 por milhão de input tokens e $25 por milhão de output tokens. No entanto, um detalhe crucial frequentemente negligenciado foi o impacto de um tokenizer atualizado, que poderia aumentar o custo efetivo em até 35% para processar o mesmo volume de entrada. Esta consideração de custo tornou-se um fator crítico para organizações que planeiam implementações em larga escala, adicionando outra camada à proposta de valor geral do modelo.

O Elefante na Sala: Falha de Contexto

O Opus 4.7 da Anthropic enfrenta a sua regressão mais alarmante na recuperação de contexto longo, uma capacidade fundamental para qualquer IA avançada. Os benchmarks revelam uma queda catastrófica no Mean Reciprocal Rank (MRCR), despencando de 78.3% no anterior Opus 4.6 para um lamentável 32.2%. Isto não é uma pequena queda de desempenho; representa uma degradação severa na capacidade do modelo de processar e recordar com precisão informações de entradas extensas e de várias páginas.

O MRCR serve como uma métrica crítica, quantificando a eficácia com que um modelo de IA consegue localizar uma "agulha" específica de informação dentro de um vasto "palheiro" de texto. Um MRCR mais alto indica que o modelo identifica a resposta correta rapidamente, muitas vezes entre as suas principais sugestões iniciais, significando uma compreensão contextual robusta. A queda precipitada para 32.2% significa que o Opus 4.7 agora falha frequentemente em identificar detalhes cruciais ou os enterra tão profundamente na sua saída que se tornam praticamente inacessíveis. Isso compromete severamente a utilidade da sua expansiva 1M context window, tornando-o pouco confiável para análise complexa de documentos.

Este profundo fracasso em cenários de agulha no palheiro compromete muitas das aplicações de nível empresarial que a Anthropic promoveu. Considere as implicações práticas para profissionais que dependem de informações precisas e oportunas de grandes conjuntos de dados: - Pesquisadores que tentam sintetizar descobertas de vasta literatura científica, precedentes legais ou arquivos históricos. Eles não podem confiar no modelo para identificar fatos críticos ou contra-argumentos. - Desenvolvedores navegando por bases de código extensas, depurando sistemas complexos ou interpretando vasta documentação de API. O modelo pode perder uma definição de função crucial ou uma mensagem de erro obscura. - Analistas financeiros e de mercado que precisam extrair pontos de dados precisos, tendências ou cláusulas regulatórias de relatórios abrangentes que se estendem por centenas de páginas. Ignorar um único número pode levar a erros significativos.

Para esses usuários, a incapacidade do Opus 4.7 de recordar fatos específicos de forma confiável o torna significativamente menos útil, até mesmo contraproducente. O modelo efetivamente "esquece" ou ignora informações críticas incorporadas no próprio contexto que deveria entender, transformando sua grande context window em um passivo em vez de um ativo.

A Anthropic promoveu o Opus 4.7 como um modelo superior, ostentando avanços em agentic coding, advanced vision e raciocínio sofisticado de nível empresarial. Portanto, a degradação drástica de uma capacidade tão fundamental levanta questões imediatas e sérias sobre seu desenvolvimento e testes. Como um modelo supostamente mais capaz poderia exibir um retrocesso tão severo e contraintuitivo em uma função central, especialmente uma tão vital para seus pontos fortes anunciados? Essa falha gritante contradiz diretamente a narrativa de progresso e lança uma longa sombra sobre a confiabilidade geral do modelo. Para mais detalhes sobre os recursos anunciados do modelo, consulte o lançamento oficial da Anthropic: Introducing Claude Opus 4.7 - Anthropic.

O Custo Que Você Não Viu Chegar

O Opus 4.7 da Anthropic chegou com um impacto financeiro não anunciado, imediatamente evidente para os desenvolvedores que monitoram o uso de sua API. Um novo tokenizer, mais verboso, inflaciona significativamente as contagens de tokens para textos de entrada idênticos, elevando efetivamente os custos reais em até 35%. Embora as taxas publicadas permaneçam em $5 por milhão de input tokens e $25 por milhão de output tokens, essa mudança nos bastidores significa que os desenvolvedores pagam consideravelmente mais pelo mesmo esforço computacional, criando uma sobretaxa oculta em cada interação.

Agravando ainda mais essa opacidade financeira, a Anthropic removeu inexplicavelmente a transparência em torno dos thinking tokens. Iterações anteriores do Opus forneciam uma visão crucial sobre as etapas de processamento interno, permitindo que os desenvolvedores antecipassem e gerenciassem o consumo da API com maior precisão. Essa súbita falta de visibilidade agora força os engenheiros a operar no escuro, dificultando sua capacidade de prever despesas com precisão e otimizar estratégias complexas de prompt engineering.

Este novo paradigma de custos altera fundamentalmente a posição competitiva do Opus 4.7 em relação ao seu predecessor, Opus 4.6, e aos modelos rivais. O Opus 4.6 oferecia um modelo de custo mais previsível, crucial para implementações empresariais com orçamentos limitados. Agora, o modelo principal da Anthropic apresenta uma proposta menos transparente e potencialmente muito mais cara em comparação com as ofertas da OpenAI ou Google, onde os desenvolvedores frequentemente encontram estruturas de preços mais claras para capacidades comparáveis.

A questão crítica permanece: os alardeados ganhos de desempenho do Opus 4.7 realmente justificam este gasto aumentado e menos previsível? A Anthropic destaca avanços em agentic coding, advanced vision e enterprise-grade reasoning como pontos de venda chave. No entanto, estas melhorias devem agora ser ponderadas contra um preço efetivo mais alto e a regressão alarmante do modelo na recuperação de contexto longo, como evidenciado pelo MRCR benchmark. Para muitos desenvolvedores, a proposta de valor tornou-se consideravelmente mais obscura, exigindo uma reavaliação cuidadosa da sua estratégia de investimento em IA.

'Adaptive Thinking': Um Recurso ou uma Falha?

Ilustração: 'Adaptive Thinking': Um Recurso ou uma Falha?
Ilustração: 'Adaptive Thinking': Um Recurso ou uma Falha?

A Anthropic removeu controversamente o botão Extended Thinking, um recurso crucial que anteriormente concedia aos usuários controle granular sobre a profundidade de raciocínio do Claude Opus. Este mecanismo controlado pelo usuário permitia que profissionais guiassem explicitamente o modelo através de resolução de problemas intrincados, garantindo exaustividade para aplicações de alto risco. O seu desaparecimento marca uma mudança significativa na forma como os usuários interagem com os processos cognitivos do modelo.

Substituindo este controle explícito está o Adaptive Thinking, um recurso autônomo que opera sem entrada do usuário ou transparência. A Anthropic oferece pouca clareza sobre como este novo sistema funciona, quando ele é ativado ou quais parâmetros ele considera. Os usuários agora enfrentam uma caixa preta, incapazes de influenciar ou mesmo entender as fases deliberativas internas do modelo.

Para tarefas complexas e de várias etapas — como agentic coding ou enterprise-grade reasoning — a capacidade de direcionar o processo de pensamento do modelo prova ser indispensável. Perder este controle do usuário direto parece uma desvalorização substancial, minando a previsibilidade e a confiabilidade essenciais para fluxos de trabalho críticos. Esta mudança força os usuários a ceder agência a um sistema opaco e automatizado.

O feedback dos usuários imediatamente destacou a frustração generalizada pela perda de uma ferramenta valiosa. Muitos profissionais confiavam no botão 'Extended Thinking' para evitar respostas superficiais e garantir uma análise abrangente. A transição para um sistema 'Adaptive Thinking' incontrolável deixou muitos se sentindo desempoderados, questionando o compromisso da Anthropic com a agência do usuário em interações avançadas de IA.

Análise ao Vivo de Matthew Berman

A transmissão ao vivo de Matthew Berman, provocativamente intitulada "Seeing if Opus 4.7 sucks", ofereceu uma avaliação nítida e do mundo real do mais recente modelo carro-chefe da Anthropic. Como uma voz influente para prompt engineers e construtores de IA, a análise de Berman rapidamente revelou discrepâncias críticas entre as promessas da Anthropic e o desempenho real do Opus 4.7. Seus testes rigorosos forneceram evidências tangíveis das regressões do modelo.

As demonstrações ao vivo de Berman expuseram repetidamente as dificuldades do Opus 4.7 com long-context retrieval, ecoando a queda alarmante no MRCR benchmark. Ele apresentou prompts específicos onde o modelo ou alucinava ou falhava completamente em recordar informações de momentos anteriores na conversa, uma tarefa que seu predecessor, Opus 4.6, lidava com muito maior confiabilidade. Isso minou diretamente as alegações de "enterprise-grade reasoning" para operações complexas e de várias etapas.

Sua opinião especializada destacou a utilidade prática diminuída do Opus 4.7 para seu público. Berman, cujos recursos incluem "Download The Subtle Art of Not Giving a F*ck of Not Giving a F*ck" e "Download Humanity's Last Prompt Engineering Guide", enfatizou que o tratamento imprevisível de contexto torna o modelo não confiável para o desenvolvimento profissional de IA. Ele apontou que, embora a Anthropic alardeasse melhorias em agentic coding e advanced vision, esses recursos se tornam amplamente irrelevantes se o modelo não conseguir manter uma compreensão coerente ao longo de interações estendidas.

As descobertas de Berman ressoam profundamente com o sentimento geral dos usuários que circula online. Numerosos relatórios da comunidade de desenvolvedores corroboram suas observações de desempenho inconsistente e uma degradação notável nas capacidades centrais. Essa insatisfação generalizada se intensifica dados os aumentos de custos ocultos; o novo tokenizer efetivamente inflaciona as despesas reais em até 35% para entradas idênticas, agravando a frustração pela eficácia reduzida.

A remoção do botão 'Extended Thinking' controlado pelo usuário exacerbou ainda mais as preocupações de Berman, sugerindo uma falta de transparência e autonomia do usuário. Sua análise ao vivo serviu como uma auditoria pública crucial, solidificando a narrativa de que o Opus 4.7, apesar de suas alegações oficiais, representa um passo significativo para trás para muitas aplicações críticas. Para mais detalhes sobre os anúncios oficiais da Anthropic e como acessar o modelo, os leitores podem consultar recursos como Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safety | Mashable.

Quando um Bom Código Estraga

Relatórios surgiram rapidamente detalhando o Claude Code excessivamente cauteloso do Opus 4.7, frequentemente sinalizando trechos benignos como prejudiciais. Essa postura de segurança agressiva levantou imediatamente preocupações entre os desenvolvedores que contavam com a promessa da Anthropic de advanced agentic coding. A hipervigilância do modelo provou ser mais um obstáculo do que uma ajuda.

Desenvolvedores compartilharam inúmeros casos de código simples e inócuo que acionava alertas. Funções básicas de Python para manipulação de arquivos, scripts de utilidade comuns ou até mesmo importações de bibliotecas padrão às vezes recebiam avisos de "malware" ou "risco de segurança", apesar de serem perfeitamente seguros. Isso criou uma experiência de usuário frustrante e ineficiente.

Essa corrente constante de falsos positivos erode severamente a confiança dos desenvolvedores no Opus 4.7 como um assistente de codificação confiável. Cada sinalização incorreta exige revisão manual e anulação, interrompendo fluxos de trabalho eficientes e anulando os próprios ganhos de produtividade que as ferramentas de codificação de IA deveriam oferecer. Engenheiros não podem delegar tarefas com confiança a uma IA excessivamente suspeita.

Para usuários corporativos, onde a integridade e a segurança do código são primordiais, essa falta de confiabilidade representa uma barreira significativa. Integrar um modelo que frequentemente identifica erroneamente código inofensivo introduz atrito inaceitável e potenciais atrasos em ciclos de desenvolvimento críticos. O custo dos falsos alarmes rapidamente supera qualquer benefício percebido.

Especialistas da indústria especulam que a hipersensibilidade do Opus 4.7 decorre de atualizações agressivas em seus protocolos de alinhamento de segurança. A Anthropic pode ter apertado significativamente as salvaguardas para prevenir qualquer potencial uso indevido ou geração de código prejudicial, criando inadvertidamente um sistema propenso a cautela excessiva. Essa troca priorizou a segurança acima da utilidade prática.

Equilibrar segurança robusta com utilidade prática continua sendo um desafio crítico para todos os desenvolvedores de grandes modelos de linguagem. Os problemas de codificação do Opus 4.7 destacam a linha tênue entre prevenir saídas verdadeiramente prejudiciais e sufocar o desenvolvimento legítimo com uma abordagem excessivamente restritiva e cautelosa. A implementação atual pende demais para o último.

A análise ao vivo de Matthew Berman provavelmente observou essas significativas dificuldades de codificação, adicionando outra camada à sua provocativa avaliação de que o modelo "sucks". A incapacidade do modelo de discernir com precisão código seguro de código inseguro diminui seu valor, particularmente para suas elogiadas características de agentic coding, que exigem confiança e precisão.

Comparando com Fantasmas

Ilustração: Comparando com Fantasmas
Ilustração: Comparando com Fantasmas

A tática persistente da Anthropic de comparar o Opus 4.7 com seu modelo 'Mythos' não lançado frustra cada vez mais a comunidade de IA. Este concorrente hipotético, perpetuamente no horizonte, serve mais como um fantasma de marketing do que como uma medida tangível, deixando usuários e desenvolvedores questionando a relevância de tais comparações. A estratégia parece menos uma demonstração de proeza atual e mais uma distração deliberada dos desafios de desempenho imediatos e observados do Opus 4.7.

Em vez de demonstrar as capacidades do Opus 4.7 contra rivais reais e formidáveis como o GPT-5.4 ou o Gemini 1.5 Pro, a Anthropic aponta continuamente para um ideal futuro e não verificado. Esta prática contorna avaliações cruciais do mundo real, tornando extremamente difícil para empresas e desenvolvedores avaliarem com precisão a verdadeira posição competitiva do Opus 4.7. Comparações objetivas contra líderes de mercado disponíveis tornam-se virtualmente impossíveis sem dados oficiais e transparentes.

Esta abordagem de marketing erode ativamente a confiança. A comparação com um modelo fantasma sugere ou uma falta de vontade de enfrentar a concorrência atual de frente ou, talvez, uma admissão implícita de que o Opus 4.7 tem dificuldades em comparações diretas e objetivas. Tais táticas forçam os potenciais adotantes a especular sobre o verdadeiro valor do modelo, em vez de depender de métricas de desempenho verificáveis e diretas, cruciais para integrações de IA de alto risco.

A indústria exige mais transparência e responsabilidade. A Anthropic deve mudar para comparar abertamente o Opus 4.7 com os líderes de mercado existentes, fornecendo dados concretos e comparáveis que informem genuinamente as decisões de compra e desenvolvimento. Ir além da miragem do 'Mythos' é fundamental para reconstruir a confiança da comunidade e promover um ambiente de inovação honesta e competitiva, onde os modelos são julgados pelo que entregam hoje, não pelo que prometem amanhã.

O Veredito: O Opus 4.7 é um Retrocesso?

O Opus 4.7 da Anthropic apresenta uma dicotomia marcante: avanços anunciados contra regressões documentadas. Embora a Anthropic tenha alardeado grandes progressos em codificação agêntica, visão avançada e raciocínio de nível empresarial, o modelo também introduziu contratempos críticos que desafiam sua utilidade geral. Esta não é uma simples atualização; é uma complexa repriorização de capacidades.

O Opus 4.7 "é ruim"? Não totalmente, mas certamente decepciona em áreas cruciais. A queda catastrófica no desempenho de recuperação de contexto longo, evidenciada pelo declínio do benchmark MRCR de 78,3% no Opus 4.6, representa uma regressão severa para muitos usuários. Além disso, o impacto do novo tokenizer, aumentando os custos efetivos em até 35%, adiciona um fardo financeiro inesperado.

A remoção do botão 'Extended Thinking' controlado pelo usuário e os relatos de que o Claude Code é excessivamente cauteloso com falsos positivos complicam ainda mais o cenário. A análise ao vivo de Matthew Berman e o feedback da comunidade destacam consistentemente essas questões, pintando um retrato de uma atualização com significativas compensações.

As recomendações para os usuários são matizadas: - Atualizar: Desenvolvedores ou empresas que priorizam as novas capacidades de codificação agêntica e visão avançada, onde o Opus 4.7 mostra ganhos demonstráveis, devem considerá-lo. - Esperar: Usuários que dependem fortemente da recuperação de contexto longo ou aqueles sensíveis aos custos efetivos aumentados devem adiar. - Evitar: Se o seu fluxo de trabalho depende do recurso 'Extended Thinking' ou se suas aplicações são criticamente impactadas pela cautela relatada do Claude Code, o Opus 4.7 pode ser um retrocesso.

O progresso na AI raramente é linear. O Opus 4.7 sublinha esta realidade, demonstrando que novas funcionalidades podem surgir juntamente com regressões significativas, e por vezes inexplicáveis. Embora o Opus 4.7 esteja geralmente disponível em várias plataformas, incluindo Claude Opus 4.7 on Vertex AI | Google Cloud Blog, os utilizadores devem avaliar cuidadosamente os seus pontos fortes específicos em relação às suas consideráveis fraquezas antes da implementação. O benchmarking contínuo da Anthropic contra o seu modelo 'Mythos' não lançado apenas aumenta a fadiga e a incerteza da comunidade em relação ao verdadeiro estado das suas ofertas atuais.

Anthropic numa Encruzilhada

A Anthropic navega num cenário de AI hipercompetitivo, onde rivais como OpenAI e Google impulsionam ciclos de lançamento agressivos. Este ambiente intenso amplifica cada passo em falso, colocando uma imensa pressão sobre a empresa para inovar, ao mesmo tempo que mantém a fiabilidade e a confiança do utilizador — um equilíbrio delicado que o Opus 4.7 demonstrou não conseguir alcançar, arriscando a sua posição no mercado ferozmente disputado.

Os ganhos prometidos em codificação agêntica e visão avançada surgiram juntamente com regressões alarmantes que impactam a funcionalidade central. A queda catastrófica no MRCR benchmark para recuperação de contexto longo contradisse diretamente a narrativa de avanço. Além disso, um novo tokenizer aumentou efetivamente os custos operacionais em até 35% para a mesma entrada, criando um fardo financeiro oculto para utilizadores empresariais e desenvolvedores.

A remoção do botão de alternância "Extended Thinking" controlado pelo utilizador, substituindo-o pela funcionalidade opaca "Adaptive Thinking", erodiu ainda mais a confiança do utilizador. Esta mudança limitou o controlo granular e contribuiu para relatos de que o Claude Code no Opus 4.7 era excessivamente cauteloso e propenso a falsos positivos. A fadiga da comunidade com o benchmarking consistente da Anthropic contra o seu modelo "Mythos" não lançado também destaca uma crescente procura por transparência em vez de comparações aspiracionais.

Para reconquistar a confiança, a Anthropic deve priorizar a estabilidade e a transparência. Abordar as regressões centrais, particularmente a falha de contexto e os aumentos de custos ocultos, é fundamental. Restabelecer o controlo do utilizador sobre o comportamento do modelo e fornecer roteiros claros e acionáveis, em vez de benchmarks vagos, sinalizaria um compromisso renovado com a sua base de utilizadores. Lançamentos futuros devem demonstrar melhorias tangíveis em cenários do mundo real.

Este episódio serve como uma lição severa para toda a indústria de AI. O hype de marketing e os benchmarks internos significam pouco quando o desempenho demonstrável e consistente no mundo real falha. A transparência no desenvolvimento, a comunicação honesta sobre as limitações e um foco implacável na fiabilidade devem preceder grandes afirmações sobre capacidades futuras. O título provocador de Matthew Berman, "Seeing if Opus 4.7 sucks," infelizmente provou ser presciente, sublinhando a exigência urgente da comunidade por uma verdade sem verniz.

Perguntas Frequentes

Quais são as principais novas funcionalidades do Claude Opus 4.7?

A Anthropic afirma que o Opus 4.7 tem desempenho aprimorado em codificação agêntica, capacidades de visão substancialmente melhores para analisar documentos complexos e raciocínio aprimorado para tarefas profissionais como análise financeira.

Quais são as maiores críticas ao Opus 4.7?

As principais críticas incluem uma queda severa no desempenho de recuperação de contexto longo, um novo tokenizer que aumenta os custos em até 35%, a remoção de controlos do utilizador como 'Extended Thinking', e um interpretador de código excessivamente sensível.

Devo atualizar para o Claude Opus 4.7?

Depende do seu caso de uso. Se você precisa de visão de ponta ou agentic coding, pode valer a pena testar. No entanto, se você depende de long-context retrieval ou custos previsíveis, talvez queira manter uma versão anterior ou um concorrente por enquanto.

Quem é Matthew Berman?

Matthew Berman é um especialista em IA e criador por trás da marca 'Forward Future'. Ele é conhecido por fornecer análises críticas, sem exageros, e guias práticos sobre novas ferramentas e modelos de IA.

Perguntas frequentes

'Adaptive Thinking': Um Recurso ou uma Falha?
See article for details.
O Veredito: O Opus 4.7 é um Retrocesso?
O Opus 4.7 da Anthropic apresenta uma dicotomia marcante: avanços anunciados contra regressões documentadas. Embora a Anthropic tenha alardeado grandes progressos em codificação agêntica, visão avançada e raciocínio de nível empresarial, o modelo também introduziu contratempos críticos que desafiam sua utilidade geral. Esta não é uma simples atualização; é uma complexa repriorização de capacidades.
Quais são as principais novas funcionalidades do Claude Opus 4.7?
A Anthropic afirma que o Opus 4.7 tem desempenho aprimorado em codificação agêntica, capacidades de visão substancialmente melhores para analisar documentos complexos e raciocínio aprimorado para tarefas profissionais como análise financeira.
Quais são as maiores críticas ao Opus 4.7?
As principais críticas incluem uma queda severa no desempenho de recuperação de contexto longo, um novo tokenizer que aumenta os custos em até 35%, a remoção de controlos do utilizador como 'Extended Thinking', e um interpretador de código excessivamente sensível.
Devo atualizar para o Claude Opus 4.7?
Depende do seu caso de uso. Se você precisa de visão de ponta ou agentic coding, pode valer a pena testar. No entanto, se você depende de long-context retrieval ou custos previsíveis, talvez queira manter uma versão anterior ou um concorrente por enquanto.
Quem é Matthew Berman?
Matthew Berman é um especialista em IA e criador por trás da marca 'Forward Future'. Ele é conhecido por fornecer análises críticas, sem exageros, e guias práticos sobre novas ferramentas e modelos de IA.
🚀Descubra mais

Fique à frente da curva da IA

Descubra as melhores ferramentas de IA, agentes e servidores MCP selecionados pela Stork.AI.

Voltar a todas as publicações