A Guerra Civil da IA da Anthropic Chegou

A Anthropic acaba de lançar o Opus 4.7, um modelo com poder surpreendente, apenas semanas depois de chamar seu irmão mais velho de 'muito perigoso' para lançamento. Este movimento não é apenas uma atualização; é uma aposta confusa e de alto risco que revela toda a sua estratégia de IA.

Stork.AI
Hero image for: A Guerra Civil da IA da Anthropic Chegou
💡

Resumo / Pontos-chave

A Anthropic acaba de lançar o Opus 4.7, um modelo com poder surpreendente, apenas semanas depois de chamar seu irmão mais velho de 'muito perigoso' para lançamento. Este movimento não é apenas uma atualização; é uma aposta confusa e de alto risco que revela toda a sua estratégia de IA.

A Atualização Que Ninguém Viu Chegar

A Anthropic lançou inesperadamente o Claude Opus 4.7, seu mais recente modelo de linguagem grande, sem alarde prévio ou um anúncio significativo. A chegada inesperada imediatamente gerou confusão e intensa especulação na comunidade de IA, particularmente dada a recente e notória decisão da Anthropic de reter seu modelo mais poderoso, o Mythos, do acesso público.

O comentarista de IA Matthew Berman articulou esse espanto generalizado. "O Opus 4.7 acabou de ser lançado... e estou confuso", afirmou Berman, destacando o forte contraste com as mensagens anteriores da Anthropic. Ele questionou a "linha na areia" da empresa em relação às capacidades do modelo, especialmente porque o Opus 4.7 representa um salto substancial em direção ao poder proibido do Mythos.

Apenas semanas antes, a Anthropic havia declarado o Mythos muito perigoso para lançamento público, citando suas capacidades avançadas em áreas como cibersegurança e hacking. O Mythos Preview, por exemplo, demonstrou um notável salto de 25 pontos na proficiência em codificação em benchmarks, um nível de sofisticação que a Anthropic considerou muito arriscado para implantação ampla. Essa decisão posicionou o Mythos como um "modelo divino" formidável, mas inacessível.

As métricas de desempenho do Opus 4.7 apenas aprofundaram o paradoxo. No benchmark crítico SWE-bench Pro, o Opus 4.7 obteve 64.3, um salto massivo dos 53.4 do Opus 4.6, colocando-o quase na metade das capacidades relatadas do Mythos Preview. Sua pontuação SWE-bench Verified de 87 se aproximou dos 94% do Mythos Preview, e seu Agentic Computer Use atingiu 78%, pouco abaixo dos 79.6% do Mythos.

Berman especulou se a retenção do Mythos pela Anthropic foi uma estratégia de marketing deliberada. A própria empresa reconheceu as capacidades cibernéticas reduzidas do Opus 4.7 em comparação com o Mythos Preview, afirmando que "experimentaram esforços para reduzir diferencialmente essas capacidades" durante o treinamento. Isso sugere um lançamento calculado, mas que ainda empurra os limites do que a Anthropic considerava seguro anteriormente. O aparecimento repentino de um modelo tão capaz, após a restrição autoimposta ao Mythos, lançou uma longa sombra sobre a transparência e a intenção estratégica da Anthropic.

Desvendando o Salto de Desempenho 'Impossível'

Ilustração: Desvendando o Salto de Desempenho 'Impossível'
Ilustração: Desvendando o Salto de Desempenho 'Impossível'

O Opus 4.7 chegou com um salto impressionante no desempenho, particularmente evidente no benchmark de codificação SWE-bench Pro. Sua pontuação subiu de 53.4 com o Opus 4.6 para um impressionante 64.3. Isso representa um ganho substancial de mais de 10 pontos em uma única iteração, um salto sem precedentes para uma atualização de versão menor.

O SWE-bench Pro avalia rigorosamente as capacidades de engenharia de software de um modelo, medindo sua proficiência em tarefas de codificação complexas em repositórios do mundo real. Para o mercado empresarial, essa métrica é primordial. A Anthropic claramente visa este segmento, entendendo que um desempenho robusto em codificação se traduz diretamente em aplicações de negócios críticas e receita. Sua estratégia depende do desenvolvimento dos melhores modelos de codificação para vender a clientes empresariais, financiando mais capacidade de GPU e, em última análise, permitindo a auto-melhoria recursiva de sua IA.

Esta melhoria notável empurra o Opus 4.7 para quase a metade do caminho entre o seu predecessor, Opus 4.6, e as capacidades do ainda não lançado Mythos Preview. O Mythos, revelado na semana passada, demonstrou um salto surpreendente de 25 pontos na proficiência em codificação, um nível considerado demasiado poderoso para lançamento público devido às suas implicações agudas para a cibersegurança e hacking. O rápido estreitamento desta lacuna a partir de uma "iteração de ponto único" do Opus está a causar confusão generalizada entre os especialistas em IA.

A decisão da Anthropic de lançar o Opus 4.7, apesar da sua proximidade às capacidades do Mythos, levanta questões significativas sobre o limiar de segurança interno da empresa. Os observadores agora questionam abertamente onde a Anthropic traça a linha para a implementação pública quando um modelo "menos capaz" alcança um desempenho tão avançado. Esta medida desafia suposições anteriores sobre o seu compromisso com um lançamento cauteloso de IA, especialmente dadas as suas preocupações declaradas relativamente ao potencial de uso indevido do Mythos.

A explicação oficial da empresa citou um plano para "testar novas salvaguardas cibernéticas em modelos menos capazes primeiro" com o Opus 4.7. A Anthropic até afirmou ter experimentado esforços para "reduzir diferencialmente estas capacidades" durante o treino, notando especificamente uma ligeira diminuição no benchmark de cybersecurity vulnerability reproduction de 73.8 para 73.1. Esta degradação intencional, se bem-sucedida, visa mitigar usos de alto risco.

No entanto, esta explicação ainda deixa os observadores a questionar a verdadeira razão por trás da retenção do Mythos enquanto se lança uma versão do Opus que reduz a lacuna de forma tão dramática. O rápido avanço do Opus 4.7 sugere que a Anthropic está a extrair o máximo de ganhos das suas execuções de treino existentes, potencialmente empurrando os limites do que anteriormente consideravam seguro para acesso público. A iteração contínua na família Opus poderá ser um precursor para futuros lançamentos ainda mais poderosos, esbatendo ainda mais as linhas das suas diretrizes de segurança autoimpostas.

Mythos: O Fantasma na Máquina da Anthropic

Um novo enigma paira agora sobre a estratégia da Anthropic: o modelo Mythos. Rumorejado como um modelo colossal de 10 triliões de parâmetros, o Mythos foi anunciado na semana passada como demasiado poderoso para lançamento público. Esta 'nova família de modelos' representa a execução de treino de ponta da Anthropic; mesmo na sua forma bruta e não otimizada, ele supera demonstravelmente as últimas iterações do Opus.

O Mythos demonstrou um salto impressionante de 25 pontos na capacidade de codificação em benchmarks como o SWE-bench Pro. A sua proficiência sem precedentes em engenharia de software traduziu-se diretamente numa proficiência alarmante em cibersegurança e hacking. A Anthropic considerou estas capacidades um risco significativo, levando à decisão de reter a sua implementação pública.

Especificamente, o Mythos Preview obteve 83.1 em cybersecurity vulnerability reproduction, uma vantagem de 10% sobre os 73.1 do Opus 4.7. Esta diferença acentuada sublinhou a preocupação da Anthropic. A empresa citou a sua iniciativa Project Glasswing, que destaca os riscos inerentes da IA avançada em cibersegurança, como justificação para limitar o lançamento do Mythos.

O Mythos funciona não como um produto futuro, mas como a fronteira de capacidade interna da Anthropic. Ele estabelece o padrão ouro para o que os seus modelos de IA podem alcançar, um benchmark que mesmo o impressionante Opus 4.7 não atinge. Este "modelo Deus" não lançado permite à Anthropic posicionar e justificar estrategicamente o lançamento de modelos 'inferiores', mas ainda assim altamente capazes.

Opus 4.7, por exemplo, serve como um campo de testes crucial. A Anthropic afirmou explicitamente que experimentou esforços para reduzir diferencialmente as capacidades cibernéticas do Opus 4.7, lançando-o com salvaguardas para bloquear usos proibidos de alto risco. Os insights obtidos com a implantação do Opus 4.7 no mundo real informarão seu objetivo final de lançar amplamente os Mythos-class models. Para mais detalhes sobre esses avanços, consulte Introducing Claude Opus 4.7 - Anthropic.

O Flywheel Bilionário da Anthropic

Matthew Berman, um proeminente comentarista de IA, postula que a ascensão meteórica e a destreza estratégica da Anthropic derivam de uma estratégia de negócios de "flywheel" meticulosamente projetada. Este ciclo de auto-reforço centra-se exclusivamente no desenvolvimento de modelos de codificação incomparáveis, impulsionando tanto o avanço tecnológico quanto o domínio do mercado. Representa uma abordagem altamente focada no desenvolvimento de IA e na penetração no mercado empresarial.

O flywheel inicia com o compromisso inabalável da Anthropic em construir o melhor coding model do mundo. Não se trata apenas de inteligência geral; é um foco preciso em capacidades avançadas de engenharia de software, cruciais para tarefas de desenvolvimento complexas. Com um agente de codificação superior, a Anthropic então vende agressivamente seus serviços para grandes clientes empresariais, onde a assistência de codificação sofisticada apresenta o "melhor caso de uso empresarial" para um impacto imediato e de alto valor.

A receita desses contratos empresariais de alto valor impulsiona a próxima etapa crítica: a aquisição de grandes quantidades de GPU capacity. A Anthropic reinveste seus ganhos substanciais diretamente na infraestrutura computacional necessária para o treinamento e pesquisa avançados de modelos. Essa aquisição contínua garante que eles possuam o poder de hardware de ponta necessário para desenvolver a IA de próxima geração, muitas vezes superando os concorrentes.

Possuir GPUs de última geração e um coding model já superior permite o passo final e recursivo: a auto-melhoria. O modelo existente, com sua avançada destreza em codificação, auxilia ativamente na construção, depuração e refinamento de seus próprios sucessores. Este ciclo de recursive self-improvement permite à Anthropic iterar e aprimorar seus modelos com eficiência sem precedentes, continuamente expandindo os limites da capacidade da IA mais rapidamente do que os métodos tradicionais.

Claude Opus 4.7 é um testemunho direto da eficácia desta estratégia. Seu salto impressionante no benchmark de codificação SWE-bench Pro, de 53.4 (Opus 4.6) para 64.3, não é meramente uma atualização incremental, mas um produto profundo deste investimento focado e otimização recursiva. Este poderoso efeito de flywheel sustenta o crescimento exponencial de receita relatado pela Anthropic, permitindo-lhes superar os concorrentes ao alavancar uma vantagem especializada e auto-perpetuadora no cenário de IA ferozmente competitivo.

A Linha Vermelha da Cibersegurança

Ilustração: A Linha Vermelha da Cibersegurança
Ilustração: A Linha Vermelha da Cibersegurança

Os resultados recentes de benchmark da Anthropic para Claude Opus 4.7 revelam uma anomalia marcante: uma queda peculiar em uma métrica de segurança crítica. Enquanto outros indicadores de desempenho para Opus 4.7 aumentaram dramaticamente, a pontuação de Cybersecurity Vulnerability Reproduction na verdade diminuiu, caindo de 73.8 para Opus 4.6 para 73.1. Essa regressão contraintuitiva contrasta fortemente com o Mythos Preview não lançado, que ostenta um significativamente maior 83.1 na mesma categoria, sublinhando uma divergência deliberada.

Este declínio específico alimenta uma teoria convincente: a Anthropic pode ter intencionalmente degradado, ou "nerfed", as capacidades de cibersegurança do Opus 4.7. Matthew Berman, um proeminente analista de IA, postula este cenário exato, sugerindo que a Anthropic reduziu deliberadamente o desempenho aqui para tornar o modelo mais seguro para consumo público. As ações recentes e as declarações públicas da empresa dão forte credibilidade a esta hipótese.

Ainda na semana passada, a Anthropic revelou o Project Glasswing, uma iniciativa estratégica focada diretamente nos riscos e benefícios duplos dos modelos de IA em cibersegurança. Como parte deste projeto, a Anthropic declarou explicitamente a sua intenção de limitar o lançamento público do Claude Mythos Preview, citando as suas capacidades avançadas e inigualáveis. Em vez disso, a empresa comprometeu-se a testar novas e rigorosas salvaguardas cibernéticas em "modelos menos capazes primeiro".

O Opus 4.7, confirmou a Anthropic, é precisamente esse "primeiro modelo". A empresa admitiu abertamente que as capacidades cibernéticas do Opus 4.7 "não são tão avançadas quanto as do Mythos Preview". Mais revelador ainda, a Anthropic revelou que "durante o seu treino, experimentámos esforços para reduzir diferencialmente estas capacidades", confirmando uma intervenção ativa e deliberada.

Isto não é meramente um declínio passivo; é uma intervenção calculada. A Anthropic está a implementar o Opus 4.7 com salvaguardas incorporadas, especificamente concebidas para "detetar e bloquear automaticamente pedidos que indiquem usos de cibersegurança proibidos ou de alto risco". A implementação no mundo real destes modelos deliberadamente restringidos servirá como um terreno de aprendizagem crucial para futuros lançamentos.

Os conhecimentos obtidos com a interação pública do Opus 4.7 e a eficácia destas novas salvaguardas irão informar diretamente a estratégia da Anthropic para um lançamento mais amplo e eventual dos seus poderosos Mythos-class models. A empresa vê claramente a cibersegurança como uma linha vermelha crítica, optando por uma abordagem cautelosa e iterativa para a implementação pública. Esta degradação calculada sublinha um firme compromisso com o desenvolvimento responsável da IA, priorizando a segurança e a expansão controlada das capacidades em detrimento de um lançamento imediato e de espectro total.

Mais do que Apenas Código: A Revolução da Visão

A chegada do Opus 4.7 sinalizou mais do que apenas uma revolução na codificação; anunciou um salto significativo nas capacidades de visão. A Anthropic destacou especificamente estas melhorias substanciais, posicionando o modelo como um concorrente formidável em IA multimodal. Esta compreensão visual aprimorada estende-se para além do simples reconhecimento de imagens, permitindo uma interação mais rica com dados visuais complexos.

O desempenho do modelo em benchmarks como o Document Reasoning sublinha dramaticamente este avanço. O Opus 4.7 saltou de um respeitável 57.1 para um incrível 80.6, deixando os concorrentes muito para trás em tarefas que exigem uma compreensão profunda de informações visuais complexas. Este salto impressionante demonstra uma mudança qualitativa na forma como a IA processa e interpreta layouts visuais, gráficos e conteúdo textual incorporado em imagens. Demonstra uma capacidade sofisticada de extrair e raciocinar sobre informações de documentos visualmente densos.

Uma atualização tão profunda na visão desbloqueia aplicações práticas críticas em várias indústrias. O Opus 4.7 pode agora gerar interfaces de utilizador de maior qualidade a partir de esboços ou descrições textuais, criar slides de apresentação profissionais com estéticas visuais matizadas e processar eficientemente documentos visuais complexos como relatórios financeiros, artigos científicos ou plantas arquitetónicas. A sua capacidade de "ver" e interpretar dados visuais com maior fidelidade transforma a forma como as empresas podem automatizar fluxos de trabalho de design, extração de dados e criação de conteúdo, levando a ganhos significativos de eficiência.

Este foco em capacidades de visão robustas alinha-se com a ênfase estratégica mais ampla da Anthropic em aplicações empresariais, onde o processamento de diversos tipos de dados, incluindo visuais, é fundamental para a inteligência de negócios e eficiência operacional. Para mais informações sobre a abordagem da Anthropic para proteger o desenvolvimento de IA e implantar modelos poderosos de forma responsável, consulte as suas informações sobre Project Glasswing: Securing critical software for the AI era - Anthropic. A proeza combinada dos seus modelos de codificação e visão posiciona o Opus 4.7 como uma ferramenta cada vez mais versátil para resolver desafios complexos do mundo real, estendendo a sua utilidade muito além da geração pura de código.

Vencendo no 'Trabalho Real': O Benchmark GDPVal

O benchmark GDPVal da OpenAI serve como uma medida crucial para avaliar o desempenho prático de uma IA em tarefas de negócios do mundo real. Esta métrica vai além das capacidades teóricas, avaliando diretamente a utilidade de um modelo em cenários que exigem resultados tangíveis, resolução de problemas complexos e execução eficiente em contextos profissionais. Representa um indicador significativo do valor imediato de uma IA, refletindo a sua capacidade de contribuir para a produção económica.

O Opus 4.7 apresentou um desempenho dominante no GDPVal, alcançando um impressionante Elo score de 1753. Isso supera confortavelmente o seu predecessor, Opus 4.6, que registou 1619. Crucialmente, o Opus 4.7 também venceu facilmente o seu formidável rival, GPT-5.4, que obteve 1674, estabelecendo uma liderança clara nesta categoria vital.

Este benchmark é um dos indicadores mais importantes do valor imediato de um modelo para utilizadores empresariais e profissionais. Uma pontuação alta no GDPVal significa a capacidade robusta de uma IA para enfrentar desafios de negócios complexos, otimizar operações e impulsionar ganhos de produtividade em diversos setores. Para organizações que procuram integrar soluções avançadas de IA, o desempenho excecional do Opus 4.7 no GDPVal traduz-se diretamente numa proposta convincente para implementação imediata e retorno mensurável do investimento.

A ênfase estratégica da Anthropic na construção de modelos poderosos e confiáveis para adoção empresarial encontra forte validação nestes resultados. A capacidade consistente de superar os concorrentes em benchmarks projetados para aplicação prática de negócios solidifica a posição do Opus 4.7 como uma ferramenta de primeira linha para uso profissional, desde análise financeira até otimização operacional. Este desempenho reforça o efeito 'flywheel' que Matthew Berman descreveu, onde modelos superiores geram receita substancial que alimenta um desenvolvimento ainda mais avançado.

O Custo Oculto: O Seu Orçamento de Tokens Está a Diminuir

Ilustração: O Custo Oculto: O Seu Orçamento de Tokens Está a Diminuir
Ilustração: O Custo Oculto: O Seu Orçamento de Tokens Está a Diminuir

O Opus 4.7, apesar de todos os seus avanços impressionantes, introduz uma desvantagem prática significativa para os utilizadores: um orçamento de tokens em rápida diminuição. Alcançar os seus resultados de ponta exige um gasto de tokens substancialmente maior em comparação com iterações anteriores. Isso traduz-se diretamente em custos operacionais aumentados e esgotamento mais rápido das quotas de utilizador, afetando todos, desde desenvolvedores individuais a grandes clientes empresariais.

Um dos principais impulsionadores deste aumento de consumo é o tokenizer atualizado do Opus 4.7. A análise interna da Anthropic revela que este novo componente mapeia os prompts de entrada para aproximadamente 1.35 vezes mais tokens do que o tokenizer do Opus 4.6. Consequentemente, o mesmo texto de entrada agora custa aproximadamente 35% mais em contagem bruta de tokens, mesmo antes de o modelo começar a processar.

Além do tokenizer, o próprio modelo parece se engajar em um 'pensamento' mais extenso em níveis de esforço mais altos. O Opus 4.7 comprovadamente gasta mais recursos computacionais e gera uma sequência mais rica de pensamentos internos para alcançar seu desempenho superior em tarefas complexas e de longa duração. Esse processamento mais profundo e rigoroso contribui diretamente para um maior uso de tokens em cada interação, refletindo a capacidade aprimorada do modelo.

Esse aumento na demanda por tokens chega em um momento crítico para a Anthropic, em meio à sua bem documentada crise de GPUs. A empresa implementou recentemente reduções notáveis nas cotas de usuários em seus modelos Claude, apertando o acesso à sua IA mais poderosa. O consumo inerentemente maior de tokens do Opus 4.7 exacerba um ambiente de recursos já sobrecarregado, forçando os usuários a fazer escolhas mais difíceis.

A Anthropic navega em uma corda bamba precária, equilibrando o imperativo de avançar a capacidade da IA com as realidades da capacidade computacional finita. A implantação de um modelo mais 'faminto' por tokens como o Opus 4.7, mesmo com seus substanciais saltos de desempenho, sinaliza uma priorização estratégica do poder bruto. Essa decisão, no entanto, cria um dilema significativo para os usuários, que agora devem ponderar cuidadosamente os recursos avançados contra orçamentos cada vez mais restritos e disponibilidade reduzida. Isso ressalta a tensão contínua na escalada da IA de ponta.

Repense Seus Prompts: Esta IA É Literal

A atualização para o Claude Opus 4.7 exige uma revisão completa da sua estratégia de engenharia de prompts. Sua nova precisão na execução de instruções torna muitos fluxos de trabalho legados, projetados para modelos anteriores, mais 'flexíveis', efetivamente quebrados. Os usuários descobrirão que o Opus 4.7 interpreta comandos com um literalismo sem precedentes, exigindo uma reavaliação meticulosa de cada entrada.

Essa mudança exige uma alteração fundamental na forma como você se comunica com o modelo. Longe vão os dias de instruções ambíguas ou de depender da IA para inferir a intenção. O Opus 4.7 espera clareza e direcionalidade, executando precisamente o que lê, não o que poderia intuir.

A própria Anthropic reforça essas novas melhores práticas. Os usuários devem evitar ativamente restrições negativas, como "não faça isso", pois o modelo pode interpretá-las inadvertidamente como instruções. Da mesma forma, letras maiúsculas para ênfase ou outros truques antigos de prompting agora frequentemente produzem resultados subótimos ou até contraproducentes.

Em vez disso, concentre-se em diretivas positivas e inequívocas. Reajuste e simplifique os prompts para um desempenho ideal, garantindo que cada instrução sirva a um propósito claro e direto. Essa mudança de paradigma ressalta uma evolução mais ampla na interação com a IA, onde a precisão dita o resultado, como destacado por publicações que cobrem os mais recentes avanços em LLM, como o relatório da VentureBeat sobre Anthropic releases Claude Opus 4.7, narrowly retaking lead for most powerful generally available LLM | VentureBeat.

Matthew Berman, conhecido por seus insights, publicou recentemente "Humanity's Last Prompt Engineering Guide", que defende a abordagem minimalista e direta agora essencial para modelos como o Opus 4.7. Abrace a simplicidade; ela é a nova sofisticação.

Manobra de Marketing ou Estratégia Mestra?

A ambiguidade estratégica da Anthropic em torno de Mythos colide diretamente com o lançamento surpresa do Opus 4.7. Apenas semanas depois de declarar Mythos muito potente para lançamento público, um "grande passo em direção" às suas capacidades chegou, deixando muitos a questionar as verdadeiras intenções da empresa.

As métricas de desempenho sublinham este paradoxo. A pontuação SWE-bench Pro do Opus 4.7 subiu de 53.4 para 64.3, colocando-o quase a meio caminho da destreza não lançada do Mythos Preview. Da mesma forma, o Opus 4.7 atingiu 78% em Agentic Computer Use, pouco aquém dos 79.6% do Mythos Preview.

Uma teoria convincente sugere que o anúncio inicial do Mythos foi um golpe de mestre em marketing. Ao enquadrá-lo como o "modelo deus" incontrolável, a Anthropic posicionou-se como a única arquiteta de uma inteligência sem precedentes, quase mítica, garantindo a atenção do público e estabelecendo a supremacia tecnológica.

Alternativamente, o Opus 4.7 representa uma estratégia de lançamento faseado e genuinamente cautelosa, priorizando a AI safety. A iniciativa Project Glasswing da Anthropic afirmou explicitamente que iriam "testar novas salvaguardas cibernéticas em modelos menos capazes primeiro," designando o Opus 4.7 como o campo de testes público inaugural.

Esta abordagem é evidente na pontuação de reprodução de vulnerabilidades de cibersegurança do Opus 4.7, que na verdade diminuiu de 73.8 para 73.1. A Anthropic confirmou que "experimentaram esforços para reduzir diferencialmente estas capacidades," usando o Opus 4.7 para refinar salvaguardas que detetam e bloqueiam automaticamente usos de cibersegurança de alto risco.

Os aprendizados da implementação do Opus 4.7 no mundo real irão informar diretamente o "objetivo eventual de um lançamento amplo de modelos da classe Mythos." Isto sugere um processo calculado e iterativo para equilibrar o desempenho de ponta com robustas salvaguardas éticas.

Em última análise, a verdade provavelmente abrange ambas as narrativas. A Anthropic navega habilmente na complexa intersecção de ambição comercial, liderança tecnológica e desenvolvimento responsável de AI, implantando estrategicamente os seus modelos para maximizar tanto o impacto no mercado quanto a pesquisa de segurança.

Perguntas Frequentes

O que é o Claude Opus 4.7?

O Claude Opus 4.7 é o mais recente modelo de linguagem grande da Anthropic. Apresenta melhorias significativas em codificação, raciocínio visual e seguimento de instruções em relação ao seu predecessor, Opus 4.6, posicionando-o como um forte concorrente contra modelos como o GPT-5.4.

Porque é que a Anthropic não lançou o modelo Mythos?

A Anthropic afirmou que o Mythos Preview, um modelo com rumores de 10 trilhões de parâmetros, era 'demasiado poderoso para ser lançado publicamente' devido às suas capacidades avançadas em áreas como cibersegurança e hacking, que representam riscos significativos de segurança e uso indevido.

Como se compara o Opus 4.7 com concorrentes como o GPT-5.4?

O Opus 4.7 demonstrou desempenho superior em vários benchmarks chave. No benchmark GDPVal, que testa tarefas de trabalho do mundo real, o Opus 4.7 obteve um Elo de 1753, superando significativamente os 1674 do GPT-5.4.

O que torna o Opus 4.7 tão melhor em codificação?

O Opus 4.7 mostra um salto massivo no benchmark de codificação SWE-bench Pro, pontuando 64.3 em comparação com 53.4 para o Opus 4.6. Isto reflete o foco estratégico da Anthropic na criação de modelos de codificação de primeira linha para clientes empresariais.

Perguntas frequentes

Manobra de Marketing ou Estratégia Mestra?
A ambiguidade estratégica da Anthropic em torno de Mythos colide diretamente com o lançamento surpresa do Opus 4.7. Apenas semanas depois de declarar Mythos muito potente para lançamento público, um "grande passo em direção" às suas capacidades chegou, deixando muitos a questionar as verdadeiras intenções da empresa.
O que é o Claude Opus 4.7?
O Claude Opus 4.7 é o mais recente modelo de linguagem grande da Anthropic. Apresenta melhorias significativas em codificação, raciocínio visual e seguimento de instruções em relação ao seu predecessor, Opus 4.6, posicionando-o como um forte concorrente contra modelos como o GPT-5.4.
Porque é que a Anthropic não lançou o modelo Mythos?
A Anthropic afirmou que o Mythos Preview, um modelo com rumores de 10 trilhões de parâmetros, era 'demasiado poderoso para ser lançado publicamente' devido às suas capacidades avançadas em áreas como cibersegurança e hacking, que representam riscos significativos de segurança e uso indevido.
Como se compara o Opus 4.7 com concorrentes como o GPT-5.4?
O Opus 4.7 demonstrou desempenho superior em vários benchmarks chave. No benchmark GDPVal, que testa tarefas de trabalho do mundo real, o Opus 4.7 obteve um Elo de 1753, superando significativamente os 1674 do GPT-5.4.
O que torna o Opus 4.7 tão melhor em codificação?
O Opus 4.7 mostra um salto massivo no benchmark de codificação SWE-bench Pro, pontuando 64.3 em comparação com 53.4 para o Opus 4.6. Isto reflete o foco estratégico da Anthropic na criação de modelos de codificação de primeira linha para clientes empresariais.
🚀Descubra mais

Fique à frente da curva da IA

Descubra as melhores ferramentas de IA, agentes e servidores MCP selecionados pela Stork.AI.

Voltar a todas as publicações