O Primeiro Modelo de 'AGI' Está Aqui.

Uma startup afirma ter o primeiro modelo capaz de AGI do mundo, mas a verdadeira história é como os novos modelos de visão já estão mudando tudo. Descubra por que suas habilidades em IA estão prestes a se tornar obsoletas.

Stork.AI
Hero image for: O Primeiro Modelo de 'AGI' Está Aqui.
💡

TL;DR / Key Takeaways

Uma startup afirma ter o primeiro modelo capaz de AGI do mundo, mas a verdadeira história é como os novos modelos de visão já estão mudando tudo. Descubra por que suas habilidades em IA estão prestes a se tornar obsoletas.

A Declaração Bombástica: A AGI Já Está Aqui?

Modelo capaz de AGI-AGI do mundo. Assim a Integral AI apresentou seu novo sistema esta manhã, afirmando que não se trata apenas de mais um modelo de linguagem grande, mas de uma arquitetura que pode “planejar, aprender e agir autonomamente em diferentes modalidades” sem ajuste fino específico para tarefas. A empresa afirma que o modelo lida com texto, código, imagens e ferramentas ao vivo em um único ciclo, comercializando-o explicitamente como capaz de AGI-AGI, não apenas "avançado".

No centro do anúncio está o fundador da Integral AI, Daniel Kwan, um ex-pesquisador sênior das equipes Brain e DeepMind do Google, onde supostamente trabalhou em aprendizado por reforço em larga escala e transformadores multimodais. O currículo de Kwan—publicações sobre métodos de gradiente de política, trabalhos iniciais em agentes baseados em transformadores e passagens em protótipos internos do Gemini—confere à Integral um nível de credibilidade técnica que a maioria das startups de IA não consegue imitar.

A Integral afirma que seu sistema funciona com uma estrutura de 400 bilhões de parâmetros em um layout de Mistura de Especialistas, semelhante em espírito ao Neotron 3 da Nvidia e outros modelos esparsos, mas conectado a um “controlador agente” que pode chamar ferramentas, navegar na web e operar interfaces de software. A empresa já está demonstrando o modelo resolvendo auditorias de planilhas em várias etapas, refatorando grandes bases de código e navegando por interfaces desconhecidas utilizando apenas pixels da tela e instruções em texto.

Os mercados reagiram instantaneamente, mas de forma desigual. No X, vários pesquisadores proeminentes compararam a linguagem de AGI a lançamentos anteriores exagerados, destacando a formulação mais cautelosa da OpenAI e do Google em relação aos modelos da classe GPT-5 e Gemini. Os primeiros trechos de benchmark compartilhados pela Integral—MMLU, GSM8K e suítes personalizadas de “trabalho de conhecimento”—mostram pontuações fortes, mas não claramente sobre-humanas, alimentando uma onda de ceticismo de acadêmicos e avaliadores independentes.

No entanto, investidores e compradores empresariais não o descartaram de imediato. Agentes de chamadas de ferramentas que podem operar software real de forma confiável são exatamente o que as equipes de automação da Fortune 500 desejam, e a Integral afirma que clientes piloto já utilizam o modelo em fluxos de trabalho de finanças, jurídicas e operacionais. Se as demonstrações sobreviverem à replicação de terceiros, “capaz de AGI-AGI” deixa de ser apenas um adjetivo de apresentação e começa a parecer uma nova categoria de produto.

Isso deixa uma pergunta direta pairando sobre toda a indústria: a Integral AI está antecipando o termo AGI para chamar a atenção, ou um ex-insider do Google acabou de lançar discretamente o primeiro sistema do mundo que se comporta menos como um chatbot e mais como um colega júnior?

Decifrando 'Capacidade de AGI': Hype vs. Horizontes

Ilustração: Decodificando 'Capacidade de AGI': Hype vs. Horizona
Ilustração: Decodificando 'Capacidade de AGI': Hype vs. Horizona

A Integral AI fundamenta sua afirmação de ser "capaz de AGI-AGI" em uma ideia técnica estreita: um modelo que pode aprender autonomamente com seu ambiente, em vez de depender de grandes conjuntos de dados pré-curados. Na sua abordagem, o sistema observa fluxos brutos de imagens, interfaces, documentos e dados de sensores, e então atualiza suas próprias políticas internas em tempo real, mais semelhante a um agente de aprendizado por reforço do que a um modelo de linguagem grande e estático. A empresa argumenta que, uma vez que você pode se adaptar continuamente dessa forma, possui o substrato a partir do qual a inteligência artificial geral pode emergir.

Essa definição evita discretamente o que a maioria dos pesquisadores quer dizer com AGI. Na pesquisa em IA convencional, AGI implica inteligência geral em nível humano: a capacidade de entender, planejar e agir de forma flexível em quase qualquer domínio, com robustez, transferência e bom senso comparáveis a um ser humano. Com esse padrão, "capaz de AGI-AGI" soa mais como "arquitetonicamente interessante" do que "as máquinas agora são nossos pares cognitivos."

Onde a Integral AI está alinhada com a área é em sua busca por modelos que possam perceber, raciocinar e agir como agentes unificados. A empresa descreve um único sistema que ingere: - Texto, imagens e vídeo - Estados de GUI e respostas de API - Possivelmente dados de sensores do mundo real ou de robôs

e então escolhe ações: clicando por interfaces, chamando ferramentas, emitindo código ou atualizando um plano. Esse é o mesmo conjunto agentivo e multimodal que empresas como OpenAI, Google e Zhipu (com GLM‑4.6V a 106B parâmetros mais uma variante Flash de 9B) estão correndo para construir.

A lacuna aparece quando você olha para as evidências. As demonstrações públicas da Integral AI até agora se assemelham a protótipos de pesquisa em estágio inicial: clipes curtos de navegação na interface, robótica simplificada e resolução de quebra-cabeças restrita, sem números concretos. Não há benchmarks padronizados, nenhum resultado comparativo em suítes como MMLU, MMBench ou AgentBench, e nenhum estudo de ablação mostrando que o aprendizado autônomo supera o ajuste fino convencional.

Essa desconexão entre retórica e resultados é importante. Afirmar ser "o primeiro AGI capaz de AGI" cria expectativas de um modelo da classe GPT-4 que pode lidar robustamente com tarefas arbitrárias, adaptar-se online e explicar seu raciocínio. Enviar apenas alguns demos decepcionantes sugere uma história familiar: a pesquisa subjacente pode ser real, mas o marketing já correu várias voltas à frente da ciência.

O Salto Visionário da China com o GLM-4.6V

O ecossistema de IA da China acaba de produzir um contraponto concreto às vagas alegações de "AGI-capaz": GLM-4.6V da Zhipu AI, um modelo multimodal que já vem com habilidades sérias em visualização e raciocínio. Enquanto o Anúncio de AGI da Integral AI se apoia em uma promessa ousada de aprendizado autônomo, o GLM-4.6V marca um território em algo mais fácil de verificar: benchmarks, parâmetros e código funcional.

O GLM-4.6V chega como um modelo de linguagem e visão multimodal de código aberto que processa texto, imagens, capturas de tela e páginas de documentos completos em uma única passagem. Ele não apenas gera legendas para imagens; ele analisa PDFs densos, interfaces desordenadas, diagramas e gráficos matemáticos, mantendo o contexto de longo alcance intacto.

A Zhipu oferece duas variantes voltadas para diferentes realidades de implantação. O GLM-4.6V completo tem aproximadamente 106 bilhões de parâmetros para cargas de trabalho em escala de nuvem, enquanto o GLM-4.6V-Flash reduz para cerca de 9 bilhões de parâmetros para cenários de baixa latência, em dispositivos ou na borda.

Ambos os modelos suportam janelas de contexto na faixa de 128 mil tokens, o que é importante para documentos do mundo real que se estendem por dezenas ou centenas de páginas. Essa capacidade possibilita tarefas como revisão de contratos de ponta a ponta, análise de artigos técnicos ou guias de aplicativos em várias telas, sem fragmentar o conteúdo em pedaços com perda de informação.

Nos benchmarks, a Zhipu apresenta o GLM-4.6V como o mais avançado entre os modelos de linguagem visual abertos com escalas de parâmetros semelhantes. Testes internos e de terceiros destacam pontuações fortes em: - Compreensão de documentos - Análise de capturas de tela e interfaces gráficas - Interpretação de diagramas e gráficos - Respostas a perguntas visuais e raciocínio matemático

O que diferencia o GLM-4.6V de muitos rivais ocidentais é seu raciocínio conjunto nativo entre modalidades. Você pode fornecer uma captura de tela, um formulário digitalizado e uma consulta de texto juntos, e o modelo acompanha o layout, o texto e os elementos visuais como um único problema de raciocínio, em vez de simplesmente adicionar OCR a um LLM.

Esse design torna o GLM-4.6V um concorrente aberto e credível ao stack de visão Gemini do Google e à camada GPT-4.1/4.2V da OpenAI. Os desenvolvedores têm um modelo que podem auto-hospedar, ajustar e integrar em agentes para automação de interface, busca empresarial ou fluxos de trabalho de conformidade, sem entregar tudo para APIs fechadas.

Por que seus prompts estão prestes a se tornar obsoletos

Os prompts estão se tornando silenciosamente uma interface de legado. Modelos como GLM‑4.6V não apenas leem suas palavras; eles veem sua tela, analisam seus PDFs e rastreiam a estrutura em mais de 100.000 tokens de texto e imagens misturados. Isso muda o que você “diz” a uma IA, passando de prosa verbosa para algo mais próximo de uma especificação de produto.

Em vez de elaborar um pedido longo, você entrega ao modelo uma captura de tela do seu painel de análise e digita: “Automatize isso com base nas tendências mensais e me envie anomalias pelo Slack.” O GLM‑4.6V pode inspecionar os eixos do gráfico, a legenda, os filtros e até mesmo os elementos da interface para inferir o modelo de dados subjacente. Seu texto se torna um objetivo, e a captura de tela se torna o contexto que o modelo realmente considera.

O principal facilitador é a chamada de função multimodal nativa. Em vez de obrigá-lo a fazer OCR em uma imagem ou descrever manualmente um layout, o GLM‑4.6V passa imagens brutas, diagramas ou páginas de documentos diretamente para ferramentas e agentes. Uma única chamada pode agrupar: - Um contrato escaneado de 20 páginas - Uma captura de tela de um produto - Uma instrução em texto curto

Esse pacote flui através de uma ferramenta que pode pesquisar, reescrever, executar código ou acionar APIs externas, tudo baseado no que o modelo “viu.”

A engenharia de prompt, como uma arte de incantações elaboradas, começa a parecer ultrapassada. Você não precisa mais dizer, “No cartão no canto superior direito intitulado ‘MRR’, identifique as variações mês a mês…” quando o modelo pode localizar visualmente o widget de MRR e ler seus números. A parte difícil passa de formular a frase para definir o escopo: estabelecendo restrições, fontes de dados, permissões e modos de falha aceitáveis.

A interação passa de um bate-papo casual para definição de metas para agentes autônomos. Você aponta para um quadro do Figma e diz: “Transforme este fluxo em uma experiência de onboarding funcional e conecte-o ao nosso sandbox do Stripe.” O agente utiliza a pilha de visão do GLM‑4.6V para entender o layout, a hierarquia e o texto, em seguida, aciona ferramentas de codificação, sistemas de design e pipelines de implantação sem que você precise narrar cada passo.

À medida que os modelos melhoram no raciocínio visual-textual conjunto, os prompts se tornam mais como resumos de missão. Você fornece artefatos—capturas de tela, fotos de quadros brancos, painéis de controle—e um objetivo conciso. O sistema lida com a tradução do que você mostra para o que precisa ser executado.

A Economia da IA Acabou de Mudar.

Ilustração: A Economia da IA Mudou Radicalmente
Ilustração: A Economia da IA Mudou Radicalmente

A IA multimodal de alta qualidade atualmente penaliza qualquer um que lida com vídeos. As APIs de ponta da OpenAI, Anthropic e Google cobram por token, e os pipelines de vídeo fazem os contadores de tokens explodirem: cada quadro ou quadro-chave amostrado se torna texto, cada legenda e trecho de transcrição se acumula. Execute algumas horas de filmagem em 1080p através do GPT-4o ou Claude 3.5 Sonnet e você pode ver sua conta aumentar para centenas de dólares.

O GLM‑4.6V aborda esse problema de duas maneiras: pesos abertos e preços agressivos. A Zhipu AI oferece o modelo em nuvem de 106 bilhões de parâmetros a taxas que superam em muito os rivais ocidentais, com alguns provedores chineses cotando menos de $0,30 por milhão de tokens de entrada e $0,90 por milhão de saída. Quando você está processando dezenas de milhões de tokens por dia em feeds de vigilância, gravações de UI ou capturas de tela de suporte ao cliente, essa diferença se torna uma linha orçamentária.

Então temos o GLM‑4.6V‑Flash, o irmão de 9B parâmetros ajustado para implantação local e em borda. As equipes podem executá-lo em algumas GPUs de alto desempenho ou em uma estação de trabalho bem equipada, pagando uma única vez pelo hardware e processando essencialmente capturas de tela, PDFs e diagramas ilimitados. Para cargas de trabalho contínuas—câmeras de segurança, monitoramento industrial, análises de jogos—a inferência local transforma a economia de aluguel por chamada em infraestrutura de custo fixo.

Essa pressão de preços se instala em um mercado onde a OpenAI e a Anthropic ainda se comportam como fornecedores de SaaS premium. Seus planos multimodais incluem: - Preços mais altos por token para entradas de imagem e vídeo - Limites de taxa rigorosos - Políticas de uso excessivo opacas

GLM‑4.6V e modelos semelhantes da Qwen, LLaVA e NVIDIA NeMo convidam a uma nova estratégia: possuir a pilha, alugar apenas quando necessário. Isso prejudica os incumbentes em cargas de trabalho grandes e previsíveis e relega APIs proprietárias a papéis de nicho, “somente se precisarmos de desempenho extremo”.

Modelos de visão-linguagem mais baratos e poderosos também mudam quem pode construir sistemas complexos de IA. Uma startup em Jacarta pode ajustar o GLM-4.6V-Flash em faturas e formulários de envio locais sem um orçamento de API de sete dígitos. Um estúdio indie de duas pessoas pode lançar um treinador dentro do jogo que lê seu HUD e minimapa em tempo real, funcionando inteiramente no PC do jogador.

À medida que os modelos multimodais se tornam tanto acessíveis quanto suficientemente bons, a restrição muda de dinheiro para imaginação. A próxima onda de produtos de IA—testadores de interface autônomos, inspetores de fábrica sempre ativos, copilotos nativos de documentos—não pertence mais exclusivamente a empresas que podem pagar por tokens revolucionários em grande escala.

A Revolução Silenciosa da Nvidia: Poder no Seu PC

A mais recente iniciativa da Nvidia em direção ao poder da IA local é o Neotron 3, um modelo de linguagem Mixture-of-Experts com 30 bilhões de parâmetros e pesos abertos. Construído para velocidade e eficiência, ele visa preencher a lacuna entre modelos pequenos que rodam em dispositivos e sistemas avançados baseados em nuvem. A Nvidia afirma que o Neotron 3 supera outros modelos de cerca de 30B, como GPT-4.1-OSS e Qwen 3 30B, em benchmarks padrão, mantendo-se enxuto o suficiente para uma implantação prática.

Mistura de Especialistas, ou MoE, inverte a economia usual de modelos densos. Em vez de ativar todos os parâmetros para cada token, o Neotron 3 utiliza 128 especialistas com apenas 6 ativos por token, de modo que a maior parte dos 31,6 bilhões de parâmetros permanece ociosa em qualquer etapa. Você obtém a capacidade de um modelo muito maior com a pegada computacional de algo mais próximo de um LLM de médio porte.

A arquitetura é importante se você quer uma IA forte rodando diretamente em seu próprio hardware. O MoE permite que o Neotron 3 alcance uma alta taxa de transferência em GPUs modernas, mantendo a latência baixa o suficiente para uso interativo: assistentes de codificação, copilotos locais ou chats de documentos privados que nunca saem da sua máquina. Você troca um pouco de desempenho na fronteira absoluta por uma velocidade previsível e controlável.

A privacidade e a soberania estão no centro desta mudança. Um modelo como o Neotron 3 pode operar em uma estação de trabalho, um servidor de borda ou um NAS para pequenas empresas, gerenciando: - Contratos e e-mails sensíveis - Código fonte e registros de construção - Análises internas e painéis de controle

Nenhum prompt ou embedding precisa transitar pela nuvem de um fornecedor. Isso contrasta fortemente com as alegações de “primeiro no mundo capaz de AGI-AGI” apenas na nuvem de jogadores como a Integral AI, que promovem sistemas centralizados massivos em vez de infraestrutura pessoal; veja Integral AI Apresenta o Primeiro Modelo do Mundo Capaz de AGI-AGI - Business Wire para essa visão.

Neotron 3 sinaliza para onde a Nvidia acredita que o mercado está indo a seguir: não apenas data centers em larga escala, mas ferramentas de era AGI de nível PC, onde indivíduos e pequenas equipes executam modelos sérios localmente, em seus próprios termos.

A Surpreendente Mudança do GPT-5.2 para 'Valor Econômico'

O GPT-5.2 chegou com um estrondo para muitos usuários comuns. As redes sociais foram preenchidas com comparações lado a lado, chamando-o de "mediano", "regredido" ou "não melhor do que 5.1" em escrita criativa, truques de programação ou bate-papo casual. No entanto, dentro das empresas, os primeiros adotantes relataram algo diferente: um modelo que de repente parecia estranhamente competente em trabalho de conhecimento.

Os próprios gráficos da OpenAI explicam a desconexão. Em vez de buscar ganhos marginais em benchmarks acadêmicos, o GPT‑5.2 se destaca em GDP‑V—abreviação de “Produto Interno Bruto-Valioso”, um benchmark sintético que mede como um modelo se sai em tarefas economicamente úteis. Nesse parâmetro, a OpenAI afirma que o GPT‑5.2 aproximadamente dobra a pontuação do 5.1, sendo um dos maiores saltos de geração única que eles demonstraram.

O GDP‑V testa o que realmente aparece em um balanço patrimonial: elaboração de RFPs, estruturação de relatórios, organização de planilhas desordenadas e transformação de pontos vagos em apresentações prontas para executivos. O GPT‑5.2 reflete esse viés. Ele é ajustado para criar apresentações em PowerPoint a partir de briefings brutos, limpar e reconciliar dados no Excel, e raciocinar sobre fluxos de trabalho de negócios em várias etapas com menos alucinações e menos supervisão.

A escrita criativa, o brainstorming peculiar e as conversas abertas parecem menos interessantes porque não eram o foco. Usuários que tratam o GPT-5.2 como um GPT-4 mais poderoso para ficção, prompts de fan art ou discussões filosóficas se deparam diretamente com sua nova personalidade: mais conservadora, mais literal, mais "consultor" do que "co-autor". Para um CFO, isso é uma vantagem. Para um romancista, parece uma retrocessão.

Esse pivô expõe para onde o mercado se moveu. Modelos de fronteira agora custam dezenas de milhões de dólares para serem treinados e executados; não conseguem justificar essa taxa de queima em chatbots gratuitos e histórias para dormir. A OpenAI está otimizando explicitamente para setores que impactam o PIB: finanças, consultoria, jurídico, operações, software para empresas e automação interna.

Você pode ver o bloqueio estratégico se formando. Um modelo que é de classe mundial em:

  • 1Pacotes de PowerPoint e de apresentação
  • 2Modelagem em Excel e análise de cenários
  • 3Fluxos de trabalho de política, contrato e conformidade

slots diretamente no Microsoft 365, CRMs de clientes e ferramentas internas. O GPT‑5.2 é menos uma atualização de chatbot de propósito geral e mais um sinal de que a corrida pela “Primeira AGI-capaz de AGI do Mundo” agora acontece em torno dos lucros trimestrais.

A Ascensão dos Super-Agentes de IA

Ilustração: A Ascensão dos Super-Agentes de IA
Ilustração: A Ascensão dos Super-Agentes de IA

O poder está mudando dos modelos brutos para os super-agentes que os envolvem. Manis 1.6 e Poetic mostram como camadas finas de orquestração, memória e autoavaliação podem transformar LLMs genéricos em sistemas que se parecem suspeitosamente com colegas autônomos em vez de chatbots esperando por comandos.

O Manis 1.6 se aprofunda nisso ao encadear várias ferramentas e subagentes em torno de um modelo base. Ele divide uma solicitação em tarefas atômicas, direciona cada uma para rotinas especializadas e, em seguida, funde os resultados, de modo que "pesquise este mercado e elabore um plano de lançamento" se transforma em horas de navegação automatizada, agrupamento e redação com mínima intervenção humana.

A Poetic vai ainda mais longe no aspecto do raciocínio. Construída sobre LLMs existentes, ela superou o benchmark ARC-AGI não treinando um novo modelo de fronteira, mas adicionando uma estrutura de raciocínio inteligente e um loop de auto-auditoria que força o sistema a testar e refinar suas próprias hipóteses antes de se comprometer com uma resposta.

ARC-AGI é notoriamente hostil à correspondência de padrões; exige raciocínio abstrato sobre pequenos quebra-cabeças visuais. O Poetic envolve o modelo base em um processo que: - Enumera regras candidatas - Simula cada regra em exemplos - Descarta hipóteses inconsistentes - Itera até que um conjunto de regras que passe surja

Essa arquitetura impulsionou o desempenho do ARC-AGI da Poetic muito além das referências típicas de LLM, sugerindo que comportamentos capazes de AGI-AGI podem vir de melhores "cérebros ao redor do cérebro", não apenas de um número maior de parâmetros. As escolhas de design de produto — como você decompõe tarefas, verifica saídas e permite que os agentes chamem ferramentas — começam a importar tanto quanto os pesos subjacentes.

É por isso que “AGI provavelmente surgirá do design de produtos” soa menos como um slogan e mais como um roteiro. O suporte agentivo transforma modelos estáticos em sistemas que planejam, lembram e se corrigem, desde agentes de pesquisa aprimorados por recuperação até refatoradores de código que executam testes, bissecionam falhas e corrigem regressões por conta própria.

Os usuários já vivenciam isso como trabalho autônomo, não como conversa. Agentes em estilo poético processam suítes de benchmarking e estruturas de avaliação; plataformas como Manis gerenciam fluxos de trabalho que duram várias horas, abrangendo navegadores, CLIs e APIs de nuvem, e então entregam a você um relatório finalizado, um painel ou um diff de código.

Ligados a modelos como GLM-4.6V e Neotron 3, esses superagentes podem ver, ler e agir em capturas de tela, PDFs e arquivos locais sem necessidade de solicitações constantes. A interface do chatbot se transforma em um tíquete de serviço: você descreve o resultado, o agente decompõe, executa, audita e só te incomoda quando uma decisão real precisa de um humano.

Separando o Sinal do Ruído na Corrida do Ouro da IA

Departamentos de marketing falam sobre modelos capazes de AGI-AGI; engenheiros silenciosamente entregam sistemas que realmente mudam fluxos de trabalho. GLM-4.6V, Neotron 3 e plataformas agentivas como Poetic apontam todos na mesma direção: IA prática, automatizada e multimodal que se comporta menos como um chatbot e mais como infraestrutura.

A capacidade multimodal agora significa mais do que apenas "pode ver imagens." O GLM-4.6V processa capturas de tela, PDFs e diagramas juntamente com texto, realiza raciocínios de longa-contexto sobre mais de 100 mil tokens e conduz agentes que clicam em interfaces ou analisam contratos inteiros. As instruções se reduzem de parágrafos de orientações para um único objetivo de alto nível que o sistema decompõe sozinho.

Ao mesmo tempo, modelos locais eficientes estão quebrando o monopólio da IA em nuvem. O Neotron 3 da NVIDIA comprime um modelo Mixture-of-Experts com 30 bilhões de parâmetros em orçamentos de hardware que antes eram limitados a 7 bilhões, com 128 especialistas e apenas 6 ativos por token. O GLM-4.6V-Flash leva o raciocínio visão-linguagem para um pacote de 9 bilhões de parâmetros que pode ser executado em uma estação de trabalho ou caixa edge, em vez de em uma fazenda de GPUs de hyperscaler.

Pilhas agentivas se baseiam neste substrato. Sistemas como Manis 1.6 ou Poetic orquestram múltiplos modelos, ferramentas e pipelines de recuperação em "superagentes de IA" persistentes que lembram o contexto, agendam tarefas e operam em diferentes aplicativos. O salto em valor vem menos de um único aumento de QI em um modelo base e mais de conectar esses modelos a ferramentas, memória e autonomia.

Contraste isso com as chamativas manchetes de “primeira AGI do mundo”. A afirmação da Integral AI de ser a primeira AGI capaz de AGI e propostas similares, como a da startup aqui perfilada: Startup de ex-veterano do Google afirma ter construído o primeiro modelo de AGI do mundo, permanecem narrativas em grande parte não verificadas. As vitórias em benchmarks do GLM-4.6V, os números de eficiência do Neotron 3 e o enfoque em valor de PIB do GPT-5.2 são mensuráveis.

A indústria está longe da inteligência geral que pode aprender qualquer tarefa como um humano. Ela está muito próxima de algo mais explosivo comercialmente: sistemas empilhados, automatizados e multimodais que silenciosamente transformam "use uma IA" em "a IA já fez isso."

Seu Próximo Movimento no Novo Cenário de IA

Comece se envolvendo com a nova pilha multimodal de código aberto. Inicie o GLM‑4.6V‑Flash (9B) localmente via Ollama ou vLLM, e combine-o com um codificador visual aberto como SigLIP ou CLIP para prototipar agentes de captura de tela, leitores de PDF e bots de GUI sem esgotar os tokens do GPT‑5.2 a mais de $10 por trabalho longo em vídeo ou documento.

Os desenvolvedores devem redesenhar os inputs em torno de arquivos, não em caixas de chat. Crie fluxos onde os usuários arrastem para dentro: - PDFs de 200 páginas - Exportações do Figma - Capturas de tela do Excel - Curtos clipes de vídeo

Então, permita que o modelo gerencie o layout, tabelas e diagramas diretamente, em vez de obrigar os usuários a copiar e colar texto.

Líderes de tecnologia precisam parar de pensar “um modelo, um prompt” e começar a pensar em orquestração de modelos. Para um fluxo de trabalho de produção, conecte um pequeno modelo local (Neotron 3 com 30B de parâmetros) para roteamento e classificação de baixo custo, um modelo em nuvem mais forte para raciocínios complexos e ferramentas especializadas para busca, RAG e execução de código.

Se você gerencia uma startup, sua vantagem competitiva não é mais "usamos o GPT‑5.2". Sua vantagem é o design do sistema agente: como sua estrutura divide os problemas em etapas, escolhe ferramentas, chama modelos e se recupera de falhas. Instrumente cada agente com registro, rastreamentos e custo por etapa, para que você possa entender por que um fluxo de trabalho custa $0,03 ou $3.

Os entusiastas devem praticar deliberadamente além da engenharia de prompts. Clone um repositório como AutoGen, CrewAI, ou um agente no estilo Poético, depois substitua pelo GLM‑4.6V para visão e uma instância local do Neotron 3 para texto para ver como a coordenação de múltiplos agentes realmente se comporta sob carga.

Repense cada fluxo de trabalho que ainda assume entrada apenas em texto. A revisão de contratos significa PDFs anotados, não cláusulas copiadas. O suporte ao cliente significa registros, capturas de tela e transcrições de chamadas. A análise significa CSVs, painéis e imagens de gráficos, todos alimentados em uma única janela de contexto multimodal.

Manter-se à frente agora significa que você entende como: - Escolher o modelo aberto certo para custo e latência - Projetar agentes que utilizem ferramentas, naveguem e planejem de forma autônoma - Ajustar limites, memória e ciclos de feedback

A engenharia de prompts torna-se uma pequena parte de um trabalho maior: arquitetar sistemas que podem observar, ler, decidir e agir.

Perguntas Frequentes

O que é um modelo 'capaz de AGI'?

Um modelo 'capaz de AGI' é um termo usado para descrever sistemas de IA que podem aprender novas tarefas de forma autônoma sem conjuntos de dados pré-existentes, especialmente em robótica ou configurações de agentes. É distinto da verdadeira AGI, que implica inteligência em nível humano em todas as tarefas cognitivas.

Como o GLM-4.6V muda a solicitação de IA?

O GLM-4.6V muda a forma de interação ao ir além do texto. Sua ferramenta nativa de chamada multimodal permite que os usuários forneçam imagens, documentos e capturas de tela diretamente como contexto, permitindo que a IA 'veja' e atue com base em informações visuais sem a necessidade de descrições textuais manuais.

Por que modelos de linguagem locais, como o Neotron 3 da NVIDIA, são importantes?

Modelos de linguagem locais são importantes para a privacidade, velocidade e controle de custos. Ao serem executados no dispositivo, eles impedem que dados sensíveis sejam enviados para a nuvem, reduzem a latência e eliminam os custos de tokens baseados em API para uso frequente.

Qual é a importância de Poetic superar o benchmark ARC-AGI?

O sucesso da Poetic mostra que inovações não se tratam apenas de modelos maiores, mas de uma arquitetura mais inteligente. Ao construir uma camada de raciocínio e autoauditoria sobre os LLMs existentes, alcançou um desempenho superior a menos da metade do custo, provando o poder do suporte agentivo.

Frequently Asked Questions

A Declaração Bombástica: A AGI Já Está Aqui?
Modelo capaz de AGI-AGI do mundo. Assim a Integral AI apresentou seu novo sistema esta manhã, afirmando que não se trata apenas de mais um modelo de linguagem grande, mas de uma arquitetura que pode “planejar, aprender e agir autonomamente em diferentes modalidades” sem ajuste fino específico para tarefas. A empresa afirma que o modelo lida com texto, código, imagens e ferramentas ao vivo em um único ciclo, comercializando-o explicitamente como capaz de AGI-AGI, não apenas "avançado".
O que é um modelo 'capaz de AGI'?
Um modelo 'capaz de AGI' é um termo usado para descrever sistemas de IA que podem aprender novas tarefas de forma autônoma sem conjuntos de dados pré-existentes, especialmente em robótica ou configurações de agentes. É distinto da verdadeira AGI, que implica inteligência em nível humano em todas as tarefas cognitivas.
Como o GLM-4.6V muda a solicitação de IA?
O GLM-4.6V muda a forma de interação ao ir além do texto. Sua ferramenta nativa de chamada multimodal permite que os usuários forneçam imagens, documentos e capturas de tela diretamente como contexto, permitindo que a IA 'veja' e atue com base em informações visuais sem a necessidade de descrições textuais manuais.
Por que modelos de linguagem locais, como o Neotron 3 da NVIDIA, são importantes?
Modelos de linguagem locais são importantes para a privacidade, velocidade e controle de custos. Ao serem executados no dispositivo, eles impedem que dados sensíveis sejam enviados para a nuvem, reduzem a latência e eliminam os custos de tokens baseados em API para uso frequente.
Qual é a importância de Poetic superar o benchmark ARC-AGI?
O sucesso da Poetic mostra que inovações não se tratam apenas de modelos maiores, mas de uma arquitetura mais inteligente. Ao construir uma camada de raciocínio e autoauditoria sobre os LLMs existentes, alcançou um desempenho superior a menos da metade do custo, provando o poder do suporte agentivo.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts