Skip to content
Ferramenta de IADead Man Walking

Revisão do Step 3.7 Flash

Step 3.7 Flash é um modelo multimodal de visão-linguagem projetado para cargas de trabalho de produção de alta frequência e casos de uso agentic, capaz de processar entradas de texto e imagem.

shipped 31 de mai. de 2026aifreemium
Step 3.7 Flash - AI tool for step flash. Professional illustration showing core functionality and features.
1Step 3.7 Flash é um modelo de visão-linguagem sparse Mixture-of-Experts (MoE) de 198 bilhões de parâmetros.
2Ele oferece um throughput de até 400 tokens por segundo e suporta uma context window de 256k.
3O modelo alcançou uma pontuação de 56,26% no SWE-Bench Pro para desempenho de codificação agentic.
4Step 3.7 Flash é de código aberto sob a Apache 2.0 License, com BF16, FP8, NVFP4 e GGUF weights disponíveis.

Stork Quadrant

Dead Man Walking· 0/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

This is a Chinese inference-speed model competing in the most crowded lane in AI. No proprietary data, no regulatory moat, no network effects, no trust workflow ownership. Speed and price are the pitch — both erode within months as every major lab ships faster, cheaper models. This will get commoditized.

Claude Sonnet 4.6, scored 2026-05-31

Defensibility · 0/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate text responses to prompts — any frontier LLM does this
  • Analyze images and describe or reason about visual content — GPT-4o, Gemini Flash do this today
  • Execute agentic tasks like browsing or form-filling — Operator, Claude, Gemini already compete here
  • Answer questions quickly at low latency — commodity inference optimization, not a moat

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

Pick a vertical where Chinese-language enterprise compliance or specific regional data access matters, and own that workflow end-to-end with liability attached. Otherwise, become an API layer that agents call rather than a product users visit.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

Step 3.7 Flash at a Glance

Best For
product-hunt
Pricing
freemium
Key Features
Released on May 28, 2026, Step 3.7 Flash is a 198-billion-parameter sparse MoE model. · It features a 256k context window and activates approximately 11 billion parameters per token during inference. · The model achieved a second-place finish on SWE-Bench PRO with a score of 56.3.
Alternatives
Google Gemini (as an agent), AskUI Vision Agent, Skygen, OpenAI Operator

About Step 3.7 Flash

Founded
2023
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/step-3-7-flash" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/step-3-7-flash?style=dark" alt="Step 3.7 Flash - Featured on Stork.ai" height="36" /></a>
[![Step 3.7 Flash - Featured on Stork.ai](https://www.stork.ai/api/badge/step-3-7-flash?style=dark)](https://www.stork.ai/en/step-3-7-flash)

overview

O que é o Step 3.7 Flash?

Step 3.7 Flash é um modelo multimodal de visão-linguagem desenvolvido pela StepFun que permite a desenvolvedores de IA e empresas construir e implantar aplicações e agentes de IA de alta frequência. Ele combina um language backbone de 196B parâmetros com um vision encoder de 1.8B parâmetros para compreensão nativa de imagem e vídeo. Desenvolvido pela startup chinesa de IA StepFun, este modelo sparse Mixture-of-Experts (MoE) de 198 bilhões de parâmetros é projetado para cargas de trabalho de produção de alta frequência e casos de uso agentic. Ele processa entradas de texto e imagem para produzir saídas de texto, ativando aproximadamente 11 bilhões de parâmetros por token, e entregando um throughput de até 400 tokens por segundo. Suas capacidades principais incluem o dimensionamento de workflows agentic que combinam percepção, busca e raciocínio, como a análise de grandes relatórios financeiros e a execução de loops de busca em várias etapas. Step 3.7 Flash também é construído para tarefas de engenharia ao vivo, capaz de rastrear repositórios de vários arquivos, isolar bugs e gerar patches de código funcionais. Ele se destaca em inteligência visual, compreendendo imagens em vários contextos como UIs de produtos, documentos e cenas naturais, e demonstra alta confiabilidade no uso de ferramentas e orquestração, liderando benchmarks como ClawEval-1.1. O modelo suporta uma context window de 256k, tornando-o adequado para tarefas de produtividade de longo contexto envolvendo documentos extensos e grandes codebases.

quick facts

Fatos Rápidos

AtributoValor
DesenvolvedorStepFun
Modelo de NegóciosFreemium (núcleo de código aberto)
PreçoFreemium
PlataformasAPI, NVIDIA NIM, vLLM, SGLang, Hugging Face Transformers, llama.cpp
API DisponívelSim
IntegraçõesNVIDIA NIM, vLLM, SGLang, Hugging Face Transformers, llama.cpp
Fundado2023
SedeXangai, China

features

Principais Recursos do Step 3.7 Flash

Step 3.7 Flash incorpora um conjunto de recursos avançados projetados para o desenvolvimento de aplicações de IA de alto desempenho e operações agentic. Sua arquitetura e capacidades são adaptadas para lidar com tarefas multimodais complexas e ambientes de produção exigentes.

  • 1Arquitetura sparse Mixture-of-Experts (MoE) de 198 bilhões de parâmetros para processamento eficiente.
  • 2Compreensão multimodal nativa, processando entradas de texto, imagens e vídeo.
  • 3Processamento de alto throughput, alcançando até 400 tokens por segundo.
  • 4Context window de 256k, permitindo a análise de documentos longos e grandes codebases.
  • 5Chamada e orquestração de ferramentas confiáveis, demonstrado pelos principais benchmarks ClawEval-1.1.
  • 6Dimensionamento avançado de workflow agentic, integrando capacidades de percepção, busca e raciocínio.
  • 7Implementação do Advisor Mode para loops agentic econômicos, escalando para modelos maiores apenas em pontos críticos.
  • 8Disponibilidade de código aberto sob a Apache 2.0 License, com BF16, FP8, NVFP4 e GGUF weights.
  • 9Integração com NVIDIA NIM inference microservices, vLLM, SGLang, Hugging Face Transformers e llama.cpp.
  • 10Geração aprimorada de código e frontend, pontuando 56,26% no SWE-Bench Pro e 72,42% no SWE-MTLG.

use cases

Quem Deve Usar o Step 3.7 Flash?

Step 3.7 Flash é projetado principalmente para usuários técnicos e organizações que exigem modelos de IA robustos e de alto desempenho para aplicações multimodais complexas e sistemas agentic. Suas capacidades atendem a necessidades específicas de desenvolvimento e operacionais em vários setores.

  • 1Desenvolvedores de IA: Para construir e implantar aplicações de IA de próxima geração, particularmente aquelas que exigem compreensão multimodal, uso confiável de ferramentas e orquestração de agentes.
  • 2Usuários Corporativos: Para dimensionar workflows agentic, como análise de grandes relatórios financeiros, execução de loops de busca em várias etapas com verificação cruzada de fontes e operação de agentes de codificação concorrentes em pipelines de alto throughput.
  • 3Engenheiros/Pesquisadores: Para tarefas de engenharia ao vivo, incluindo rastreamento de repositórios de vários arquivos, isolamento de bugs de relatórios de problemas e geração de patches de código funcionais que passam em testes de unidade automatizados.
  • 4Criadores de Conteúdo: Para aplicações envolvendo text-to-speech, clonagem de voz, escrita criativa e outras tarefas de produção de mídia que exigem processamento avançado de linguagem e áudio.
  • 5Indivíduos que buscam assistência pessoal de IA: Para aquisição de conhecimento, busca de informações, aprendizado de idiomas e suporte à codificação através de um assistente pessoal de IA.

pricing

Preços e Planos do Step 3.7 Flash

Step 3.7 Flash opera em um modelo freemium. O modelo principal é de código aberto sob a Apache 2.0 License, com BF16, FP8, NVFP4 e GGUF weights disponíveis no Hugging Face, permitindo que os desenvolvedores utilizem o modelo gratuitamente em suas próprias implantações. A StepFun, a desenvolvedora, também fornece uma plataforma que provavelmente inclui níveis gratuitos para uso básico e níveis pagos para recursos avançados, limites de uso mais altos ou suporte empresarial, embora os preços específicos para esses níveis não sejam detalhados publicamente. O Advisor Mode do modelo é projetado para otimizar a relação custo-benefício, alegando 97% do desempenho de codificação do Claude Opus 4.6 no SWE-Bench Verified a aproximadamente um nono do custo por tarefa (US$ 0,19 vs. US$ 1,76) quando ativado.

  • 1Freemium: Acesso aos core model weights sob a Apache 2.0 License para auto-hospedagem e desenvolvimento.
  • 2Níveis da Plataforma: Preços específicos para a plataforma hospedada da StepFun e recursos avançados não são divulgados publicamente, mas geralmente incluem limites de uso gratuitos com upgrades pagos.
  • 3Advisor Mode: Execução agentic otimizada para custos, estimada em US$ 0,19 por tarefa para desempenho de codificação comparável a modelos de custo mais alto.

competitors

Step 3.7 Flash vs Concorrentes

Step 3.7 Flash se distingue no cenário da IA por sua natureza de código aberto, capacidades multimodais de alto desempenho e foco em workflows agentic, contrastando com plataformas proprietárias e ofertas de IA mais generalizadas.

1
Google Gemini (as an agent)

Gemini is a multimodal AI model capable of understanding and operating across various data types, including images, video, and text, enabling sophisticated reasoning and direct UI control.

Similar to Step 3.7 Flash, Gemini offers real-time perception and action capabilities, particularly strong in multimodal understanding and complex decision-making. Its freemium access is typically via API for developers, allowing for the creation of custom agents.

2
AskUI Vision Agent

AskUI Vision Agent specializes in automating desktop and mobile workflows by visually understanding and interacting with graphical user interfaces at the operating system level.

This is a direct competitor focusing on the 'see and act' aspect for digital interfaces, translating visual data into low-level commands. Its specialization in GUI automation provides a focused alternative to a general 'flash-speed' agent model.

3

Skygen is an AI desktop automation agent that provides real-time visibility and runs tasks across various applications, websites, and cloud computers.

Skygen aligns closely with Step 3.7 Flash's description of a 'flash-speed agent model that can see and act' within digital environments, emphasizing real-time operation and broad application interaction. It offers a freemium model, similar to the described pricing of Step 3.7 Flash.

4
OpenAI Operator

OpenAI Operator is designed to execute multi-step actions directly within a web browser, enabling autonomous completion of complex web tasks.

While its pricing is listed as a paid 'Pro' tier rather than freemium, OpenAI Operator offers a direct functional comparison by focusing on agents that 'see' (perceive web interfaces) and 'act' (perform tasks) at speed within a browser environment.

5
Agno AI Agents

Agno AI Agents is a framework built for performance, enabling the creation of lightning-fast, production-ready AI agents with minimal startup times and a tiny footprint.

Agno directly addresses the 'flash-speed' aspect, offering a framework to build agents that are exceptionally fast and efficient. While its 'see' capability is more about perceiving digital states for action rather than explicit visual recognition, its emphasis on rapid, production-grade agent deployment makes it a strong competitor for high-performance autonomous tasks.

Perguntas frequentes

+O que é o Step 3.7 Flash?

Step 3.7 Flash é um modelo multimodal de visão-linguagem desenvolvido pela StepFun que permite a desenvolvedores de IA e empresas construir e implantar aplicações e agentes de IA de alta frequência. Ele combina um language backbone de 196B parâmetros com um vision encoder de 1.8B parâmetros para compreensão nativa de imagem e vídeo.

+O Step 3.7 Flash é gratuito?

Step 3.7 Flash opera em um modelo freemium. O modelo principal é de código aberto sob a Apache 2.0 License, com weights disponíveis no Hugging Face para auto-hospedagem gratuita. A StepFun, a desenvolvedora, também oferece uma plataforma que provavelmente inclui níveis gratuitos para uso básico e níveis pagos para recursos avançados ou uso mais alto, embora os preços específicos para esses serviços hospedados não sejam detalhados publicamente.

+Quais são as principais características do Step 3.7 Flash?

As principais características do Step 3.7 Flash incluem sua arquitetura sparse Mixture-of-Experts de 198 bilhões de parâmetros, compreensão multimodal nativa (texto, imagem, vídeo), processamento de alto throughput (até 400 tokens/segundo), uma context window de 256k, chamada e orquestração de ferramentas confiáveis, e um Advisor Mode para execução agentic econômica. Ele também oferece capacidades avançadas de codificação e é de código aberto sob a Apache 2.0 License.

+Quem deve usar o Step 3.7 Flash?

Step 3.7 Flash é destinado principalmente a Desenvolvedores de IA, Usuários Corporativos, Engenheiros/Pesquisadores, Criadores de Conteúdo e indivíduos que buscam assistência pessoal de IA. É adequado para construir e implantar aplicações de IA, dimensionar workflows agentic, realizar tarefas de engenharia ao vivo e desenvolver aplicações de text-to-speech ou clonagem de voz.

+Como o Step 3.7 Flash se compara às alternativas?

Step 3.7 Flash se diferencia como um modelo multimodal de código aberto e alto desempenho para desenvolvedores, contrastando com plataformas proprietárias como Google Gemini e Custom GPTs da OpenAI que oferecem experiências de usuário mais integradas. Ao contrário do Agent Factory, que é uma plataforma para construir agentes, o Step 3.7 Flash é um modelo fundamental. Comparado ao X.ai (Grok), o Step 3.7 Flash foca em capacidades agentic de código aberto, enquanto o X.ai fornece plataformas de agente de nível empresarial com integração de dados ao vivo.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.