Skip to content

Examen de Step 3.7 Flash

Step 3.7 Flash est un modèle vision-langage multimodal conçu pour les charges de travail de production à haute fréquence et les cas d'utilisation agentiques, capable de traiter des entrées de texte et d'image.

shipped 31 mai 2026aifreemium
Step 3.7 Flash - AI tool for step flash. Professional illustration showing core functionality and features.
1Step 3.7 Flash est un modèle vision-langage sparse Mixture-of-Experts (MoE) de 198 milliards de paramètres.
2Il offre un throughput allant jusqu'à 400 tokens par seconde et prend en charge une context window de 256k.
3Le modèle a obtenu un score de 56,26 % sur SWE-Bench Pro pour les performances de codage agentique.
4Step 3.7 Flash est open-sourced sous la licence Apache 2.0, avec des poids BF16, FP8, NVFP4 et GGUF disponibles.

Stork Quadrant

Dead Man Walking· 0/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

This is a Chinese inference-speed model competing in the most crowded lane in AI. No proprietary data, no regulatory moat, no network effects, no trust workflow ownership. Speed and price are the pitch — both erode within months as every major lab ships faster, cheaper models. This will get commoditized.

Claude Sonnet 4.6, scored 2026-05-31

Defensibility · 0/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate text responses to prompts — any frontier LLM does this
  • Analyze images and describe or reason about visual content — GPT-4o, Gemini Flash do this today
  • Execute agentic tasks like browsing or form-filling — Operator, Claude, Gemini already compete here
  • Answer questions quickly at low latency — commodity inference optimization, not a moat

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

Pick a vertical where Chinese-language enterprise compliance or specific regional data access matters, and own that workflow end-to-end with liability attached. Otherwise, become an API layer that agents call rather than a product users visit.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

Step 3.7 Flash at a Glance

Best For
product-hunt
Pricing
freemium
Key Features
Released on May 28, 2026, Step 3.7 Flash is a 198-billion-parameter sparse MoE model. · It features a 256k context window and activates approximately 11 billion parameters per token during inference. · The model achieved a second-place finish on SWE-Bench PRO with a score of 56.3.
Alternatives
Google Gemini (as an agent), AskUI Vision Agent, Skygen, OpenAI Operator

About Step 3.7 Flash

Founded
2023
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/step-3-7-flash" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/step-3-7-flash?style=dark" alt="Step 3.7 Flash - Featured on Stork.ai" height="36" /></a>
[![Step 3.7 Flash - Featured on Stork.ai](https://www.stork.ai/api/badge/step-3-7-flash?style=dark)](https://www.stork.ai/en/step-3-7-flash)

overview

Qu'est-ce que Step 3.7 Flash ?

Step 3.7 Flash est un modèle vision-langage multimodal développé par StepFun qui permet aux développeurs d'IA et aux entreprises de créer et de déployer des applications et des agents d'IA à haute fréquence. Il combine un language backbone de 196 milliards de paramètres avec un vision encoder de 1,8 milliard de paramètres pour une compréhension native des images et des vidéos. Développé par la startup chinoise d'IA StepFun, ce modèle sparse Mixture-of-Experts (MoE) de 198 milliards de paramètres est conçu pour les charges de travail de production à haute fréquence et les cas d'utilisation agentiques. Il traite les entrées de texte et d'image pour produire des sorties de texte, activant environ 11 milliards de paramètres par token, et offrant un throughput allant jusqu'à 400 tokens par seconde. Ses capacités principales incluent la mise à l'échelle des workflows agentiques qui combinent la perception, la recherche et le raisonnement, tels que l'analyse de grands rapports financiers et l'exécution de boucles de recherche multi-étapes. Step 3.7 Flash est également conçu pour les tâches d'ingénierie en direct, capable de tracer des dépôts multi-fichiers, d'isoler les bugs et de générer des correctifs de code fonctionnels. Il excelle en intelligence visuelle, comprenant les images dans divers contextes comme les UIs de produits, les documents et les scènes naturelles, et démontre une grande fiabilité dans l'utilisation et l'orchestration d'outils, menant des benchmarks comme ClawEval-1.1. Le modèle prend en charge une context window de 256k, ce qui le rend adapté aux tâches de productivité à long contexte impliquant des documents étendus et de grandes bases de code.

quick facts

Faits Rapides

AttributValeur
DéveloppeurStepFun
Modèle CommercialFreemium (Noyau Open-source)
TarificationFreemium
PlateformesAPI, NVIDIA NIM, vLLM, SGLang, Hugging Face Transformers, llama.cpp
API DisponibleOui
IntégrationsNVIDIA NIM, vLLM, SGLang, Hugging Face Transformers, llama.cpp
Fondé2023
Siège SocialShanghai, Chine

features

Fonctionnalités Clés de Step 3.7 Flash

Step 3.7 Flash intègre une suite de fonctionnalités avancées conçues pour le développement d'applications d'IA haute performance et les opérations agentiques. Son architecture et ses capacités sont adaptées pour répondre aux tâches multimodales complexes et aux environnements de production exigeants.

  • 1Architecture sparse Mixture-of-Experts (MoE) de 198 milliards de paramètres pour un traitement efficace.
  • 2Compréhension multimodale native, traitant les entrées de texte, d'images et de vidéos.
  • 3Traitement à haut throughput, atteignant jusqu'à 400 tokens par seconde.
  • 4context window de 256k, permettant l'analyse de longs documents et de grandes bases de code.
  • 5Appel et orchestration d'outils fiables, démontrés par les benchmarks ClawEval-1.1.
  • 6Mise à l'échelle avancée des workflows agentiques, intégrant des capacités de perception, de recherche et de raisonnement.
  • 7Implémentation du Advisor Mode pour des boucles agentiques rentables, n'escaladant vers des modèles plus grands qu'aux moments critiques.
  • 8Disponibilité open-source sous la licence Apache 2.0, avec des poids BF16, FP8, NVFP4 et GGUF.
  • 9Intégration avec les microservices d'inférence NVIDIA NIM, vLLM, SGLang, Hugging Face Transformers et llama.cpp.
  • 10Génération de code et de frontend améliorée, avec un score de 56,26 % sur SWE-Bench Pro et de 72,42 % sur SWE-MTLG.

use cases

Qui Devrait Utiliser Step 3.7 Flash ?

Step 3.7 Flash est principalement conçu pour les utilisateurs techniques et les organisations nécessitant des modèles d'IA robustes et haute performance pour des applications multimodales complexes et des systèmes agentiques. Ses capacités répondent à des besoins de développement et opérationnels spécifiques dans divers secteurs.

  • 1Développeurs d'IA : Pour la création et le déploiement d'applications d'IA de nouvelle génération, en particulier celles nécessitant une compréhension multimodale, une utilisation fiable des outils et l'orchestration d'agents.
  • 2Utilisateurs d'Entreprise : Pour la mise à l'échelle des workflows agentiques, tels que l'analyse de grands rapports financiers, l'exécution de boucles de recherche multi-étapes avec vérification inter-sources, et l'opération d'agents de codage concurrents dans des pipelines à haut throughput.
  • 3Ingénieurs/Chercheurs : Pour les tâches d'ingénierie en direct, y compris le traçage de dépôts multi-fichiers, l'isolation de bugs à partir de rapports de problèmes, et la génération de correctifs de code fonctionnels qui passent les tests unitaires automatisés.
  • 4Créateurs de Contenu : Pour les applications impliquant le text-to-speech, le voice cloning, l'écriture créative et d'autres tâches de production multimédia nécessitant un traitement avancé du langage et de l'audio.
  • 5Particuliers recherchant une assistance IA personnelle : Pour l'acquisition de connaissances, la recherche d'informations, l'apprentissage des langues et le support de codage via un assistant IA personnel.

pricing

Tarification et Plans de Step 3.7 Flash

Step 3.7 Flash fonctionne sur un modèle freemium. Le modèle de base est open-sourced sous la licence Apache 2.0, avec des poids BF16, FP8, NVFP4 et GGUF disponibles sur Hugging Face, permettant aux développeurs d'utiliser le modèle gratuitement dans leurs propres déploiements. StepFun, le développeur, fournit également une plateforme qui inclut probablement des niveaux gratuits pour une utilisation de base et des niveaux payants pour des fonctionnalités avancées, des limites d'utilisation plus élevées ou un support d'entreprise, bien que la tarification spécifique de ces niveaux ne soit pas détaillée publiquement. Le Advisor Mode du modèle est conçu pour optimiser la rentabilité, revendiquant 97 % des performances de codage de Claude Opus 4.6 sur SWE-Bench Verified à environ un neuvième du coût par tâche (0,19 $ contre 1,76 $) lorsqu'il est activé.

  • 1Freemium : Accès aux poids du modèle de base sous licence Apache 2.0 pour l'auto-hébergement et le développement.
  • 2Niveaux de Plateforme : La tarification spécifique pour la plateforme hébergée de StepFun et les fonctionnalités avancées n'est pas divulguée publiquement, mais inclut généralement des limites d'utilisation gratuites avec des mises à niveau payantes.
  • 3Advisor Mode : Exécution agentique optimisée en termes de coûts, estimée à 0,19 $ par tâche pour des performances de codage comparables à celles de modèles plus coûteux.

competitors

Step 3.7 Flash vs Concurrents

Step 3.7 Flash se distingue dans le paysage de l'IA par sa nature open-source, ses capacités multimodales haute performance et son accent sur les workflows agentiques, contrastant avec les plateformes propriétaires et les offres d'IA plus généralisées.

1
Google Gemini (as an agent)

Gemini is a multimodal AI model capable of understanding and operating across various data types, including images, video, and text, enabling sophisticated reasoning and direct UI control.

Similar to Step 3.7 Flash, Gemini offers real-time perception and action capabilities, particularly strong in multimodal understanding and complex decision-making. Its freemium access is typically via API for developers, allowing for the creation of custom agents.

2
AskUI Vision Agent

AskUI Vision Agent specializes in automating desktop and mobile workflows by visually understanding and interacting with graphical user interfaces at the operating system level.

This is a direct competitor focusing on the 'see and act' aspect for digital interfaces, translating visual data into low-level commands. Its specialization in GUI automation provides a focused alternative to a general 'flash-speed' agent model.

3

Skygen is an AI desktop automation agent that provides real-time visibility and runs tasks across various applications, websites, and cloud computers.

Skygen aligns closely with Step 3.7 Flash's description of a 'flash-speed agent model that can see and act' within digital environments, emphasizing real-time operation and broad application interaction. It offers a freemium model, similar to the described pricing of Step 3.7 Flash.

4
OpenAI Operator

OpenAI Operator is designed to execute multi-step actions directly within a web browser, enabling autonomous completion of complex web tasks.

While its pricing is listed as a paid 'Pro' tier rather than freemium, OpenAI Operator offers a direct functional comparison by focusing on agents that 'see' (perceive web interfaces) and 'act' (perform tasks) at speed within a browser environment.

5
Agno AI Agents

Agno AI Agents is a framework built for performance, enabling the creation of lightning-fast, production-ready AI agents with minimal startup times and a tiny footprint.

Agno directly addresses the 'flash-speed' aspect, offering a framework to build agents that are exceptionally fast and efficient. While its 'see' capability is more about perceiving digital states for action rather than explicit visual recognition, its emphasis on rapid, production-grade agent deployment makes it a strong competitor for high-performance autonomous tasks.

Questions fréquentes

+Qu'est-ce que Step 3.7 Flash ?

Step 3.7 Flash est un modèle vision-langage multimodal développé par StepFun qui permet aux développeurs d'IA et aux entreprises de créer et de déployer des applications et des agents d'IA à haute fréquence. Il combine un language backbone de 196 milliards de paramètres avec un vision encoder de 1,8 milliard de paramètres pour une compréhension native des images et des vidéos.

+Step 3.7 Flash est-il gratuit ?

Step 3.7 Flash fonctionne sur un modèle freemium. Le modèle de base est open-sourced sous la licence Apache 2.0, avec des poids disponibles sur Hugging Face pour un auto-hébergement gratuit. StepFun, le développeur, propose également une plateforme qui inclut probablement des niveaux gratuits pour une utilisation de base et des niveaux payants pour des fonctionnalités avancées ou une utilisation plus élevée, bien que la tarification spécifique de ces services hébergés ne soit pas détaillée publiquement.

+Quelles sont les principales fonctionnalités de Step 3.7 Flash ?

Les principales fonctionnalités de Step 3.7 Flash incluent son architecture sparse Mixture-of-Experts de 198 milliards de paramètres, sa compréhension multimodale native (texte, image, vidéo), son traitement à haut throughput (jusqu'à 400 tokens/seconde), une context window de 256k, un appel et une orchestration d'outils fiables, et un Advisor Mode pour une exécution agentique rentable. Il offre également des capacités de codage avancées et est open-sourced sous la licence Apache 2.0.

+Qui devrait utiliser Step 3.7 Flash ?

Step 3.7 Flash est principalement destiné aux Développeurs d'IA, aux Utilisateurs d'Entreprise, aux Ingénieurs/Chercheurs, aux Créateurs de Contenu et aux particuliers recherchant une assistance IA personnelle. Il est adapté pour la création et le déploiement d'applications d'IA, la mise à l'échelle des workflows agentiques, l'exécution de tâches d'ingénierie en direct et le développement d'applications de text-to-speech ou de voice cloning.

+Comment Step 3.7 Flash se compare-t-il aux alternatives ?

Step 3.7 Flash se distingue en tant que modèle multimodal open-source haute performance pour les développeurs, contrastant avec les plateformes propriétaires comme Google Gemini et les Custom GPTs d'OpenAI qui offrent des expériences utilisateur plus intégrées. Contrairement à Agent Factory, qui est une plateforme pour la création d'agents, Step 3.7 Flash est un modèle fondamental. Comparé à X.ai (Grok), Step 3.7 Flash se concentre sur les capacités agentiques open-source, tandis que X.ai fournit des plateformes d'agents de qualité entreprise avec intégration de données en direct.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.