Skip to content

Step 3.7 Flash Bewertung

Step 3.7 Flash ist ein multimodales Visions-Sprachmodell, das für hochfrequente Produktions-Workloads und agentische Anwendungsfälle entwickelt wurde und sowohl Text- als auch Bildeingaben verarbeiten kann.

shipped 31. Mai 2026aifreemium
Step 3.7 Flash - AI tool for step flash. Professional illustration showing core functionality and features.
1Step 3.7 Flash ist ein multimodales Visions-Sprachmodell mit 198 Milliarden Parametern und einer spärlichen Mixture-of-Experts (MoE)-Architektur.
2Es liefert einen Durchsatz von bis zu 400 Token pro Sekunde und unterstützt ein Kontextfenster von 256k.
3Das Modell erreichte einen Wert von 56,26 % auf SWE-Bench Pro für die agentische Codierungsleistung.
4Step 3.7 Flash ist unter der Apache 2.0 License quelloffen, mit verfügbaren BF16-, FP8-, NVFP4- und GGUF-Gewichten.

Stork Quadrant

Dead Man Walking· 0/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

This is a Chinese inference-speed model competing in the most crowded lane in AI. No proprietary data, no regulatory moat, no network effects, no trust workflow ownership. Speed and price are the pitch — both erode within months as every major lab ships faster, cheaper models. This will get commoditized.

Claude Sonnet 4.6, scored 2026-05-31

Defensibility · 0/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate text responses to prompts — any frontier LLM does this
  • Analyze images and describe or reason about visual content — GPT-4o, Gemini Flash do this today
  • Execute agentic tasks like browsing or form-filling — Operator, Claude, Gemini already compete here
  • Answer questions quickly at low latency — commodity inference optimization, not a moat

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

Pick a vertical where Chinese-language enterprise compliance or specific regional data access matters, and own that workflow end-to-end with liability attached. Otherwise, become an API layer that agents call rather than a product users visit.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

Step 3.7 Flash at a Glance

Best For
product-hunt
Pricing
freemium
Key Features
Released on May 28, 2026, Step 3.7 Flash is a 198-billion-parameter sparse MoE model. · It features a 256k context window and activates approximately 11 billion parameters per token during inference. · The model achieved a second-place finish on SWE-Bench PRO with a score of 56.3.
Alternatives
Google Gemini (as an agent), AskUI Vision Agent, Skygen, OpenAI Operator

About Step 3.7 Flash

Founded
2023
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/step-3-7-flash" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/step-3-7-flash?style=dark" alt="Step 3.7 Flash - Featured on Stork.ai" height="36" /></a>
[![Step 3.7 Flash - Featured on Stork.ai](https://www.stork.ai/api/badge/step-3-7-flash?style=dark)](https://www.stork.ai/en/step-3-7-flash)

overview

Was ist Step 3.7 Flash?

Step 3.7 Flash ist ein multimodales Visions-Sprachmodell, das von StepFun entwickelt wurde und es KI-Entwicklern und Unternehmen ermöglicht, hochfrequente KI-Anwendungen und -Agenten zu erstellen und bereitzustellen. Es kombiniert ein Sprach-Backbone mit 196 Milliarden Parametern mit einem Visions-Encoder mit 1,8 Milliarden Parametern für das native Verständnis von Bildern und Videos. Dieses von dem chinesischen KI-Startup StepFun entwickelte spärliche Mixture-of-Experts (MoE)-Modell mit 198 Milliarden Parametern ist für hochfrequente Produktions-Workloads und agentische Anwendungsfälle konzipiert. Es verarbeitet sowohl Text- als auch Bildeingaben, um Textausgaben zu erzeugen, aktiviert dabei etwa 11 Milliarden Parameter pro Token und liefert einen Durchsatz von bis zu 400 Token pro Sekunde. Zu seinen Kernfähigkeiten gehört die Skalierung agentischer Workflows, die Wahrnehmung, Suche und Argumentation kombinieren, wie das Parsen großer Finanzberichte und das Ausführen mehrstufiger Suchschleifen. Step 3.7 Flash ist auch für Live-Engineering-Aufgaben konzipiert und kann Multi-Datei-Repositories verfolgen, Fehler isolieren und funktionale Code-Patches generieren. Es zeichnet sich durch visuelle Intelligenz aus, versteht Bilder in verschiedenen Kontexten wie Produkt-UIs, Dokumenten und natürlichen Szenen und zeigt eine hohe Zuverlässigkeit bei der Werkzeugnutzung und -orchestrierung, was sich in führenden Benchmarks wie ClawEval-1.1 widerspiegelt. Das Modell unterstützt ein Kontextfenster von 256k, wodurch es für Produktivitätsaufgaben mit langem Kontext, die umfangreiche Dokumente und große Codebasen umfassen, geeignet ist.

quick facts

Kurzfakten

AttributWert
EntwicklerStepFun
GeschäftsmodellFreemium (Open-Source-Kern)
PreisgestaltungFreemium
PlattformenAPI, NVIDIA NIM, vLLM, SGLang, Hugging Face Transformers, llama.cpp
API VerfügbarJa
IntegrationenNVIDIA NIM, vLLM, SGLang, Hugging Face Transformers, llama.cpp
Gegründet2023
HauptsitzShanghai, China

features

Hauptmerkmale von Step 3.7 Flash

Step 3.7 Flash integriert eine Reihe fortschrittlicher Funktionen, die für die Entwicklung hochleistungsfähiger KI-Anwendungen und agentischer Operationen konzipiert sind. Seine Architektur und Fähigkeiten sind darauf zugeschnitten, komplexe multimodale Aufgaben und anspruchsvolle Produktionsumgebungen zu bewältigen.

  • 1198-Milliarden-Parameter spärliche Mixture-of-Experts (MoE)-Architektur für effiziente Verarbeitung.
  • 2Natives multimodales Verständnis, Verarbeitung von Text-, Bild- und Videoeingaben.
  • 3Hochdurchsatzverarbeitung, erreicht bis zu 400 Token pro Sekunde.
  • 4256k Kontextfenster, das die Analyse langer Dokumente und großer Codebasen ermöglicht.
  • 5Zuverlässige Werkzeugaufrufe und Orchestrierung, demonstriert durch führende ClawEval-1.1 Benchmarks.
  • 6Fortschrittliche Skalierung agentischer Workflows, die Wahrnehmungs-, Such- und Argumentationsfähigkeiten integriert.
  • 7Implementierung des Advisor Mode für kosteneffiziente agentische Schleifen, die nur an kritischen Punkten auf größere Modelle eskalieren.
  • 8Open-Source-Verfügbarkeit unter der Apache 2.0 License, mit BF16-, FP8-, NVFP4- und GGUF-Gewichten.
  • 9Integration mit NVIDIA NIM Inferenz-Mikrodiensten, vLLM, SGLang, Hugging Face Transformers und llama.cpp.
  • 10Verbesserte Codierungs- und Frontend-Generierung, mit 56,26 % auf SWE-Bench Pro und 72,42 % auf SWE-MTLG.

use cases

Wer sollte Step 3.7 Flash verwenden?

Step 3.7 Flash wurde primär für technische Nutzer und Organisationen entwickelt, die robuste, hochleistungsfähige KI-Modelle für komplexe, multimodale Anwendungen und agentische Systeme benötigen. Seine Fähigkeiten decken spezifische Entwicklungs- und Betriebsbedürfnisse in verschiedenen Sektoren ab.

  • 1KI-Entwickler: Für den Aufbau und die Bereitstellung von KI-Anwendungen der nächsten Generation, insbesondere solchen, die multimodales Verständnis, zuverlässige Werkzeugnutzung und Agenten-Orchestrierung erfordern.
  • 2Unternehmensnutzer: Für die Skalierung agentischer Workflows, wie das Parsen großer Finanzberichte, das Ausführen mehrstufiger Suchschleifen mit quellenübergreifender Verifizierung und den Betrieb gleichzeitiger Codierungsagenten in Hochdurchsatz-Pipelines.
  • 3Ingenieure/Forscher: Für Live-Engineering-Aufgaben, einschließlich der Verfolgung von Multi-Datei-Repositories, der Isolierung von Fehlern aus Fehlerberichten und der Generierung funktionaler Code-Patches, die automatisierte Unit-Tests bestehen.
  • 4Content Creators: Für Anwendungen, die Text-to-Speech, Stimmklonung, kreatives Schreiben und andere Medienproduktionsaufgaben umfassen, die eine fortschrittliche Sprach- und Audioverarbeitung erfordern.
  • 5Personen, die persönliche KI-Unterstützung suchen: Für Wissenserwerb, Informationsbeschaffung, Sprachenlernen und Codierungsunterstützung durch einen persönlichen KI-Assistenten.

pricing

Step 3.7 Flash Preise & Pläne

Step 3.7 Flash basiert auf einem Freemium-Modell. Das Kernmodell ist unter der Apache 2.0 License quelloffen, mit BF16-, FP8-, NVFP4- und GGUF-Gewichten, die auf Hugging Face verfügbar sind, sodass Entwickler das Modell kostenlos in ihren eigenen Bereitstellungen nutzen können. StepFun, der Entwickler, bietet auch eine Plattform an, die wahrscheinlich kostenlose Stufen für die grundlegende Nutzung und kostenpflichtige Stufen für erweiterte Funktionen, höhere Nutzungslimits oder Unternehmenssupport umfasst, obwohl spezifische Preise für diese Stufen nicht öffentlich detailliert sind. Der Advisor Mode des Modells ist darauf ausgelegt, die Kosteneffizienz zu optimieren und beansprucht 97 % der Codierungsleistung von Claude Opus 4.6 auf SWE-Bench Verified zu etwa einem Neuntel der Kosten pro Aufgabe (0,19 $ vs. 1,76 $), wenn aktiviert.

  • 1Freemium: Zugang zu den Kernmodellgewichten unter Apache 2.0 License für Self-Hosting und Entwicklung.
  • 2Plattform-Stufen: Spezifische Preise für die gehostete Plattform von StepFun und erweiterte Funktionen werden nicht öffentlich bekannt gegeben, umfassen aber typischerweise kostenlose Nutzungslimits mit kostenpflichtigen Upgrades.
  • 3Advisor Mode: Kostenoptimierte agentische Ausführung, geschätzt auf 0,19 $ pro Aufgabe für eine Codierungsleistung, die mit teureren Modellen vergleichbar ist.

competitors

Step 3.7 Flash vs. Wettbewerber

Step 3.7 Flash hebt sich in der KI-Landschaft durch seinen Open-Source-Charakter, seine hochleistungsfähigen multimodalen Fähigkeiten und seinen Fokus auf agentische Workflows ab, im Gegensatz zu proprietären Plattformen und allgemeineren KI-Angeboten.

1
Google Gemini (as an agent)

Gemini is a multimodal AI model capable of understanding and operating across various data types, including images, video, and text, enabling sophisticated reasoning and direct UI control.

Similar to Step 3.7 Flash, Gemini offers real-time perception and action capabilities, particularly strong in multimodal understanding and complex decision-making. Its freemium access is typically via API for developers, allowing for the creation of custom agents.

2
AskUI Vision Agent

AskUI Vision Agent specializes in automating desktop and mobile workflows by visually understanding and interacting with graphical user interfaces at the operating system level.

This is a direct competitor focusing on the 'see and act' aspect for digital interfaces, translating visual data into low-level commands. Its specialization in GUI automation provides a focused alternative to a general 'flash-speed' agent model.

3

Skygen is an AI desktop automation agent that provides real-time visibility and runs tasks across various applications, websites, and cloud computers.

Skygen aligns closely with Step 3.7 Flash's description of a 'flash-speed agent model that can see and act' within digital environments, emphasizing real-time operation and broad application interaction. It offers a freemium model, similar to the described pricing of Step 3.7 Flash.

4
OpenAI Operator

OpenAI Operator is designed to execute multi-step actions directly within a web browser, enabling autonomous completion of complex web tasks.

While its pricing is listed as a paid 'Pro' tier rather than freemium, OpenAI Operator offers a direct functional comparison by focusing on agents that 'see' (perceive web interfaces) and 'act' (perform tasks) at speed within a browser environment.

5
Agno AI Agents

Agno AI Agents is a framework built for performance, enabling the creation of lightning-fast, production-ready AI agents with minimal startup times and a tiny footprint.

Agno directly addresses the 'flash-speed' aspect, offering a framework to build agents that are exceptionally fast and efficient. While its 'see' capability is more about perceiving digital states for action rather than explicit visual recognition, its emphasis on rapid, production-grade agent deployment makes it a strong competitor for high-performance autonomous tasks.

Häufig gestellte Fragen

+Was ist Step 3.7 Flash?

Step 3.7 Flash ist ein multimodales Visions-Sprachmodell, das von StepFun entwickelt wurde und es KI-Entwicklern und Unternehmen ermöglicht, hochfrequente KI-Anwendungen und -Agenten zu erstellen und bereitzustellen. Es kombiniert ein Sprach-Backbone mit 196 Milliarden Parametern mit einem Visions-Encoder mit 1,8 Milliarden Parametern für das native Verständnis von Bildern und Videos.

+Ist Step 3.7 Flash kostenlos?

Step 3.7 Flash basiert auf einem Freemium-Modell. Das Kernmodell ist unter der Apache 2.0 License quelloffen, mit Gewichten, die auf Hugging Face für kostenloses Self-Hosting verfügbar sind. StepFun, der Entwickler, bietet auch eine Plattform an, die wahrscheinlich kostenlose Stufen für die grundlegende Nutzung und kostenpflichtige Stufen für erweiterte Funktionen oder höhere Nutzung umfasst, obwohl spezifische Preise für diese gehosteten Dienste nicht öffentlich detailliert sind.

+Was sind die Hauptmerkmale von Step 3.7 Flash?

Zu den Hauptmerkmalen von Step 3.7 Flash gehören seine 198-Milliarden-Parameter spärliche Mixture-of-Experts-Architektur, natives multimodales Verständnis (Text, Bild, Video), Hochdurchsatzverarbeitung (bis zu 400 Token/Sekunde), ein 256k Kontextfenster, zuverlässige Werkzeugaufrufe und Orchestrierung sowie ein Advisor Mode für kosteneffiziente agentische Ausführung. Es bietet auch erweiterte Codierungsfähigkeiten und ist unter der Apache 2.0 License quelloffen.

+Wer sollte Step 3.7 Flash verwenden?

Step 3.7 Flash ist primär für KI-Entwickler, Unternehmensnutzer, Ingenieure/Forscher, Content Creators und Personen gedacht, die persönliche KI-Unterstützung suchen. Es eignet sich für den Aufbau und die Bereitstellung von KI-Anwendungen, die Skalierung agentischer Workflows, die Durchführung von Live-Engineering-Aufgaben und die Entwicklung von Text-to-Speech- oder Stimmklonungsanwendungen.

+Wie schneidet Step 3.7 Flash im Vergleich zu Alternativen ab?

Step 3.7 Flash hebt sich als quelloffenes, hochleistungsfähiges multimodales Modell für Entwickler ab, im Gegensatz zu proprietären Plattformen wie Google Gemini und OpenAI's Custom GPTs, die integriertere Benutzererfahrungen bieten. Im Gegensatz zu Agent Factory, einer Plattform zum Erstellen von Agenten, ist Step 3.7 Flash ein grundlegendes Modell. Im Vergleich zu X.ai (Grok) konzentriert sich Step 3.7 Flash auf quelloffene agentische Fähigkeiten, während X.ai Agentenplattformen auf Unternehmensebene mit Live-Datenintegration bereitstellt.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.