Skip to content

Step 3.7 Flash レビュー

Step 3.7 Flash は、高頻度な本番ワークロードとエージェント的なユースケース向けに設計されたマルチモーダルなビジョン言語モデルで、テキストと画像の両方の入力を処理できます。

shipped 2026年5月31日aifreemium
Step 3.7 Flash - AI tool for step flash. Professional illustration showing core functionality and features.
1Step 3.7 Flash は、1,980億パラメータのスパースな Mixture-of-Experts (MoE) ビジョン言語モデルです。
21秒あたり最大400トークンのスループットを実現し、256kのコンテキストウィンドウをサポートしています。
3このモデルは、エージェント的なコーディング性能において SWE-Bench Pro で 56.26% のスコアを達成しました。
4Step 3.7 Flash は Apache 2.0 License の下でオープンソース化されており、BF16、FP8、NVFP4、GGUF のウェイトが利用可能です。

Stork Quadrant

Dead Man Walking· 0/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

This is a Chinese inference-speed model competing in the most crowded lane in AI. No proprietary data, no regulatory moat, no network effects, no trust workflow ownership. Speed and price are the pitch — both erode within months as every major lab ships faster, cheaper models. This will get commoditized.

Claude Sonnet 4.6, scored 2026-05-31

Defensibility · 0/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate text responses to prompts — any frontier LLM does this
  • Analyze images and describe or reason about visual content — GPT-4o, Gemini Flash do this today
  • Execute agentic tasks like browsing or form-filling — Operator, Claude, Gemini already compete here
  • Answer questions quickly at low latency — commodity inference optimization, not a moat

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

Pick a vertical where Chinese-language enterprise compliance or specific regional data access matters, and own that workflow end-to-end with liability attached. Otherwise, become an API layer that agents call rather than a product users visit.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

Step 3.7 Flash at a Glance

Best For
product-hunt
Pricing
freemium
Key Features
Released on May 28, 2026, Step 3.7 Flash is a 198-billion-parameter sparse MoE model. · It features a 256k context window and activates approximately 11 billion parameters per token during inference. · The model achieved a second-place finish on SWE-Bench PRO with a score of 56.3.
Alternatives
Google Gemini (as an agent), AskUI Vision Agent, Skygen, OpenAI Operator

About Step 3.7 Flash

Founded
2023
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/step-3-7-flash" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/step-3-7-flash?style=dark" alt="Step 3.7 Flash - Featured on Stork.ai" height="36" /></a>
[![Step 3.7 Flash - Featured on Stork.ai](https://www.stork.ai/api/badge/step-3-7-flash?style=dark)](https://www.stork.ai/en/step-3-7-flash)

overview

Step 3.7 Flash とは?

Step 3.7 Flash は、StepFun が開発したマルチモーダルなビジョン言語モデルで、AI 開発者や企業が高頻度な AI アプリケーションやエージェントを構築・展開できるようにします。これは、1960億パラメータの言語バックボーンと18億パラメータのビジョンエンコーダを組み合わせることで、ネイティブな画像および動画理解を実現します。中国の AI スタートアップ StepFun によって開発されたこの1,980億パラメータのスパースな Mixture-of-Experts (MoE) モデルは、高頻度な本番ワークロードとエージェント的なユースケース向けに設計されています。テキストと画像の両方の入力を処理してテキスト出力を生成し、1トークンあたり約110億のパラメータをアクティブ化し、1秒あたり最大400トークンのスループットを実現します。その主要な機能には、大規模な財務報告書の解析や多段階検索ループの実行など、知覚、検索、推論を組み合わせたエージェント的なワークフローのスケーリングが含まれます。Step 3.7 Flash は、マルチファイルリポジトリのトレース、バグの特定、機能的なコードパッチの生成が可能なライブエンジニアリングタスク向けにも構築されています。製品 UI、ドキュメント、自然なシーンなど、さまざまなコンテキストで画像を理解する視覚インテリジェンスに優れており、ClawEval-1.1 のような主要なベンチマークでツール使用とオーケストレーションの高い信頼性を示しています。このモデルは256kのコンテキストウィンドウをサポートしており、広範なドキュメントや大規模なコードベースを伴う長文コンテキストの生産性タスクに適しています。

quick facts

概要

属性
開発元StepFun
ビジネスモデルフリーミアム (オープンソースコア)
価格フリーミアム
プラットフォームAPI, NVIDIA NIM, vLLM, SGLang, Hugging Face Transformers, llama.cpp
API 利用可否はい
統合NVIDIA NIM, vLLM, SGLang, Hugging Face Transformers, llama.cpp
設立2023
本社中国、上海

features

Step 3.7 Flash の主な機能

Step 3.7 Flash は、高性能な AI アプリケーション開発とエージェント的な運用向けに設計された一連の高度な機能を組み込んでいます。そのアーキテクチャと機能は、複雑なマルチモーダルタスクと要求の厳しい本番環境に対応するように調整されています。

  • 1効率的な処理のための1,980億パラメータのスパースな Mixture-of-Experts (MoE) アーキテクチャ。
  • 2テキスト、画像、動画入力を処理するネイティブなマルチモーダル理解。
  • 31秒あたり最大400トークンを達成する高スループット処理。
  • 4長文ドキュメントや大規模なコードベースの分析を可能にする256kのコンテキストウィンドウ。
  • 5主要な ClawEval-1.1 ベンチマークによって実証された、信頼性の高いツール呼び出しとオーケストレーション。
  • 6知覚、検索、推論機能を統合した高度なエージェント的ワークフローのスケーリング。
  • 7費用対効果の高いエージェント的ループのための Advisor Mode の実装。重要な局面でのみ大規模モデルにエスカレートします。
  • 8Apache 2.0 License の下でのオープンソース提供。BF16、FP8、NVFP4、GGUF のウェイトが利用可能です。
  • 9NVIDIA NIM 推論マイクロサービス、vLLM、SGLang、Hugging Face Transformers、llama.cpp との統合。
  • 10SWE-Bench Pro で 56.26%、SWE-MTLG で 72.42% を記録した、強化されたコーディングとフロントエンド生成。

use cases

Step 3.7 Flash は誰が使うべきか?

Step 3.7 Flash は、主に複雑なマルチモーダルアプリケーションやエージェントシステム向けに堅牢で高性能な AI モデルを必要とする技術ユーザーや組織向けに設計されています。その機能は、さまざまな分野における特定の開発および運用ニーズに対応します。

  • 1AI 開発者: マルチモーダル理解、信頼性の高いツール使用、エージェントオーケストレーションを特に必要とする次世代 AI アプリケーションの構築と展開に。
  • 2企業ユーザー: 大規模な財務報告書の解析、クロスソース検証を伴う多段階検索ループの実行、高スループットパイプラインでの並行コーディングエージェントの運用など、エージェント的ワークフローのスケーリングに。
  • 3エンジニア/研究者: マルチファイルリポジトリのトレース、課題報告書からのバグの特定、自動単体テストに合格する機能的なコードパッチの生成など、ライブエンジニアリングタスクに。
  • 4コンテンツクリエイター: テキスト読み上げ、音声クローン、クリエイティブライティング、および高度な言語処理と音声処理を必要とするその他のメディア制作タスクを含むアプリケーションに。
  • 5個人向け AI アシスタンスを求める個人: パーソナル AI アシスタントを介した知識習得、情報検索、語学学習、コーディングサポートに。

pricing

Step 3.7 Flash の価格とプラン

Step 3.7 Flash はフリーミアムモデルで運用されています。コアモデルは Apache 2.0 License の下でオープンソース化されており、BF16、FP8、NVFP4、GGUF のウェイトが Hugging Face で利用可能で、開発者は自身のデプロイメントでモデルを無料で利用できます。開発元である StepFun は、基本的な使用のための無料ティアと、高度な機能、より高い使用制限、またはエンタープライズサポートのための有料ティアを含むプラットフォームも提供している可能性がありますが、これらのティアの具体的な価格は公開されていません。モデルの Advisor Mode は費用対効果を最適化するように設計されており、有効にすると SWE-Bench Verified で Claude Opus 4.6 のコーディング性能の97%を、タスクあたりのコストが約9分の1($0.19 対 $1.76)で達成すると主張しています。

  • 1フリーミアム: Apache 2.0 License の下で、自己ホスティングおよび開発のためのコアモデルウェイトへのアクセス。
  • 2プラットフォームティア: StepFun のホスト型プラットフォームおよび高度な機能の具体的な価格は公開されていませんが、通常、無料の使用制限と有料アップグレードが含まれます。
  • 3Advisor Mode: 費用対効果を最適化したエージェント的実行。高コストモデルに匹敵するコーディング性能で、タスクあたり約$0.19と見積もられています。

competitors

Step 3.7 Flash と競合他社

Step 3.7 Flash は、オープンソースであること、高性能なマルチモーダル機能、エージェント的ワークフローへの注力により、AI の分野で差別化を図っており、プロプライエタリなプラットフォームやより汎用的な AI 提供物とは対照的です。

1
Google Gemini (as an agent)

Gemini is a multimodal AI model capable of understanding and operating across various data types, including images, video, and text, enabling sophisticated reasoning and direct UI control.

Similar to Step 3.7 Flash, Gemini offers real-time perception and action capabilities, particularly strong in multimodal understanding and complex decision-making. Its freemium access is typically via API for developers, allowing for the creation of custom agents.

2
AskUI Vision Agent

AskUI Vision Agent specializes in automating desktop and mobile workflows by visually understanding and interacting with graphical user interfaces at the operating system level.

This is a direct competitor focusing on the 'see and act' aspect for digital interfaces, translating visual data into low-level commands. Its specialization in GUI automation provides a focused alternative to a general 'flash-speed' agent model.

3

Skygen is an AI desktop automation agent that provides real-time visibility and runs tasks across various applications, websites, and cloud computers.

Skygen aligns closely with Step 3.7 Flash's description of a 'flash-speed agent model that can see and act' within digital environments, emphasizing real-time operation and broad application interaction. It offers a freemium model, similar to the described pricing of Step 3.7 Flash.

4
OpenAI Operator

OpenAI Operator is designed to execute multi-step actions directly within a web browser, enabling autonomous completion of complex web tasks.

While its pricing is listed as a paid 'Pro' tier rather than freemium, OpenAI Operator offers a direct functional comparison by focusing on agents that 'see' (perceive web interfaces) and 'act' (perform tasks) at speed within a browser environment.

5
Agno AI Agents

Agno AI Agents is a framework built for performance, enabling the creation of lightning-fast, production-ready AI agents with minimal startup times and a tiny footprint.

Agno directly addresses the 'flash-speed' aspect, offering a framework to build agents that are exceptionally fast and efficient. While its 'see' capability is more about perceiving digital states for action rather than explicit visual recognition, its emphasis on rapid, production-grade agent deployment makes it a strong competitor for high-performance autonomous tasks.

よくある質問

+Step 3.7 Flash とは?

Step 3.7 Flash は、StepFun が開発したマルチモーダルなビジョン言語モデルで、AI 開発者や企業が高頻度な AI アプリケーションやエージェントを構築・展開できるようにします。これは、1960億パラメータの言語バックボーンと18億パラメータのビジョンエンコーダを組み合わせることで、ネイティブな画像および動画理解を実現します。

+Step 3.7 Flash は無料ですか?

Step 3.7 Flash はフリーミアムモデルで運用されています。コアモデルは Apache 2.0 License の下でオープンソース化されており、Hugging Face でウェイトが無料で自己ホスティングのために利用可能です。開発元である StepFun は、基本的な使用のための無料ティアと、高度な機能やより高い使用のための有料ティアを含むプラットフォームも提供している可能性がありますが、これらのホスト型サービスの具体的な価格は公開されていません。

+Step 3.7 Flash の主な機能は何ですか?

Step 3.7 Flash の主な機能には、1,980億パラメータのスパースな Mixture-of-Experts アーキテクチャ、ネイティブなマルチモーダル理解(テキスト、画像、動画)、高スループット処理(1秒あたり最大400トークン)、256kのコンテキストウィンドウ、信頼性の高いツール呼び出しとオーケストレーション、費用対効果の高いエージェント的実行のための Advisor Mode が含まれます。また、高度なコーディング機能も提供されており、Apache 2.0 License の下でオープンソース化されています。

+Step 3.7 Flash は誰が使うべきですか?

Step 3.7 Flash は主に AI 開発者、企業ユーザー、エンジニア/研究者、コンテンツクリエイター、および個人向け AI アシスタンスを求める個人を対象としています。AI アプリケーションの構築と展開、エージェント的ワークフローのスケーリング、ライブエンジニアリングタスクの実行、テキスト読み上げや音声クローンアプリケーションの開発に適しています。

+Step 3.7 Flash は代替製品と比較してどうですか?

Step 3.7 Flash は、開発者向けのオープンソースで高性能なマルチモーダルモデルとして差別化されており、より統合されたユーザーエクスペリエンスを提供する Google Gemini や OpenAI の Custom GPTs のようなプロプライエタリなプラットフォームとは対照的です。エージェントを構築するためのプラットフォームである Agent Factory とは異なり、Step 3.7 Flash は基盤モデルです。X.ai (Grok) と比較すると、Step 3.7 Flash はオープンソースのエージェント的機能に焦点を当てている一方、X.ai はライブデータ統合を備えたエンタープライズグレードのエージェントプラットフォームを提供しています。

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.