overview
Step 3.7 Flash とは?
Step 3.7 Flash は、StepFun が開発したマルチモーダルなビジョン言語モデルで、AI 開発者や企業が高頻度な AI アプリケーションやエージェントを構築・展開できるようにします。これは、1960億パラメータの言語バックボーンと18億パラメータのビジョンエンコーダを組み合わせることで、ネイティブな画像および動画理解を実現します。中国の AI スタートアップ StepFun によって開発されたこの1,980億パラメータのスパースな Mixture-of-Experts (MoE) モデルは、高頻度な本番ワークロードとエージェント的なユースケース向けに設計されています。テキストと画像の両方の入力を処理してテキスト出力を生成し、1トークンあたり約110億のパラメータをアクティブ化し、1秒あたり最大400トークンのスループットを実現します。その主要な機能には、大規模な財務報告書の解析や多段階検索ループの実行など、知覚、検索、推論を組み合わせたエージェント的なワークフローのスケーリングが含まれます。Step 3.7 Flash は、マルチファイルリポジトリのトレース、バグの特定、機能的なコードパッチの生成が可能なライブエンジニアリングタスク向けにも構築されています。製品 UI、ドキュメント、自然なシーンなど、さまざまなコンテキストで画像を理解する視覚インテリジェンスに優れており、ClawEval-1.1 のような主要なベンチマークでツール使用とオーケストレーションの高い信頼性を示しています。このモデルは256kのコンテキストウィンドウをサポートしており、広範なドキュメントや大規模なコードベースを伴う長文コンテキストの生産性タスクに適しています。