Skip to content

Step 3.7 Flash 검토

Step 3.7 Flash는 고빈도 프로덕션 워크로드 및 에이전트 사용 사례를 위해 설계된 멀티모달 비전-언어 모델로, 텍스트 및 이미지 입력을 모두 처리할 수 있습니다.

shipped 2026년 5월 31일aifreemium
Step 3.7 Flash - AI tool for step flash. Professional illustration showing core functionality and features.
1Step 3.7 Flash는 1,980억 개 매개변수를 가진 희소 Mixture-of-Experts (MoE) 비전-언어 모델입니다.
2초당 최대 400개의 토큰 처리량을 제공하며, 256k 컨텍스트 창을 지원합니다.
3이 모델은 에이전트 코딩 성능에서 SWE-Bench Pro에서 56.26%의 점수를 달성했습니다.
4Step 3.7 Flash는 Apache 2.0 License 하에 오픈 소스로 제공되며, BF16, FP8, NVFP4, GGUF 가중치를 사용할 수 있습니다.

Stork Quadrant

Dead Man Walking· 0/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

This is a Chinese inference-speed model competing in the most crowded lane in AI. No proprietary data, no regulatory moat, no network effects, no trust workflow ownership. Speed and price are the pitch — both erode within months as every major lab ships faster, cheaper models. This will get commoditized.

Claude Sonnet 4.6, scored 2026-05-31

Defensibility · 0/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate text responses to prompts — any frontier LLM does this
  • Analyze images and describe or reason about visual content — GPT-4o, Gemini Flash do this today
  • Execute agentic tasks like browsing or form-filling — Operator, Claude, Gemini already compete here
  • Answer questions quickly at low latency — commodity inference optimization, not a moat

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

Pick a vertical where Chinese-language enterprise compliance or specific regional data access matters, and own that workflow end-to-end with liability attached. Otherwise, become an API layer that agents call rather than a product users visit.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

Step 3.7 Flash at a Glance

Best For
product-hunt
Pricing
freemium
Key Features
Released on May 28, 2026, Step 3.7 Flash is a 198-billion-parameter sparse MoE model. · It features a 256k context window and activates approximately 11 billion parameters per token during inference. · The model achieved a second-place finish on SWE-Bench PRO with a score of 56.3.
Alternatives
Google Gemini (as an agent), AskUI Vision Agent, Skygen, OpenAI Operator

About Step 3.7 Flash

Founded
2023
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/step-3-7-flash" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/step-3-7-flash?style=dark" alt="Step 3.7 Flash - Featured on Stork.ai" height="36" /></a>
[![Step 3.7 Flash - Featured on Stork.ai](https://www.stork.ai/api/badge/step-3-7-flash?style=dark)](https://www.stork.ai/en/step-3-7-flash)

overview

Step 3.7 Flash란 무엇인가요?

Step 3.7 Flash는 StepFun이 개발한 멀티모달 비전-언어 모델로, AI 개발자와 기업이 고빈도 AI 애플리케이션 및 에이전트를 구축하고 배포할 수 있도록 지원합니다. 1,960억 개 매개변수 언어 백본과 18억 개 매개변수 비전 인코더를 결합하여 네이티브 이미지 및 비디오 이해를 가능하게 합니다. 중국 AI 스타트업 StepFun이 개발한 이 1,980억 개 매개변수 희소 Mixture-of-Experts (MoE) 모델은 고빈도 프로덕션 워크로드 및 에이전트 사용 사례를 위해 설계되었습니다. 텍스트 및 이미지 입력을 모두 처리하여 텍스트 출력을 생성하며, 토큰당 약 110억 개의 매개변수를 활성화하고 초당 최대 400개의 토큰 처리량을 제공합니다. 핵심 기능으로는 대규모 재무 보고서 구문 분석 및 다단계 검색 루프 실행과 같이 지각, 검색, 추론을 결합한 에이전트 워크플로우 확장이 포함됩니다. Step 3.7 Flash는 또한 다중 파일 저장소 추적, 버그 격리, 기능적 코드 패치 생성과 같은 실시간 엔지니어링 작업을 위해 구축되었습니다. 제품 UI, 문서, 자연 장면과 같은 다양한 컨텍스트에서 이미지를 이해하는 시각 지능에 탁월하며, ClawEval-1.1과 같은 선도적인 벤치마크에서 도구 사용 및 오케스트레이션에서 높은 신뢰성을 보여줍니다. 이 모델은 256k 컨텍스트 창을 지원하여 광범위한 문서 및 대규모 코드베이스를 포함하는 장문 컨텍스트 생산성 작업에 적합합니다.

quick facts

요약 정보

속성
개발사StepFun
비즈니스 모델프리미엄 (오픈 소스 코어)
가격프리미엄
플랫폼API, NVIDIA NIM, vLLM, SGLang, Hugging Face Transformers, llama.cpp
API 사용 가능
통합NVIDIA NIM, vLLM, SGLang, Hugging Face Transformers, llama.cpp
설립 연도2023
본사중국 상하이

features

Step 3.7 Flash의 주요 기능

Step 3.7 Flash는 고성능 AI 애플리케이션 개발 및 에이전트 작업을 위해 설계된 일련의 고급 기능을 통합합니다. 그 아키텍처와 기능은 복잡한 멀티모달 작업과 까다로운 프로덕션 환경을 해결하도록 맞춤화되었습니다.

  • 1효율적인 처리를 위한 1,980억 개 매개변수 희소 Mixture-of-Experts (MoE) 아키텍처.
  • 2텍스트, 이미지, 비디오 입력을 처리하는 네이티브 멀티모달 이해.
  • 3초당 최대 400개의 토큰을 달성하는 고처리량 처리.
  • 4긴 문서 및 대규모 코드베이스 분석을 가능하게 하는 256k 컨텍스트 창.
  • 5선도적인 ClawEval-1.1 벤치마크로 입증된 신뢰할 수 있는 도구 호출 및 오케스트레이션.
  • 6지각, 검색, 추론 기능을 통합한 고급 에이전트 워크플로우 확장.
  • 7비용 효율적인 에이전트 루프를 위한 Advisor Mode 구현, 중요한 시점에만 더 큰 모델로 확장.
  • 8Apache 2.0 License 하에 오픈 소스로 제공되며, BF16, FP8, NVFP4, GGUF 가중치를 포함합니다.
  • 9NVIDIA NIM 추론 마이크로서비스, vLLM, SGLang, Hugging Face Transformers, llama.cpp와의 통합.
  • 10SWE-Bench Pro에서 56.26%, SWE-MTLG에서 72.42%를 기록한 향상된 코딩 및 프런트엔드 생성.

use cases

Step 3.7 Flash는 누가 사용해야 하나요?

Step 3.7 Flash는 복잡한 멀티모달 애플리케이션 및 에이전트 시스템을 위한 강력하고 고성능 AI 모델을 필요로 하는 기술 사용자 및 조직을 위해 주로 설계되었습니다. 그 기능은 다양한 분야의 특정 개발 및 운영 요구 사항을 충족합니다.

  • 1AI 개발자: 멀티모달 이해, 신뢰할 수 있는 도구 사용, 에이전트 오케스트레이션이 특히 필요한 차세대 AI 애플리케이션 구축 및 배포용.
  • 2기업 사용자: 대규모 재무 보고서 구문 분석, 교차 소스 검증을 통한 다단계 검색 루프 실행, 고처리량 파이프라인에서 동시 코딩 에이전트 운영과 같은 에이전트 워크플로우 확장을 위해.
  • 3엔지니어/연구원: 다중 파일 저장소 추적, 이슈 보고서에서 버그 격리, 자동화된 단위 테스트를 통과하는 기능적 코드 패치 생성과 같은 실시간 엔지니어링 작업을 위해.
  • 4콘텐츠 제작자: 텍스트 음성 변환, 음성 복제, 창의적 글쓰기 및 고급 언어 및 오디오 처리가 필요한 기타 미디어 제작 작업을 포함하는 애플리케이션용.
  • 5개인 AI 지원을 찾는 개인: 개인 AI 비서를 통한 지식 습득, 정보 검색, 언어 학습 및 코딩 지원용.

pricing

Step 3.7 Flash 가격 및 요금제

Step 3.7 Flash는 프리미엄 모델로 운영됩니다. 핵심 모델은 Apache 2.0 License 하에 오픈 소스로 제공되며, BF16, FP8, NVFP4, GGUF 가중치는 Hugging Face에서 사용할 수 있어 개발자가 자체 배포에서 모델을 무료로 활용할 수 있습니다. 개발사인 StepFun은 또한 기본 사용을 위한 무료 티어와 고급 기능, 더 높은 사용량 제한 또는 엔터프라이즈 지원을 위한 유료 티어를 포함하는 플랫폼을 제공할 가능성이 높지만, 이러한 티어에 대한 구체적인 가격은 공개적으로 상세히 설명되어 있지 않습니다. 이 모델의 Advisor Mode는 비용 효율성을 최적화하도록 설계되었으며, 활성화 시 SWE-Bench Verified에서 Claude Opus 4.6의 코딩 성능의 97%를 작업당 비용의 약 9분의 1 ($0.19 대 $1.76)로 달성한다고 주장합니다.

  • 1프리미엄: 자체 호스팅 및 개발을 위한 Apache 2.0 License 하의 핵심 모델 가중치 접근.
  • 2플랫폼 티어: StepFun의 호스팅 플랫폼 및 고급 기능에 대한 구체적인 가격은 공개되지 않았지만, 일반적으로 유료 업그레이드와 함께 무료 사용량 제한을 포함합니다.
  • 3Advisor Mode: 고비용 모델과 유사한 코딩 성능을 위해 작업당 $0.19로 추정되는 비용 최적화된 에이전트 실행.

competitors

Step 3.7 Flash 대 경쟁사

Step 3.7 Flash는 오픈 소스 특성, 고성능 멀티모달 기능, 에이전트 워크플로우에 대한 집중을 통해 AI 환경에서 독점 플랫폼 및 보다 일반화된 AI 제품과 대조적으로 차별화됩니다.

1
Google Gemini (as an agent)

Gemini is a multimodal AI model capable of understanding and operating across various data types, including images, video, and text, enabling sophisticated reasoning and direct UI control.

Similar to Step 3.7 Flash, Gemini offers real-time perception and action capabilities, particularly strong in multimodal understanding and complex decision-making. Its freemium access is typically via API for developers, allowing for the creation of custom agents.

2
AskUI Vision Agent

AskUI Vision Agent specializes in automating desktop and mobile workflows by visually understanding and interacting with graphical user interfaces at the operating system level.

This is a direct competitor focusing on the 'see and act' aspect for digital interfaces, translating visual data into low-level commands. Its specialization in GUI automation provides a focused alternative to a general 'flash-speed' agent model.

3

Skygen is an AI desktop automation agent that provides real-time visibility and runs tasks across various applications, websites, and cloud computers.

Skygen aligns closely with Step 3.7 Flash's description of a 'flash-speed agent model that can see and act' within digital environments, emphasizing real-time operation and broad application interaction. It offers a freemium model, similar to the described pricing of Step 3.7 Flash.

4
OpenAI Operator

OpenAI Operator is designed to execute multi-step actions directly within a web browser, enabling autonomous completion of complex web tasks.

While its pricing is listed as a paid 'Pro' tier rather than freemium, OpenAI Operator offers a direct functional comparison by focusing on agents that 'see' (perceive web interfaces) and 'act' (perform tasks) at speed within a browser environment.

5
Agno AI Agents

Agno AI Agents is a framework built for performance, enabling the creation of lightning-fast, production-ready AI agents with minimal startup times and a tiny footprint.

Agno directly addresses the 'flash-speed' aspect, offering a framework to build agents that are exceptionally fast and efficient. While its 'see' capability is more about perceiving digital states for action rather than explicit visual recognition, its emphasis on rapid, production-grade agent deployment makes it a strong competitor for high-performance autonomous tasks.

자주 묻는 질문

+Step 3.7 Flash는 무엇인가요?

Step 3.7 Flash는 StepFun이 개발한 멀티모달 비전-언어 모델로, AI 개발자와 기업이 고빈도 AI 애플리케이션 및 에이전트를 구축하고 배포할 수 있도록 지원합니다. 1,960억 개 매개변수 언어 백본과 18억 개 매개변수 비전 인코더를 결합하여 네이티브 이미지 및 비디오 이해를 가능하게 합니다.

+Step 3.7 Flash는 무료인가요?

Step 3.7 Flash는 프리미엄 모델로 운영됩니다. 핵심 모델은 Apache 2.0 License 하에 오픈 소스로 제공되며, Hugging Face에서 무료 자체 호스팅을 위한 가중치를 사용할 수 있습니다. 개발사인 StepFun은 또한 기본 사용을 위한 무료 티어와 고급 기능 또는 더 높은 사용량을 위한 유료 티어를 포함하는 플랫폼을 제공할 가능성이 높지만, 이러한 호스팅 서비스에 대한 구체적인 가격은 공개적으로 상세히 설명되어 있지 않습니다.

+Step 3.7 Flash의 주요 기능은 무엇인가요?

Step 3.7 Flash의 주요 기능으로는 1,980억 개 매개변수 희소 Mixture-of-Experts 아키텍처, 네이티브 멀티모달 이해 (텍스트, 이미지, 비디오), 고처리량 처리 (초당 최대 400 토큰), 256k 컨텍스트 창, 신뢰할 수 있는 도구 호출 및 오케스트레이션, 비용 효율적인 에이전트 실행을 위한 Advisor Mode가 있습니다. 또한 고급 코딩 기능을 제공하며 Apache 2.0 License 하에 오픈 소스로 제공됩니다.

+Step 3.7 Flash는 누가 사용해야 하나요?

Step 3.7 Flash는 주로 AI 개발자, 기업 사용자, 엔지니어/연구원, 콘텐츠 제작자 및 개인 AI 지원을 찾는 개인을 대상으로 합니다. AI 애플리케이션 구축 및 배포, 에이전트 워크플로우 확장, 실시간 엔지니어링 작업 수행, 텍스트 음성 변환 또는 음성 복제 애플리케이션 개발에 적합합니다.

+Step 3.7 Flash는 다른 대안과 어떻게 비교되나요?

Step 3.7 Flash는 개발자를 위한 오픈 소스 고성능 멀티모달 모델로서, 보다 통합된 사용자 경험을 제공하는 Google Gemini 및 OpenAI의 Custom GPTs와 같은 독점 플랫폼과 대조적으로 차별화됩니다. 에이전트를 구축하기 위한 플랫폼인 Agent Factory와 달리, Step 3.7 Flash는 기반 모델입니다. X.ai (Grok)와 비교할 때, Step 3.7 Flash는 오픈 소스 에이전트 기능에 중점을 두는 반면, X.ai는 실시간 데이터 통합을 통해 엔터프라이즈급 에이전트 플랫폼을 제공합니다.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.