Skip to content
AI ИнструментDead Man Walking

Обзор Step 3.7 Flash

Step 3.7 Flash — это мультимодальная визуально-языковая модель, разработанная для высокочастотных производственных нагрузок и агентных сценариев использования, способная обрабатывать как текстовые, так и графические входные данные.

shipped 31 мая 2026 г.aifreemium
Step 3.7 Flash - AI tool for step flash. Professional illustration showing core functionality and features.
1Step 3.7 Flash — это разреженная визуально-языковая модель Mixture-of-Experts (MoE) со 198 миллиардами параметров.
2Она обеспечивает пропускную способность до 400 токенов в секунду и поддерживает контекстное окно размером 256k.
3Модель достигла 56,26% на SWE-Bench Pro по производительности агентного кодирования.
4Step 3.7 Flash имеет открытый исходный код под лицензией Apache 2.0, доступны веса BF16, FP8, NVFP4 и GGUF.

Stork Quadrant

Dead Man Walking· 0/100

An LLM can do most of what this tool's UI promises. No moat, no agent presence.

This is a Chinese inference-speed model competing in the most crowded lane in AI. No proprietary data, no regulatory moat, no network effects, no trust workflow ownership. Speed and price are the pitch — both erode within months as every major lab ships faster, cheaper models. This will get commoditized.

Claude Sonnet 4.6, scored 2026-05-31

Defensibility · 0/100

  • Physical-world coupling
  • Regulatory moat
  • Network liquidity
  • Proprietary refreshing data
  • High-trust catastrophic workflows
  • Multi-party coordination
  • Brand / community / taste

An LLM alone could replace

  • Generate text responses to prompts — any frontier LLM does this
  • Analyze images and describe or reason about visual content — GPT-4o, Gemini Flash do this today
  • Execute agentic tasks like browsing or form-filling — Operator, Claude, Gemini already compete here
  • Answer questions quickly at low latency — commodity inference optimization, not a moat

Agent-Readiness · 0/100

  • Verified MCP
  • Listed on agent surfaces
  • Usage-based pricing
  • Headless agent auth
  • Public OpenAPI
  • Active changelog
  • llms.txt

How to defend

Pick a vertical where Chinese-language enterprise compliance or specific regional data access matters, and own that workflow end-to-end with liability attached. Otherwise, become an API layer that agents call rather than a product users visit.

  • Ship an MCP server and list it on Stork — biggest single point gain (+25).
  • Get listed in the Anthropic MCP registry, Cursor, or Claude Desktop (+20).
  • Add a usage-based or per-call tier; per-seat-only pricing dies when agents replace seats (+15).
  • Expose API-key auth with a self-serve sandbox tier; remove sales-call gates (+15).
  • Publish an OpenAPI spec at /openapi.json or /.well-known/openapi (+10).

Step 3.7 Flash at a Glance

Best For
product-hunt
Pricing
freemium
Key Features
Released on May 28, 2026, Step 3.7 Flash is a 198-billion-parameter sparse MoE model. · It features a 256k context window and activates approximately 11 billion parameters per token during inference. · The model achieved a second-place finish on SWE-Bench PRO with a score of 56.3.
Alternatives
Google Gemini (as an agent), AskUI Vision Agent, Skygen, OpenAI Operator

About Step 3.7 Flash

Founded
2023
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/step-3-7-flash" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/step-3-7-flash?style=dark" alt="Step 3.7 Flash - Featured on Stork.ai" height="36" /></a>
[![Step 3.7 Flash - Featured on Stork.ai](https://www.stork.ai/api/badge/step-3-7-flash?style=dark)](https://www.stork.ai/en/step-3-7-flash)

overview

Что такое Step 3.7 Flash?

Step 3.7 Flash — это мультимодальная визуально-языковая модель, разработанная StepFun, которая позволяет разработчикам ИИ и предприятиям создавать и развертывать высокочастотные ИИ-приложения и агенты. Она сочетает в себе языковую основу с 196 миллиардами параметров и визуальный кодировщик с 1,8 миллиардами параметров для нативного понимания изображений и видео. Разработанная китайским стартапом в области ИИ StepFun, эта разреженная модель Mixture-of-Experts (MoE) со 198 миллиардами параметров спроектирована для высокочастотных производственных нагрузок и агентных сценариев использования. Она обрабатывает как текстовые, так и графические входные данные для получения текстовых выходных данных, активируя примерно 11 миллиардов параметров на токен и обеспечивая пропускную способность до 400 токенов в секунду. Ее основные возможности включают масштабирование агентных рабочих процессов, которые сочетают восприятие, поиск и рассуждение, такие как анализ больших финансовых отчетов и выполнение многошаговых циклов поиска. Step 3.7 Flash также создана для инженерных задач в реальном времени, способна отслеживать репозитории с несколькими файлами, изолировать ошибки и генерировать функциональные патчи кода. Она превосходно справляется с визуальным интеллектом, понимая изображения в различных контекстах, таких как пользовательские интерфейсы продуктов, документы и природные сцены, и демонстрирует высокую надежность в использовании инструментов и оркестрации, лидируя в таких бенчмарках, как ClawEval-1.1. Модель поддерживает контекстное окно размером 256k, что делает ее подходящей для задач продуктивности с длинным контекстом, включающих обширные документы и большие кодовые базы.

quick facts

Краткие факты

АтрибутЗначение
РазработчикStepFun
Бизнес-модельFreemium (ядро с открытым исходным кодом)
ЦенообразованиеFreemium
ПлатформыAPI, NVIDIA NIM, vLLM, SGLang, Hugging Face Transformers, llama.cpp
API доступенДа
ИнтеграцииNVIDIA NIM, vLLM, SGLang, Hugging Face Transformers, llama.cpp
Основана2023
Штаб-квартираШанхай, Китай

features

Ключевые особенности Step 3.7 Flash

Step 3.7 Flash включает в себя набор передовых функций, разработанных для высокопроизводительной разработки ИИ-приложений и агентных операций. Ее архитектура и возможности адаптированы для решения сложных мультимодальных задач и требовательных производственных сред.

  • 1Разреженная архитектура Mixture-of-Experts (MoE) со 198 миллиардами параметров для эффективной обработки.
  • 2Нативное мультимодальное понимание, обработка текстовых, графических и видеовходов.
  • 3Высокопроизводительная обработка, достигающая до 400 токенов в секунду.
  • 4Контекстное окно 256k, позволяющее анализировать длинные документы и большие кодовые базы.
  • 5Надежный вызов инструментов и оркестрация, продемонстрированные лидирующими бенчмарками ClawEval-1.1.
  • 6Расширенное масштабирование агентных рабочих процессов, интегрирующее возможности восприятия, поиска и рассуждения.
  • 7Реализация Advisor Mode для экономически эффективных агентных циклов, переходящих к более крупным моделям только в критических точках.
  • 8Доступность с открытым исходным кодом под лицензией Apache 2.0, с весами BF16, FP8, NVFP4 и GGUF.
  • 9Интеграция с микросервисами инференса NVIDIA NIM, vLLM, SGLang, Hugging Face Transformers и llama.cpp.
  • 10Улучшенное кодирование и генерация фронтенда, оценка 56,26% на SWE-Bench Pro и 72,42% на SWE-MTLG.

use cases

Кому следует использовать Step 3.7 Flash?

Step 3.7 Flash в первую очередь предназначен для технических пользователей и организаций, которым требуются надежные, высокопроизводительные модели ИИ для сложных мультимодальных приложений и агентных систем. Ее возможности отвечают специфическим потребностям разработки и эксплуатации в различных секторах.

  • 1Разработчики ИИ: Для создания и развертывания ИИ-приложений нового поколения, особенно тех, которые требуют мультимодального понимания, надежного использования инструментов и оркестрации агентов.
  • 2Корпоративные пользователи: Для масштабирования агентных рабочих процессов, таких как анализ больших финансовых отчетов, выполнение многошаговых циклов поиска с перекрестной проверкой источников и управление параллельными агентами кодирования в высокопроизводительных конвейерах.
  • 3Инженеры/Исследователи: Для инженерных задач в реальном времени, включая отслеживание репозиториев с несколькими файлами, изоляцию ошибок из отчетов о проблемах и генерацию функциональных патчей кода, которые проходят автоматизированные модульные тесты.
  • 4Создатели контента: Для приложений, включающих преобразование текста в речь (text-to-speech), клонирование голоса (voice cloning), творческое письмо и другие задачи медиапроизводства, требующие расширенной обработки языка и аудио.
  • 5Лица, ищущие персональную помощь ИИ: Для получения знаний, поиска информации, изучения языков и поддержки кодирования через персонального ИИ-помощника.

pricing

Цены и планы Step 3.7 Flash

Step 3.7 Flash работает по модели freemium. Основная модель имеет открытый исходный код под лицензией Apache 2.0, с весами BF16, FP8, NVFP4 и GGUF, доступными на Hugging Face, что позволяет разработчикам бесплатно использовать модель в своих развертываниях. StepFun, разработчик, также предоставляет платформу, которая, вероятно, включает бесплатные уровни для базового использования и платные уровни для расширенных функций, более высоких лимитов использования или корпоративной поддержки, хотя конкретные цены для этих уровней публично не детализированы. Режим Advisor Mode модели разработан для оптимизации экономической эффективности, заявляя 97% производительности кодирования Claude Opus 4.6 на SWE-Bench Verified при примерно одной девятой стоимости за задачу ($0.19 против $1.76) при включении.

  • 1Freemium: Доступ к основным весам модели под лицензией Apache 2.0 для самостоятельного хостинга и разработки.
  • 2Уровни платформы: Конкретные цены для размещенной платформы StepFun и расширенных функций публично не раскрываются, но обычно включают бесплатные лимиты использования с платными обновлениями.
  • 3Advisor Mode: Оптимизированное по стоимости агентное выполнение, оцениваемое в $0.19 за задачу для производительности кодирования, сравнимой с более дорогими моделями.

competitors

Step 3.7 Flash против конкурентов

Step 3.7 Flash выделяется в ландшафте ИИ благодаря своей открытой природе, высокопроизводительным мультимодальным возможностям и акценту на агентных рабочих процессах, что отличает ее от проприетарных платформ и более общих предложений ИИ.

1
Google Gemini (as an agent)

Gemini is a multimodal AI model capable of understanding and operating across various data types, including images, video, and text, enabling sophisticated reasoning and direct UI control.

Similar to Step 3.7 Flash, Gemini offers real-time perception and action capabilities, particularly strong in multimodal understanding and complex decision-making. Its freemium access is typically via API for developers, allowing for the creation of custom agents.

2
AskUI Vision Agent

AskUI Vision Agent specializes in automating desktop and mobile workflows by visually understanding and interacting with graphical user interfaces at the operating system level.

This is a direct competitor focusing on the 'see and act' aspect for digital interfaces, translating visual data into low-level commands. Its specialization in GUI automation provides a focused alternative to a general 'flash-speed' agent model.

3

Skygen is an AI desktop automation agent that provides real-time visibility and runs tasks across various applications, websites, and cloud computers.

Skygen aligns closely with Step 3.7 Flash's description of a 'flash-speed agent model that can see and act' within digital environments, emphasizing real-time operation and broad application interaction. It offers a freemium model, similar to the described pricing of Step 3.7 Flash.

4
OpenAI Operator

OpenAI Operator is designed to execute multi-step actions directly within a web browser, enabling autonomous completion of complex web tasks.

While its pricing is listed as a paid 'Pro' tier rather than freemium, OpenAI Operator offers a direct functional comparison by focusing on agents that 'see' (perceive web interfaces) and 'act' (perform tasks) at speed within a browser environment.

5
Agno AI Agents

Agno AI Agents is a framework built for performance, enabling the creation of lightning-fast, production-ready AI agents with minimal startup times and a tiny footprint.

Agno directly addresses the 'flash-speed' aspect, offering a framework to build agents that are exceptionally fast and efficient. While its 'see' capability is more about perceiving digital states for action rather than explicit visual recognition, its emphasis on rapid, production-grade agent deployment makes it a strong competitor for high-performance autonomous tasks.

Часто задаваемые вопросы

+Что такое Step 3.7 Flash?

Step 3.7 Flash — это мультимодальная визуально-языковая модель, разработанная StepFun, которая позволяет разработчикам ИИ и предприятиям создавать и развертывать высокочастотные ИИ-приложения и агенты. Она сочетает в себе языковую основу с 196 миллиардами параметров и визуальный кодировщик с 1,8 миллиардами параметров для нативного понимания изображений и видео.

+Step 3.7 Flash бесплатна?

Step 3.7 Flash работает по модели freemium. Основная модель имеет открытый исходный код под лицензией Apache 2.0, с весами, доступными на Hugging Face для бесплатного самостоятельного хостинга. StepFun, разработчик, также предлагает платформу, которая, вероятно, включает бесплатные уровни для базового использования и платные уровни для расширенных функций или более высокого использования, хотя конкретные цены на эти размещенные услуги публично не детализированы.

+Каковы основные особенности Step 3.7 Flash?

Ключевые особенности Step 3.7 Flash включают разреженную архитектуру Mixture-of-Experts со 198 миллиардами параметров, нативное мультимодальное понимание (текст, изображение, видео), высокопроизводительную обработку (до 400 токенов/секунду), контекстное окно 256k, надежный вызов инструментов и оркестрацию, а также режим Advisor Mode для экономически эффективного агентного выполнения. Она также предлагает расширенные возможности кодирования и имеет открытый исходный код под лицензией Apache 2.0.

+Кому следует использовать Step 3.7 Flash?

Step 3.7 Flash в первую очередь предназначен для разработчиков ИИ, корпоративных пользователей, инженеров/исследователей, создателей контента и лиц, ищущих персональную помощь ИИ. Он подходит для создания и развертывания ИИ-приложений, масштабирования агентных рабочих процессов, выполнения инженерных задач в реальном времени и разработки приложений для преобразования текста в речь или клонирования голоса.

+Как Step 3.7 Flash сравнивается с альтернативами?

Step 3.7 Flash отличается как высокопроизводительная мультимодальная модель с открытым исходным кодом для разработчиков, что контрастирует с проприетарными платформами, такими как Google Gemini и Custom GPTs от OpenAI, которые предлагают более интегрированный пользовательский опыт. В отличие от Agent Factory, которая является платформой для создания агентов, Step 3.7 Flash — это базовая модель. По сравнению с X.ai (Grok), Step 3.7 Flash фокусируется на агентных возможностях с открытым исходным кодом, в то время как X.ai предоставляет корпоративные агентные платформы с интеграцией данных в реальном времени.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.