overview
¿Qué es Step 3.7 Flash?
Step 3.7 Flash es un modelo multimodal de visión-lenguaje desarrollado por StepFun que permite a los desarrolladores de IA y a las empresas construir y desplegar aplicaciones y agentes de IA de alta frecuencia. Combina un language backbone de 196B parámetros con un vision encoder de 1.8B parámetros para la comprensión nativa de imágenes y video. Desarrollado por la startup china de IA StepFun, este modelo sparse Mixture-of-Experts (MoE) de 198 mil millones de parámetros está diseñado para cargas de trabajo de producción de alta frecuencia y casos de uso agentic. Procesa entradas de texto e imagen para producir salidas de texto, activando aproximadamente 11 mil millones de parámetros por token, y entregando un throughput de hasta 400 tokens por segundo. Sus capacidades centrales incluyen la escalada de workflows agentic que combinan percepción, búsqueda y razonamiento, como el análisis de grandes informes financieros y la ejecución de bucles de búsqueda de múltiples pasos. Step 3.7 Flash también está construido para tareas de ingeniería en vivo, capaz de rastrear repositorios de múltiples archivos, aislar bugs y generar parches de código funcionales. Sobresale en inteligencia visual, comprendiendo imágenes en varios contextos como UIs de productos, documentos y escenas naturales, y demuestra una alta fiabilidad en tool use y orquestación, liderando benchmarks como ClawEval-1.1. El modelo soporta una context window de 256k, lo que lo hace adecuado para tareas de productividad de long-context que involucran documentos extensos y grandes codebases.