overview
O que é o Step 3.7 Flash?
Step 3.7 Flash é um modelo multimodal de visão-linguagem desenvolvido pela StepFun que permite a desenvolvedores de IA e empresas construir e implantar aplicações e agentes de IA de alta frequência. Ele combina um language backbone de 196B parâmetros com um vision encoder de 1.8B parâmetros para compreensão nativa de imagem e vídeo. Desenvolvido pela startup chinesa de IA StepFun, este modelo sparse Mixture-of-Experts (MoE) de 198 bilhões de parâmetros é projetado para cargas de trabalho de produção de alta frequência e casos de uso agentic. Ele processa entradas de texto e imagem para produzir saídas de texto, ativando aproximadamente 11 bilhões de parâmetros por token, e entregando um throughput de até 400 tokens por segundo. Suas capacidades principais incluem o dimensionamento de workflows agentic que combinam percepção, busca e raciocínio, como a análise de grandes relatórios financeiros e a execução de loops de busca em várias etapas. Step 3.7 Flash também é construído para tarefas de engenharia ao vivo, capaz de rastrear repositórios de vários arquivos, isolar bugs e gerar patches de código funcionais. Ele se destaca em inteligência visual, compreendendo imagens em vários contextos como UIs de produtos, documentos e cenas naturais, e demonstra alta confiabilidade no uso de ferramentas e orquestração, liderando benchmarks como ClawEval-1.1. O modelo suporta uma context window de 256k, tornando-o adequado para tarefas de produtividade de longo contexto envolvendo documentos extensos e grandes codebases.