overview
Qu'est-ce que Step 3.7 Flash ?
Step 3.7 Flash est un modèle vision-langage multimodal développé par StepFun qui permet aux développeurs d'IA et aux entreprises de créer et de déployer des applications et des agents d'IA à haute fréquence. Il combine un language backbone de 196 milliards de paramètres avec un vision encoder de 1,8 milliard de paramètres pour une compréhension native des images et des vidéos. Développé par la startup chinoise d'IA StepFun, ce modèle sparse Mixture-of-Experts (MoE) de 198 milliards de paramètres est conçu pour les charges de travail de production à haute fréquence et les cas d'utilisation agentiques. Il traite les entrées de texte et d'image pour produire des sorties de texte, activant environ 11 milliards de paramètres par token, et offrant un throughput allant jusqu'à 400 tokens par seconde. Ses capacités principales incluent la mise à l'échelle des workflows agentiques qui combinent la perception, la recherche et le raisonnement, tels que l'analyse de grands rapports financiers et l'exécution de boucles de recherche multi-étapes. Step 3.7 Flash est également conçu pour les tâches d'ingénierie en direct, capable de tracer des dépôts multi-fichiers, d'isoler les bugs et de générer des correctifs de code fonctionnels. Il excelle en intelligence visuelle, comprenant les images dans divers contextes comme les UIs de produits, les documents et les scènes naturelles, et démontre une grande fiabilité dans l'utilisation et l'orchestration d'outils, menant des benchmarks comme ClawEval-1.1. Le modèle prend en charge une context window de 256k, ce qui le rend adapté aux tâches de productivité à long contexte impliquant des documents étendus et de grandes bases de code.