overview
Was ist Step 3.7 Flash?
Step 3.7 Flash ist ein multimodales Visions-Sprachmodell, das von StepFun entwickelt wurde und es KI-Entwicklern und Unternehmen ermöglicht, hochfrequente KI-Anwendungen und -Agenten zu erstellen und bereitzustellen. Es kombiniert ein Sprach-Backbone mit 196 Milliarden Parametern mit einem Visions-Encoder mit 1,8 Milliarden Parametern für das native Verständnis von Bildern und Videos. Dieses von dem chinesischen KI-Startup StepFun entwickelte spärliche Mixture-of-Experts (MoE)-Modell mit 198 Milliarden Parametern ist für hochfrequente Produktions-Workloads und agentische Anwendungsfälle konzipiert. Es verarbeitet sowohl Text- als auch Bildeingaben, um Textausgaben zu erzeugen, aktiviert dabei etwa 11 Milliarden Parameter pro Token und liefert einen Durchsatz von bis zu 400 Token pro Sekunde. Zu seinen Kernfähigkeiten gehört die Skalierung agentischer Workflows, die Wahrnehmung, Suche und Argumentation kombinieren, wie das Parsen großer Finanzberichte und das Ausführen mehrstufiger Suchschleifen. Step 3.7 Flash ist auch für Live-Engineering-Aufgaben konzipiert und kann Multi-Datei-Repositories verfolgen, Fehler isolieren und funktionale Code-Patches generieren. Es zeichnet sich durch visuelle Intelligenz aus, versteht Bilder in verschiedenen Kontexten wie Produkt-UIs, Dokumenten und natürlichen Szenen und zeigt eine hohe Zuverlässigkeit bei der Werkzeugnutzung und -orchestrierung, was sich in führenden Benchmarks wie ClawEval-1.1 widerspiegelt. Das Modell unterstützt ein Kontextfenster von 256k, wodurch es für Produktivitätsaufgaben mit langem Kontext, die umfangreiche Dokumente und große Codebasen umfassen, geeignet ist.