TL;DR / Key Takeaways
Der KI-Agent, der keine Cloud benötigt
Microsoft hat gerade einen Pflock in die cloud-first KI mit Fara-7B eingeschlagen, einem Modell mit 7 Milliarden Parametern für "Computerverwendung", das direkt auf Ihrem Gerät läuft. Kein GPT-4-großer Backend, kein ausladender Cluster von Hilfsagenten, nur ein einziges Netzwerk, das Ihren Bildschirm betrachtet, um zu entscheiden, was als Nächstes zu tun ist. Für eine Kategorie, die durch massive Serverfarmen gelebt und gestorben ist, ist das ein echter Bruch mit der Tradition.
Bestehende KI-Agenten verhalten sich wie Fernbedienungszentralen: Jedes Screenshot wird in die Cloud gestreamt, ein großes Modell bearbeitet es, ein Netz von Modellen plant, visioniert und führt Fehlerbehebungen durch. Dieses Design benötigt viel Bandbreite, erhöht die Latenz und summiert pro Aufgabe Kosten, die nur für Unternehmen sinnvoll sind. Für reguläre Nutzer wirken cloudgebundene Agenten in Demos beeindruckend, sind jedoch im täglichen Gebrauch schmerzhaft.
Fara-7B behebt dieses Engpassproblem, indem es den gesamten Stapel in ein vereinheitlichtes Modell zusammenführt. Es verarbeitet rohe Screenshots, sagt verankerte Pixelkoordinaten voraus und gibt Aktionen in einem einzigen Durchgang aus, ohne eine Zugriffsbaum-Analyse oder eine Kette von Planungs-, Sicht- und Werkzeugnutzungsmodellen. Microsoft berichtet, dass es im WebVoyager-Benchmark vollständige Aufgaben für etwa 0,025 $ abschließt, im Gegensatz zu etwa 0,30 $ für Agenten, die auf massiven GPT-ähnlichen Denkmodellen basieren.
Lokale Ausführung verändert das Erlebnis ebenso wie die Wirtschaftlichkeit. Das Ausführen auf dem Gerät reduziert die Rücklaufverzögerung erheblich, da nichts die Maschine verlassen muss. Es hält sensible Browsing-Daten, Logins und Dokumente standardmäßig aus Remote-Logs fern. Für Laptops, Desktops und schließlich Smartphones skizziert Fara-7B eine Zukunft, in der Ihr „KI-Co-Pilot“ mehr wie eine installierte App als wie ein Remote-Abonnement agiert.
Dies ist nicht nur eine Modellkompression; es ist ein strategischer Wechsel hin zu effizienter, praktischer KI. Fara-7B erreicht 73,5% bei WebVoyager und 38,4% bei WebTailBench und kommt damit nahe an viel größerer Systeme heran, während es etwa ein Zehntel der Ausgabetoken verwendet. Diese Kombination aus kleinerer Größe, starker Leistung und äußerst niedrigem Tokenverbrauch signalisiert eine neue Wettbewerbsfront: Wer kann kompetente Agenten liefern, die lokal, kostengünstig und privat betrieben werden?
Microsoft hat gerade dieses Feld eröffnet. OpenAI, Google, Alibaba, die jetzt schwere Cloud-Agents entwickeln, müssen eine klare Frage beantworten: Warum sollte dieses Not a proper noun nicht auf dem Gerät Not a proper noun laufen?
Wie Microsoft einen Agenten mit Diät entwickelt hat
Der Agent von Microsoft beginnt mit einer brutalen, einfachen Idee: ein Modell, ein Gehirn, keine Stützstruktur. Fara-7B jongliert kein Planungsmodell, kein Sichtmodell, keinen Werkzeugsrouter und keinen separaten Ausführer. Er nimmt einen Screenshot und die Aufgabenbeschreibung auf und gibt direkt verwurzelte Aktionen aus—hier klicken, dies eintippen, dort scrollen—ohne durch ein Labyrinth von Hilfssystemen zu jonglieren.
Die meisten „KI-Agenten“-Stapel ähneln heute Rube-Goldberg-Maschinen. Ein großes Problemlösungsmodell interpretiert das Ziel, ein anderes analysiert den Zugriffsbaum, ein weiteres kümmert sich um die visuelle Wahrnehmung und ein weiteres validiert jeden Schritt. Fara-7B entfällt auf all das und entfernt die Orchestrierungsschicht, die oft zum eigentlichen Engpass wird, nicht das Modell selbst.
Nicht als ein Eigenname für das Parsen des DOM oder des Zugänglichkeitsbaums zur Inferenzzeit, arbeitet Fara-7B direkt mit Pixeln. Es sieht denselben Screenshot, den ein Mensch sieht, und sagt dann Pixelkoordinatenaktionen voraus, die auf sichtbare Elemente ausgerichtet sind. Diese Umgehung beseitigt zerbrechliche Abhängigkeiten von site-spezifischen Zugänglichkeitsmetadaten, die bei benutzerdefinierten Widgets, pixelintensiven UIs und schlecht gekennzeichneten Unternehmensdashboards brechen.
Screenshot-first-Design eröffnet auch eine klarere Bereitstellungsgeschichte. Jede App, die den Bildschirm erfassen kann – Desktop, Browsererweiterung, VDI-Client – kann Fara-7B ohne Integration in die internen Strukturen jeder Website speisen. Für abgeschottete Unternehmensumgebungen, in denen Barrierefreiheitslösungen inkonsistent oder deaktiviert sind, ist dies der einzige praktikable Weg.
Die Kosten sind der Bereich, in dem der architektonische Wandel spürbar wird. Microsoft schätzt, dass eine vollständige Aufgabe mit Fara-7B etwa 0,025 $ kostet, im Vergleich zu rund 0,30 $ für GPT-4-ähnliche Agenten, die auf GPT-4.1 oder o3-niveaubasierte Modelle setzen. Diese 12-fache Differenz stammt aus zwei Gründen: Ein 7B-Modell ist günstig im Betrieb, da Fara-7B nur etwa ein Zehntel der Ausgabe-Token dieser schweren Agenten verwendet.
Im WebVoyager-Benchmark verbraucht Fara-7B Berichten zufolge etwa 124.000 Eingabetokens und nur 1.100 Ausgabetokens pro Aufgabe. Multi-Agenten-GPT-4-Stacks erzeugen ausführliche Denkprozesse, Werkzeugkontexte und Selbstreflexionen, die als abrechnungspflichtige Tokens zählen. Die kompakten, handlungsorientierten Ausgaben von Fara-7B führen direkt zu niedrigeren Rechnungen und weniger Latenz.
Für reguläre Nutzer sind IT-Teams diese Einfachheit wichtiger als ein paar Prozentpunkte mehr auf einer Bestenliste. Ein einfaches Modell lässt sich leichter auf Laptops bereitstellen, auf Edge-Geräten verwalten und hinsichtlich Datenschutz auditieren als eine riesige, nur auf die Cloud ausgerichtete Agentenfarm. Günstiger, schneller und autark schlägt clever, aber unhandlich jedes Mal.
KI trainieren, ohne die Nutzer auszuspionieren
Microsoft hat etwas Ungewöhnliches mit den Trainingsdaten von Fara-7B gemacht: Das Unternehmen versuchte, die menschliche Überwachung vollständig zu umgehen. Ohne ordnungsgemäße Erfassung von Benutzerklicks, Scraping von Browserverläufen oder Bildschirmaufzeichnungen baute das Unternehmen Fara-7B, eine Fabrik für synthetische Daten, die darauf ausgelegt ist, das Modell mit realistischen Spuren der Computernutzung zu versorgen, ohne echte Nutzersitzungen zu berühren.
Fara-7B funktioniert, indem es KI-Agenten ins offene Web entsendet, nicht in gereinigte, künstliche Umgebungen. Diese Agenten durchforsten mehr als 70.000 Web-Domains, von Einkaufsseiten bis hin zu Dokumentationsseiten, und führen konkrete Aufgaben vollständig aus: suchen, scrollen, klicken, tippen, navigieren, einreichen.
Sitzungen sehen absichtlich unordentlich aus. Agenten klicken versehentlich, öffnen die falsche Seite, gehen zurück, versuchen es erneut, passen Filter an, verfeinern Abfragen. Dieses Durcheinander ist wichtig, denn Fara-7B muss lernen, in derselben chaotischen Benutzererfahrung zu operieren, mit der menschliche Nutzer konfrontiert sind, und nicht in einem kuratierten Demoflow.
Rohsynthetische Daten allein wären eine Trugschlussfalle, daher hat Microsoft eine strenge Verifizierungsschicht hinzugefügt. Jede generierte Sitzung durchläuft drei separate KI-Richter, die jeweils einen anderen Aspekt der Qualitäts- und Alignmentbewertung beurteilen.
Die Richter überprüfen, ob: - Jede logische Schrittfolge aus dem vorherigen folgt - Die Aktionen mit dem, was sichtbar auf der Seite ist, übereinstimmen - Die endgültige Antwort tatsächlich die ursprüngliche Aufgabe erfüllt
Alles, was bei einer Prüfung scheitert, wird ausgeschlossen. Nach dieser Triage behielt Microsoft 145.631 verifizierte Sitzungen, die mehr als 1 Million individuelle Aktionen umfassten. Nur dieses gefilterte Subset wurde verwendet, um die Verhaltensrichtlinie von Fara-7B zu trainieren. Der Prozess ist im Fara-7B: Ein effizientes agentisches Modell für die Computernutzung - Microsoft Research im Detail beschrieben.
Stellen Sie dies dem üblichen Handbuch der Branche gegenüber. Viele agentische Systeme basieren auf: - Teuren Protokollen menschlicher Interaktionen aus echten Produkten - Instrumentierten Browsern, die DOM, Klicks, Scrollvorgänge erfassen - Vollständigen Bildschirm- oder Sitzungsaufzeichnungen
Diese Pipelines werfen offensichtliche Datenschutzbedenken auf. Eine massive Infrastruktur zum Sammeln, Speichern und Bereinigen von Nutzerdaten. Der Ansatz von Fara-7B tauscht dies gegen compute-intensive Simulation und automatisierte Bewertungen ein, indem GPU-Zeit in synthetische, aber streng kontrollierte Trainingsdaten umgewandelt wird.
Ergebnis: Fara-7B lernt, wie sich echtes Surfen anfühlt – Fehler, Sackgassen, Rückgewinnungen – ohne dass Microsoft jemandes tatsächlichen Desktop ausspionieren muss.
Dieser winzige Agent hat mehr drauf, als man denkt.
Benchmarks zeigen nicht-modelle. Fara-7B nutzt sie als Flex. Auf WebVoyager erzielt Microsofts kompakter Agent eine Erfolgsquote von 73,5% und benötigt dabei ungefähr 124.000 Eingabetokens und nur 1.100 Ausgabetokens pro Aufgabe. Dieses Profil macht jeden vollständigen Durchlauf etwa 0,025 USD teuer, verglichen mit ungefähr 0,30 USD für Agentenstapel, die von Modellen für das Denken im GPT-4.1-Stil betrieben werden.
Online-Mind2Web, ein Benchmark, der entwickelt wurde, um chaotische, reale Web-Workflows zu testen, zeigt ein ähnliches Muster. Fara-7B erreicht 34,1%, was nicht beeindruckend klingt, bis man berücksichtigt, dass es gegen Modelle mit 10 bis 20 Mal so vielen Parametern antritt. Diese Systeme benötigen weit mehr Kontext-Output-Token, nur um den Zustand über die Schritte hinweg zu verfolgen.
WebTailBench ist der Ort, an dem Microsoft die Argumentation schärft. Dieses neue Benchmark konzentriert sich auf unterrepräsentierte, aber schmerzlich häufige Aufgaben: - Bewerbungen über mehrere Portale - Immobiliensuchen mit gefilterten Kartenansichten - Vergleiche über mehrere Standorte für Produkte und Dienstleistungen
Auf WebTailBench erzielt Fara-7B 38,4 % und übertrifft damit komfortabel den bisherigen besten 7B-Klassen-Agenten, ohne in das Gebiet viel größerer proprietärer Stapel vorzudringen. Diese Aufgaben erfordern nicht nur eine Zusammenfassung von Texten, sondern auch fundierte, pixelgenaue Entscheidungen – das richtige „Bewerben“-Button zu finden, durch Seiten zu navigieren und Anmeldungen zu jonglieren.
Effizienz ist die andere Hälfte der Geschichte. Fara-7B verwendet etwa ein Zehntel der Ausgabetoken schwergewichtiger Agentensysteme, während es diese in mehreren WebVoyager WebTailBench-Aufgaben gleichwertig oder sogar übertrifft. Weniger Modellparameter, kürzere Trajektorien und keine Orchestrierungsebene bedeuten niedrigere Latenz und dramatisch geringere Kosten.
Insgesamt untergraben diese Zahlen die Annahme, dass nur 70B-plus Giganten ernsthafte Automatisierung im Bereich Computer-Nutzung liefern können. Fara-7B zeigt, dass spezialisierte Agenten moderne Ergebnisse bei realistischen Webaufgaben liefern können, während sie kostengünstig genug bleiben, um lokal privat und in großem Maßstab betrieben zu werden.
Die KI, die sich erinnert, was als Nächstes passiert
Weltmodelle sind diese Woche von Forschungsarbeiten zur Realität geworden mit dem neuen System von MBZ UAI, cNot ein Eigenname Pan, Nicht ein Eigenname, das stillschweigend umschreibt, was „Video-AI“ bedeutet. Nicht ein Eigenname, das nur einen hübschen Clip generiert, Nicht ein Eigenname, das alles vergisst. Pan führt eine fortlaufende Simulation durch, die über Eingabeaufforderungen, Frames, Nicht ein Eigenname vollständige Sequenzen hinweg dauerhaft bleibt. Denken Sie weniger an es als an eine Kamera, Nicht ein Eigenname, sondern eher an ein winziges, steuerbares Universum.
Traditionelle Text-zu-Video-Modelle verhalten sich wie Goldfische: Man gibt eine Eingabe ein, sie visualisieren 4–8 Sekunden Filmmaterial und dann wird das Gedächtnis hart zurückgesetzt. Es gibt keinen internen Zustand, der erhalten bleibt, sodass ein Folgeprompt wie "Jetzt nach links drehen" einfach eine brandneue Szene erzeugt, die lose mit den Worten übereinstimmt. Sie generieren Pixel, keine Konsequenzen.
Pan fällt in eine ganz andere Kategorie: ein Weltmodell. Weltmodelle halten eine interne Darstellung von Objekten, Agenten und Umgebungen, keine Eigennamen, aufrecht und aktualisieren diese Darstellung, während Aktionen sich entfalten. Das Video, das Sie sehen, ist lediglich eine Darstellung dieses verborgenen Zustands, nicht das eigentliche Produkt.
Bitte Pan, ein Auto auf einer Stadtstraße erscheinen zu lassen. Sage „nach links abbiegen“. Pan zeichnet ein Auto nicht einfach aus einem neuen Winkel neu. Es wendet eine Rotation an, ändert die Trajektorie innerhalb seiner Simulation und rendert dann den aktualisierten Zustand als den nächsten Videoabschnitt.
Ausgeben Sie eine weitere Mitteilung. Keine Eigennamen wie „beschleunigen“. Kein Eigennamen; dasselbe interne Auto beschleunigt auf derselben Straße mit konsistenter Beleuchtung, Anordnung und Kameraführung. Sie können Anweisungen verknüpfen:
- 1„Biegen Sie links ab“
- 2„Beschleunigen“
- 3„Halt an der roten Ampel“
- 4„Lassen Sie den Fußgänger überqueren“
Pan betrachtet jedes als weiteren Punkt in einer durchgehenden Zeitachse, nicht als vier voneinander getrennte Eingaben.
Diese Kontinuität ist genau das, was die meisten aktuellen Generatoren brechen. Sie optimieren für einmalige Kohärenz – scharfe Bilder, filmische Bewegungen, auffälligen Stil – während Charaktere subtil morphieren, Requisiten teleportiert werden und Raumlayouts zwischen Clips driften. Das Weltmodell von Pan kehrt die Priorität um: Erhalte den Zustand, dann ziehe das Video darauf auf.
Hinter den Kulissen stützt sich Pan auf einen Denk-Kern, der rund um Qwen2.5-VL-7B aufgebaut ist, eine Video-Grundlage, die aus Hunyuan-Video (Qwen2.1-T2V-14B-Klassentechnologie) adaptiert wurde, um sowohl Logik als auch visuelle Elemente synchron zu halten. Die Seite des Denkens verfolgt, was existiert und wie es sich bewegt; die Video-Seite visualisiert lediglich dieses sich entwickelnde Protokoll.
Sequentielle Kommunikationsmuster – Kein Eigenname wie „Bewege den Roboterarm zum roten Block“ und dann „Hebe ihn auf“ testet, ob ein System wirklich erinnert. Pan besteht, weil der rote Block, seine Koordinaten und die Pose des Arms in dieser beständigen internen Welt leben, bereit für das, was du ihm als Nächstes aufträgst.
Eine Welt erschaffen, einen Rahmen nach dem anderen
Pan läuft wie ein zusammengenähtes Gehirn. MBZ UAI hat Quen 2.5 VL 7B als den Denk-Kern eingebaut, der Anweisungen, Physik und Objektbeziehungen verarbeitet und dann einen strukturierten „Weltzustand“ an Juan 2.1 T2V 14B überträgt, einen Text-zu-Video-Dekoder, der für scharfe, kohärente Bilder optimiert ist. Diese Trennung hält Logik und visuelle Elemente voneinander entkoppelt, sodass stilistische Entscheidungen niemals durcheinanderbringen, wo sich Objekte befinden oder wie sie sich bewegen.
Nicht ein Eigenname für das Ausspielen von Video in einem fragilen Durchgang, stützt sich Pan auf ein System, das das Team cNot a proper nouns causal swind dpm nennt. Denken Sie daran wie an ein Förderband: Jede Aufnahme kommt als rauschende latente Frames an, wird zu sauberem Video verfeinert und wird dann als Geschichte gesperrt, die zukünftige Segmente respektieren müssen. Neue Segmente können nur auf vergangene Frames basieren, niemals in die Zukunft schauen, was die ruckartigen Teleports und Kontinuitätsbrüche verhindert, die lange Videomodelle plagen.
Causal Swind DPM fügt auch eine Wendung hinzu: kontrolliertes Rauschen im Bedingungsrahmen. Indem das Referenzbild leicht verfälscht wird, hört Pan auf, sich auf pixelgenaue Details wie Texturflimmern zu konzentrieren. Stattdessen liegt der Fokus auf der Struktur—Objektpositionen, Bewegungsvektoren und Interaktionsmuster. Diese Neigung zur Geometrie über Glanz ist der Grund, warum ein Roboterarm, ein Auto oder ein Charakter über Dutzende von Schritten hinweg bestehen kann, ohne in ein off-model Durcheinander zu zerfließen.
Nichts davon ist günstig. MBZ UAI hat den Video-Decoder auf einem Cluster von 960 NVIDIA H200 GPUs trainiert, einer Art von Setup, das normalerweise für fortschrittliche LLMs reserviert ist, nicht für eine akademische Demo. Sie verwendeten ein Flow-Matching-Ziel für den Diffusions-Decoder, kombiniert mit Optimierungen wie FlashAttention-3 und sharded data-parallel training, um die Gradienten im großen Maßstab in Bewegung zu halten.
Quen 2.5 hat nicht einfach nur gelernt, Eingaben zu wiederholen; es hat Ursache-Wirkung studiert. Das Team hat Datensätze zusammengestellt, in denen Handlungen zu sichtbaren Ergebnissen führen: Türen öffnen sich, wenn Knöpfe gedrückt werden, Flüssigkeiten verschütten, wenn Tassen kippen, Drohnen treiben ab, wenn sich der Wind ändert. Diese Neigung zeigt sich, wenn Pan weiterhin simuliert, nachdem Befehle wie „nach links drehen“, „beschleunigen“ oder „den blauen Block auf den roten legen“ gegeben wurden, ohne die Szene jedes Mal zurückzusetzen.
Diese Trainingsphilosophie spiegelt wider, was Microsoft mit Fara-7B im Webbereich gemacht hat, indem Agenten in langfristige Trajektorien verankert werden, nicht in einzelnen Schnappschüssen. Jeder, der sehen möchte, wie dieser Ansatz in einem kompakten Computerbenutzungsmodell aussieht, kann das Fara-7B-Modell auf Hugging Face einsehen. Pan wendet einfach dieselbe Besessenheit für Kontinuität auf Pixel an, nicht auf physikalische Einheiten, nicht auf Browser-Tabs.
Die Riesen Wachen Mit Neuen Tricks Auf
Giganten der Branche ersetzen heimlich generische Chatbots durch hochspezialisierte Werkzeuge, die tatsächlich Dinge erledigen. Statt eines einheitlichen Modells, das versucht, jede Anfrage zu beantworten, schaffen Unternehmen KI-gestützte Systeme mit spezifischem Zweck: Agenten, die durch Webanwendungen navigieren, Modelle, die Welten über die Zeit simulieren, und Assistenten, die für Einkäufe, Studium oder Surfen optimiert sind. Fara-7B Pan sind keine Ausnahmen; sie sind frühe Anzeichen eines Wandels hin zu aufgabenorientierter KI.
Googles Schritt mag oberflächlich subtil erscheinen: Interaktive Bilder innerhalb von Gemini. Darunter verbirgt sich ein strategisches Spiel, um zu bestimmen, wie Schüler, Hobbyisten und Fachleute aus visuellen Materialien lernen. Tippen Sie auf ein Physikdiagramm, und Gemini hebt Kräfte hervor, beschriftet Komponenten und erläutert schrittweise das Denken, anstatt einfach eine statische Erklärung bereitzustellen.
Bildung macht dies besonders mächtig. Ein Biologiestudent kann auf ein Anatomie-Diagramm zeigen, erhält mehrschichtige Erklärungen, quizartige Aufforderungen und Folgefragen, die an spezifische Bereiche des Bildes gebunden sind. Lehrkräfte können ein Diagramm in Gemini ziehen und sofort interaktive Lektionen, Aufgaben und Variationen generieren, die an dasselbe visuelle Element angelehnt sind.
Diese Interaktivität trägt direkt zur Lock-in-Effekte von Googles Ecosystem bei. Interaktive Bilder funktionieren am besten, wenn man sich im Orbit von Gemini, Google Docs und Google Classroom aufhält. Jedes annotierte Diagramm, jede geteilte Arbeitsblatt, jede gespeicherte Sitzung wird zu einem weiteren Grund, warum Schulen und Kreative ihre Inhalte und ihre Nutzer innerhalb von Googe's Lernstack halten.
Perplexity drängt in eine andere, präzise Richtung: den Handel. Sein neuer konversationaler Einkaufsassistent verwandelt die Produktsuche in einen fortlaufenden Dialog, der Ihre Vorlieben im Laufe der Zeit berücksichtigt. Anstatt für jeden Einkauf eine neue Anfrage zu stellen, erstellen Sie ein dauerhaftes Profil aus Marken, Größen, Budgets und Dealbreakern, die der Assistent diskret anwendet.
Diese Ausdauer ist entscheidend, wenn Sie von „Finden Sie mir einen Laptop“ zu „Ich brauche eine leise, 14-Zoll-Maschine unter 1.200 Dollar, die kühl läuft und großartigen Linux-Support bietet“ übergehen. Das System von Perplexity verhandelt Abwägungen, bezieht Informationen aus mehreren Einzelhändlern und behält den Kontext über Tage oder Wochen hinweg, während Sie verfeinern, was Sie wollen. Es verhält sich weniger wie eine Suchmaschine und mehr wie ein persönlicher Einkäufer, der in Ihrem Browser eingebettet ist.
Kein Eigenname übt direkten Druck auf OpenAIs verallgemeinerten Ansatz aus. Während OpenAI über Agenten und GPTs in groben Zügen spricht, bringen Konkurrenten eng umrahmte Werkzeuge auf den Markt, die sich in tägliche Arbeitsabläufe einfügen: Lernen, Einkaufen, Surfen, Bauen. KI wandelt sich vom „Antwortkasten“ zur Infrastruktur, und die Unternehmen, die gewinnen werden, sind diejenigen, deren Modelle sich weniger wie Chatbots anfühlen und mehr wie integrierte Funktionen der Apps, in denen man bereits lebt.
Ihr nächster KI-Assistent könnte Ihre Brille sein.
Alibaba setzt darauf, dass Ihr nächster KI-Assistent auf Ihrem Gesicht sitzt und nicht in Ihrer Tasche. Die neue Cork S1 G1 Smart-Glasreihe, die in ganz China auf den Markt gebracht wurde, sieht weniger wie Sci-Fi-Prototypen aus und mehr wie Hardware, die bereit ist, neben Smartphones und Ohrhörern verkauft zu werden.
Beide Modelle setzen stark auf Echtzeitwahrnehmung. Richten Sie Ihren Blick auf ein Menü, ein Plakat oder eine U-Bahn-Karte, und die Brille blendet sofortige Übersetzungen ein, die Englisch in Chinesisch oder umgekehrt in weniger als einer Sekunde umwandeln. Visuelles Q&A ermöglicht es Ihnen, ein Produktetikett, eine Ladenfront oder ein Dokument anzusehen und Fragen in natürlicher Sprache zu stellen, wobei die Antworten in Ihrem Sichtfeld erscheinen oder über Knochenleitungsakustik ausgegeben werden.
Die tiefe Integration mit Alibabas Ökosystem verwandelt sie in eine physische Schnittstelle für dein digitales Leben. Verknüpfungen mit Taobao ermöglichen es dir, einen Artikel in einem Geschäft zu betrachten und online Preise, Bewertungen und Empfehlungen abzurufen. Alipay-Integration verspricht gebührenfreie Zahlungen, während die Navigation Amap nutzt, um Richtungen zu tatsächlichen Straßen und Geschäften auf einem flachen Telefonbildschirm zu verankern.
Die Preisgestaltung zeigt, wie aggressiv Alibaba agieren möchte. Chinesische Wearables werden bereits in riesigen Stückzahlen verschickt – zig Millionen Smartwatches und Kopfhörer jedes Jahr. Alibaba positioniert die Cork S1 und G1 näher an Premium-Kopfhörern als an Flagship-Smartphones. Subventionierte Pakete mit Mobilfunkanbietern und Einkaufsguthaben auf Taobao unterbieten westliche Smart Glasses, die oft über 500 Dollar kosten und selten die Kreise der Frühadapter verlassen.
Chinas Markt für tragbare Technologien verschafft Alibaba Rückenwind. Verbraucher betrachten Armbanduhren und kabellose Ohrhörer bereits als wegwerfbare Upgrades und wechseln diese alle 18–24 Monate. Die Positionierung von KI-Brillen als nächsten schrittweisen Schritt, nicht als Luxusgerät, ermöglicht es Alibaba, bestehende Upgrade-Gewohnheiten zu nutzen, anstatt neue zu schaffen.
Was Alibaba testet, ist, ob ein Assistent als eine beständige, kontextbewusste Schicht der Realität leben sollte. Es geht nicht darum, ein Telefon herauszuholen oder eine App zu öffnen, sondern darum, das zu beobachten, was man sieht, zuzuhören, was man sagt, und im Moment zu reagieren. Wenn dieses Modell Bestand hat, hört KI auf, ein Chatfenster zu sein, und wird zu einer ständigen, umgebenden Präsenz, die in den Alltag integriert ist.
Warum OpenAI sich Sorgen machen sollte
OpenAI wirkt plötzlich weniger wie eine unvermeidliche Plattform, sondern mehr wie eine sehr große, sehr teure Wahl. Microsofts Fara-7B zeigt, dass ein Agent mit 7 Milliarden Parametern, der lokal läuft, mit cloudbasierten Giganten wie WebVoyager, Online-Mind2Web und WebTailBench konkurrieren oder diese übertreffen kann, während er nur etwa 2,5 Cent pro Aufgabe kostet, im Vergleich zu 30 Cent. Das untergräbt die wirtschaftliche Erzählung hinter GPT-4o-ähnlichen Agenten, die jeden Screenshot zu einem Datenzentrum streamen.
Größer ist nicht mehr automatisch besser, wenn ein einzelnes On-Device-Modell in der Lage ist, Pixel zu erkennen, zu schlussfolgern und zu handeln, ohne auf eine Unterstützung durch Hilfssysteme angewiesen zu sein. Fara-7B’s synthetische Trainingspipeline, mit über 1 Million Aktionen in mehr als 145.000 verifizierten Sitzungen, beweist, dass man qualitativ hochwertiges Verhalten erzielen kann, ohne Benutzerdaten zu sammeln. Wenn Unternehmen schnelle, private und kostengünstige Automatisierung auf ihrer eigenen Hardware erreichen können, wird das Standardangebot „Alles an OpenAIs Cloud senden“ schwächer.
MBZ UAI's Pan trifft OpenAI von einer anderen Seite: Ambition. Pan verbindet Quen 2.5 und Juan 2.1 zu einem Weltmodell, das sich erinnert, was von einem Videoabschnitt zum nächsten passiert ist, indem es kausale SwiNN-DPM-Rollouts und 960 Nvidia H200 GPUs verwendet, um die Szenen über die Zeit konsistent zu halten. Das ist die Art von langfristigem, konsequenzbewusstem Verhalten, die OpenAI in Demos anreißt, aber nicht als offene Infrastruktur bereitstellt.
Open-Source-Forschungslabore zeigen nun, dass sie Fähigkeiten im Frontier-Stil aus modularen Teilen zusammenstellen können. Not a proper noun veröffentlicht die Rezepte. Mit Pan entkommt der Bauplan für interaktive, beständige Videoumgebungen den Fängen eines einzelnen Anbieters. Wenn jeder die Möglichkeit hat, diese Fähigkeit zu forken, anzupassen und einzubetten, erscheint der geschlossene Vorteil von OpenAI eher wie ein vorübergehender Vorsprung als wie ein struktureller Schutz.
In der Zwischenzeit wandeln Google, Perplexity und Alibaba stillschweigend spezialisierte Modelle in fesselnde Produkte um. Geminis interaktive Bilder sind in Googles Suchproduktivitätsoberflächen integriert, Perplexitys Einkaufsagent nutzt eine suchähnliche Benutzeroberfläche, die Benutzergewohnheiten speichert, und Alibabas Cork S1 G1 KI-Brillen werden als vollständige Hardware-Ökosysteme ausgeliefert. Dies sind keine generischen Chatbots; sie sind eng integrierte Werkzeuge.
Hardware ist kein Eigenname; die Integration in das Ökosystem schafft Gräben, die der API-Zugriff nicht leicht überwinden kann. OpenAI hat ChatGPT, eine Desktop-Anwendung, keinen Eigenname und eine API, aber keine Massenmarktbrille, kein Betriebssystem für Telefone, keine Suchmaschine und keine Einzelhandels-Super-App. Während Modelle wie Fara-7B über offene Gewichte verbreitet werden, wie in dem Fara-7B Technical Report - Microsoft Research berichtet, verschiebt sich der Schwerpunkt hin zu demjenigen, der das Gerät, den Workflow und die Daten besitzt - nicht nur das Modell.
Ihre KI kommt endlich nach Hause.
Microsofts Woche der Ankündigungen verändert leise die Richtung der Verbraucher-KI. Fara-7B, Pan, Geminis interaktive Bilder, Perplexitys Einkaufsassistent, Alibabas Cork S1 G1 verfolgen keine größeren Bestenlisten; sie setzen auf tägliche Nutzung. Zusammen signalisieren sie einen Wechsel von abstrakten Demos zu praktischen, persönlichen, Not a proper noun privaten Systemen.
Fara-7B betreibt einen vollwertigen Computer-Nutzungsagenten mit 7 Milliarden Parametern auf einer lokalen Maschine für etwa 0,025 $ pro WebVoyager-Aufgabe im Vergleich zu ca. 0,30 $ für GPT-4.1-Stapel. Dieses Single-Model-Design reduziert die Latenz, senkt die Bandbreite auf null für Screenshots und hält deine Browsing-Daten von entfernten Servern fern. Das synthetische Training über die 145.631 verifizierten Sitzungen von Fara-7B und über 1 Million Aktionen zeigt, dass du Genauigkeit erreichen kannst, ohne Benutzer zu protokollieren.
Pan drängt in eine andere Richtung: beständige Weltmodelle, die sich erinnern, was von Bild zu Bild passiert ist. Sein Quen 2.5 VL-7B + Juan 2.1 T2V-14B-Stack, trainiert auf 960 Nvidia H200 GPUs, behandelt Video wie eine lebendige Simulation, nicht als eine Ansammlung wegwerfbarer Clips. Diese Architektur eröffnet Türen für Robotik, AR, und Spiele, bei denen Kontinuität wichtiger ist als cineastischer Glanz.
Alibabas Cork S1 zieht KI-Assistants aus Chatfenstern auf Ihr Gesicht. In Kombination mit Modellen, die partiell oder vollständig auf dem Gerät laufen, versprechen sie Kopf-übersetzungen, Navigation und Suche, ohne jeden Frame durch ein US-Datenzentrum zu leiten. Zusammen mit den berührbaren Diagrammen von Gemini und den gewohnheitsbasierten Einkaufserlebnissen von Perplexity beginnt KI, sich atmosphärisch und nicht transaktional anzufühlen.
Nicht ein Eigenname untergräbt die Annahme, dass nützliche KI in Hyperscale-Clouds leben muss. Lokale oder hybride Agenten bedeuten: - Geringere Latenz - Stärkere Privatsphäre - Geringere Betriebskosten - Größere Hardware-Reichweite
Also, in einem Jahr, welche bahnbrechende Veränderung wird dein Leben mehr verändern: Lokale Agenten im Stil von Fara-7B, weltumfassende Modelle wie bei Pan, oder KI, die in Brillen integriert ist und niemals dein Gesicht verlässt?
Häufig gestellte Fragen
Was macht Microsofts Fara-7B anders als andere KI-Agenten?
Fara-7B ist ein einzelnes Modell mit 7 Milliarden Parametern, das für den lokalen Betrieb auf einem Gerät konzipiert ist. Es verarbeitet Screenshots direkt, ohne dass eine Cloud-Infrastruktur oder mehrere Hilfsmodelle erforderlich sind, wodurch es schneller, kostengünstiger und privater ist.
Was ist ein 'Weltmodell' wie das Pan von MBZ UAI?
Ein Weltmodell simuliert eine kontinuierliche Umgebung über die Zeit, erinnert sich an vergangene Ereignisse und sagt die Konsequenzen von Handlungen voraus. Im Gegensatz zu herkömmlichen Videogeneratoren gewährleistet es Konsistenz und Kausalität für Simulation und Planung.
Wie wurde Fara-7B ohne Benutzerdaten trainiert?
Microsoft verwendete eine synthetische Datenengine namens FaraJen, die KI-Agenten auf 70.000 Websites einsetzte, um realistische Benutzersitzungen zu generieren. Diese Daten wurden dann von drei KI-Richtern überprüft, was einen hochwertigen, datenschutzkonformen Trainingssatz geschaffen hat.
Sind diese neuen Modelle Open Source?
Ja, Microsoft hat Fara-7B als Open-Weight-Modell veröffentlicht. Das Pan-Modell von MBZ UAI ist ebenfalls ein führendes Open-Source-Weltmodell, das mehrere kommerzielle Systeme herausfordert.