Le FARA de Microsoft a juste pris OpenAI par surprise.

Microsoft vient de lancer Fara-7B, un agent IA hyper-efficace qui fonctionne sur votre appareil, et non sur le cloud. Ce mouvement, accompagné d'une vague de nouveaux modèles de concurrents, signale un changement sismique qui met à l'épreuve la domination d'OpenAI.

Stork.AI
Hero image for: Le FARA de Microsoft a juste pris OpenAI par surprise.
💡

TL;DR / Key Takeaways

Microsoft vient de lancer Fara-7B, un agent IA hyper-efficace qui fonctionne sur votre appareil, et non sur le cloud. Ce mouvement, accompagné d'une vague de nouveaux modèles de concurrents, signale un changement sismique qui met à l'épreuve la domination d'OpenAI.

L'agent IA qui n'a pas besoin du cloud

Microsoft vient de tirer un coup de feu directement à l'IA axée sur le cloud avec Fara-7B, un modèle de 7 milliards de paramètres "utilisation d'ordinateur" qui fonctionne directement sur votre appareil. Pas de backend de la taille de GPT-4, pas de vaste grappe d'agents auxiliaires, juste un réseau unique qui examine votre écran. Ce n'est pas un nom propre qui décide de la suite. Pour une catégorie qui a vécu et a péri par des fermes de serveurs massives, c'est une véritable rupture avec le scénario.

Les agents IA existants fonctionnent comme des centres de contrôle à distance : chaque capture d'écran est envoyée vers le cloud, un grand modèle l'analyse, créant un réseau de modèles avec planification, vision et récupération d'erreurs. Ce design consomme de la bande passante, ajoute de la latence et entraîne des coûts par tâche qui n'ont de sens que pour les entreprises. Pour les utilisateurs réguliers, les agents liés au cloud semblent impressionnants lors des démonstrations, mais sont pénibles lors d'une utilisation quotidienne.

Fara-7B attaque ce goulot d'étranglement en fusionnant l'ensemble de la pile en un modèle unifié. Il ingère des captures d'écran brutes, prédit les coordonnées de pixels ancrées, et génère des actions en un seul passage, sans analyse d'arbre d'accessibilité ni chaîne de planification, de vision, ou de modèles d'utilisation d'outils. Microsoft rapporte qu'au benchmark WebVoyager, il réalise des tâches complètes pour environ 0,025 $, contre environ 0,30 $ pour des agents construits sur de gigantesques modèles de raisonnement de type GPT.

L'exécution locale transforme l'expérience autant que l'économie. Fonctionner sur l'appareil réduit la latence aller-retour car rien n'a besoin de quitter la machine. Cela garde par défaut la navigation sensible, les connexions, et les documents à l'abri des journaux distants. Pour les ordinateurs portables, les ordinateurs de bureau, et éventuellement les téléphones, Fara-7B esquisse un avenir où votre « co-pilote IA » se comporte davantage comme une application installée que comme un abonnement à distance.

Ce n'est pas simplement une compression de modèle ; c'est un pivot stratégique vers une IA efficace et pratique. Fara-7B atteint 73,5 % sur WebVoyager et 38,4 % sur WebTailBench, se rapprochant de systèmes beaucoup plus grands tout en utilisant environ un dixième des tokens de sortie. Cette combinaison de taille réduite, de performances solides et d'une utilisation de tokens remarquablement basse signale un nouveau front concurrentiel : qui peut fournir des agents compétents qui fonctionnent localement, à moindre coût et en toute confidentialité.

Microsoft vient d'ouvrir cette voie. OpenAI, Google, Alibaba, des acteurs majeurs du cloud qui développent des agents puissants doivent maintenant répondre à une question directe : pourquoi cette technologie ne devrait-elle pas fonctionner sur l'appareil ?

Comment Microsoft a construit un agent à régime

Illustration : Comment Microsoft a créé un agent en régime
Illustration : Comment Microsoft a créé un agent en régime

L’agent de Microsoft commence avec une idée brutale et simple : un modèle, un cerveau, sans échafaudage. Fara-7B ne jongle pas entre un modèle de planification, un modèle de vision, un routeur d’outils et un exécuteur séparé. Il ingère une capture d’écran, la description de la tâche, et produit directement des actions concrètes — cliquez ici, tapez cela, faites défiler là — sans passer par un labyrinthe de systèmes auxiliaires.

La plupart des ensembles d'« agents IA » d'aujourd'hui ressemblent à des machines de Rube Goldberg. Un grand modèle de raisonnement interprète l'objectif, un autre analyse l'arbre d'accessibilité, un autre gère la vision, et un autre valide chaque étape. Fara-7B élimine tout cela, retirant la couche d'orchestration qui devient souvent le véritable goulet d'étranglement, et non le modèle lui-même.

Pas un nom propre de l'analyse du DOM ou de l'arbre d'accessibilité au moment de l'inférence, Fara-7B travaille directement sur les pixels. Il voit la même capture d'écran qu'un humain, puis prédit des actions par coordonnées de pixels alignées aux éléments visibles. Ce contour contournant élimine les dépendances fragiles aux métadonnées d'accessibilité spécifiques à chaque site, qui se brisent sur des widgets personnalisés, des interfaces utilisateur riches en toiles ou des tableaux de bord d'entreprise mal étiquetés.

Le design centré sur la capture d'écran permet également de débloquer une histoire de déploiement plus claire. Toute application capable de capturer l'écran—bureau, extension de navigateur, client VDI—peut alimenter Fara-7B sans avoir besoin de se connecter aux éléments internes de chaque site web. Pour les environnements d'entreprise restrictifs où les points d'accès à l'accessibilité sont inconsistants ou désactivés, c'est le seul moyen viable.

Le coût est là où le changement d'architecture a un impact. Microsoft estime qu'une tâche complète avec Fara-7B coûte environ 0,025 $, contre environ 0,30 $ pour les agents de style GPT-4 qui s'appuient sur des modèles de raisonnement de niveau GPT-4.1 ou o3. Cet écart de 12 fois provient de deux facteurs : un modèle de 7B est peu coûteux à exécuter, et Fara-7B utilise environ un dixième des tokens de sortie de ces agents lourds.

Sur le benchmark WebVoyager, Fara-7B consomme environ 124 000 tokens d'entrée et 1 100 tokens de sortie par tâche. Les flux de travail des agents multiples GPT-4 produisent des réflexions détaillées et des auto-réflexions qui comptent comme des tokens facturables. Les sorties compactes et orientées vers l'action de Fara-7B se traduisent directement par des factures plus basses et moins de latence.

Pour les utilisateurs réguliers, les équipes informatiques, cette simplicité compte plus que quelques points supplémentaires sur un tableau de classement. Un modèle simple est plus facile à déployer sur des ordinateurs portables, à gérer sur des appareils edge et à auditer pour la confidentialité qu'une ferme d'agents gigantesque, uniquement dans le cloud. Moins cher, plus rapide, autonome l'emporte toujours sur intelligent mais lourd à gérer.

Former une IA sans espionner les utilisateurs.

Microsoft a fait quelque chose d'inhabituel avec les données d'entraînement de Fara-7B : il a essayé d'éviter complètement la surveillance humaine. Sans avoir recours à des données réelles issues de l'exploitation des clics des utilisateurs, à l'extraction des historiques de navigation ou à l'enregistrement des écrans, l'entreprise a construit Fara-7B, une usine de données synthétiques conçue pour inonder le modèle de traces d'utilisation réalistes d'ordinateurs sans toucher aux sessions de vraies personnes.

Fara-7B fonctionne en envoyant des agents d'IA sur le web ouvert, et non dans des environnements de test aseptisés. Ces agents explorent plus de 70 000 domaines web, allant des sites de shopping aux pages de documentation. Ils exécutent des tâches concrètes de bout en bout : rechercher, défiler, cliquer, taper, naviguer et soumettre.

Les sessions semblent désordonnées par intention. Les agents cliquent mal, ouvrent la mauvaise page, reviennent en arrière, réessaient des recherches, ajustent des filtres, et non une propriété nommée, raffinent des requêtes. Ce bruit est important car Fara-7B doit apprendre à fonctionner dans la même expérience utilisateur chaotique que celle à laquelle sont confrontés les utilisateurs humains, et non dans un flux de démonstration soigneusement élaboré.

Des données synthétiques brutes à elles seules pourraient constituer un piège d'hallucination, c'est pourquoi Microsoft a ajouté une couche de vérification stricte. Chaque session générée passe par trois juges IA distincts, chacun évaluant un aspect différent de la qualité de l'alignement.

Les juges vérifient que : - Chaque étape logique découle de la précédente - Les actions correspondent à ce qui est visible sur la page - La réponse finale satisfait la tâche initiale

Tout ce qui échoue à un juge est éliminé. Après ce triage, Microsoft a conservé 145 631 sessions vérifiées, totalisant plus de 1 million d'actions individuelles. Ce sous-ensemble filtré a été utilisé pour entraîner la politique de comportement de Fara-7B. Le processus est détaillé dans Fara-7B : Un modèle agentique efficace pour l'utilisation des ordinateurs - Microsoft Research.

Contrairement au manuel habituel de l'industrie. De nombreux systèmes agentiques s'appuient sur : - Des journaux d'interaction humaine coûteux provenant de produits réels - Des navigateurs instrumentés qui capturent le DOM, les clics, et le défilement Not a proper noun - Des enregistrements d'écran ou de session complets

Ces pipelines soulèvent des inquiétudes évidentes en matière de confidentialité. Une infrastructure lourde pour collecter, stocker et traiter les données des utilisateurs. L'approche de Fara-7B échange cela contre une simulation intensive en calcul et un jugement automatisé, transformant le temps GPU en données d'entraînement synthétiques mais étroitement contrôlées.

Résultat : Fara-7B apprend comment se sent la navigation réelle - erreurs, impasses, récupérations - sans que Microsoft n'ait besoin d'espionner le bureau de qui que ce soit.

Cet agent minuscule se démarque par sa force.

Les références exposent des modèles. Fara-7B les utilise comme une flexibilité. Sur WebVoyager, l'agent compact de Microsoft affiche un taux de réussite de 73,5 % tout en consommant environ 124 000 jetons d'entrée contre seulement 1 100 jetons de sortie par tâche. Ce profil rend chaque exécution complète à environ 0,025 $, contre environ 0,30 $ pour les ensembles d'agents alimentés par des modèles de raisonnement de type GPT-4.1.

Online-Mind2Web, un référentiel conçu pour tester des flux web désordonnés et réels, montre un schéma similaire. Fara-7B atteigne 34,1 %, ce qui ne semble pas impressionnant jusqu'à ce que l'on réalise qu'il est en concurrence avec des modèles ayant 10 à 20 fois plus de paramètres. Ce ne sont pas de vraies échelles multi-agents élaborées. Ces systèmes consomment bien plus de tokens de sortie contextuels juste pour suivre l'état à travers les étapes.

WebTailBench est l'endroit où Microsoft aiguise son argument. Ce nouveau benchmark se concentre sur des tâches sous-représentées mais douloureusement courantes : - Candidatures à des emplois sur plusieurs portails - Recherches immobilières avec des filtres et des vues de carte - Comparaisons multi-sites pour des produits et des services

Sur WebTailBench, Fara-7B obtient un score de 38,4 %, surpassant confortablement le meilleur agent de la classe 7B précédent. Il ne s'agit pas d'un nom propre s'aventurant sur le terrain de piles propriétaires beaucoup plus grandes. Ces tâches ne sont pas juste des résumés de texte, mais impliquent des décisions ancrées et au niveau des pixels - localiser le bon bouton "Appliquer", naviguer dans la pagination, jongler avec les connexions.

L'efficacité est l'autre moitié de l'histoire. Fara-7B utilise environ un dixième des jetons de sortie des systèmes d'agents lourds tout en les égalant ou en les surpassant sur plusieurs tâches WebVoyager Not a proper noun WebTailBench. Moins de modèles cNot a proper nouns, des trajectoires plus courtes, Not a proper noun pas de couche d'orchestration signifient une latence Not a proper noun nettement Not a proper noun réduite et des coûts considérablement plus bas.

Pris ensemble, ces chiffres remettent en question l'hypothèse selon laquelle seuls les géants de plus de 70 milliards peuvent effectuer une automatisation sérieuse de l'utilisation informatique. Fara-7B montre que des agents spécialisés peuvent fournir des résultats à la pointe de la technologie sur des tâches web réalistes tout en restant suffisamment abordables pour être exécutés localement, en privé, à grande échelle.

L'IA Qui Se Souvient de Ce Qui Se Passe Ensuite

Illustration : L'IA qui se souvient de ce qui se passe ensuite
Illustration : L'IA qui se souvient de ce qui se passe ensuite

Les modèles mondiaux sont passés des publications de recherche à la réalité cette semaine avec le nouveau système cNot d'MBZ UAI, Not a proper noun Pan. Not a proper noun, il réécrit discrètement ce que signifie "IA vidéo". Not a proper noun de générer un seul clip esthétique. Not a proper noun en oubliant tout, Pan exécute une simulation persistante qui survit à travers les invites, les images, Not a proper noun les séquences complètes. Pensez-y moins comme à une caméra, Not a proper noun plus comme à un petit univers contrôlable.

Les modèles traditionnels de texte à vidéo se comportent comme des poissons rouges : vous saisissez un prompt, ils génèrent 4 à 8 secondes de séquences, puis la mémoire se réinitialise. Aucun état interne ne se conserve, donc un prompt de suivi comme "maintenant tourne à gauche" engendre simplement une nouvelle scène qui correspond vaguement aux mots. Ils génèrent des pixels, pas des conséquences.

Pan appartient à une catégorie complètement différente : un modèle du monde. Les modèles du monde conservent une représentation interne des objets, des agents, pas des environnements de noms propres, puis mettent à jour cette représentation au fur et à mesure que les actions se déroulent. La vidéo que vous voyez n'est qu'un rendu de cet état caché, pas le produit principal.

Demandez à Pan de faire apparaître une voiture dans une rue de la ville. Dites "tournez à gauche". Pan ne se contente pas de redessiner une voiture à un nouvel angle. Il applique une rotation, un changement de trajectoire à l'intérieur de sa simulation, puis rend l'état mis à jour comme le prochain segment vidéo.

Émettez une autre comm. Pas un nom propre comme "accélérer". Pas un nom propre, la même voiture interne accélère sur la même route avec un éclairage, une disposition et un cadre de caméra constants. Vous pouvez enchaîner les instructions :

  • 1"Tournez à gauche"
  • 2"Accélérer"
  • 3« Arrêtez-vous au feu rouge »
  • 4"Laissez le piéton traverser"

Pan considère chacun comme un autre instant dans une ligne du temps continue, et non comme quatre invitations déconnectées.

Cette continuité est précisément ce que la plupart des générateurs actuels brisent. Ils s'optimisent pour une cohérence instantanée — des images nettes, un mouvement cinématographique, un style accrocheur — tandis que les personnages se transforment subtilement, les accessoires se téléportent, les agencements de pièces dérivent entre les clips. Le modèle de monde de Pan inverse la priorité : préserver l'état, puis dessiner la vidéo par-dessus.

Sous le capot, Pan s'appuie sur un noyau de raisonnement construit autour de Qwen2.5-VL-7B, une infrastructure vidéo adaptée de Hunyuan-Video (technologie de classe Qwen2.1-T2V-14B) pour maintenir la logique et les visuels synchronisés. Le côté raisonnement suit ce qui existe et comment cela évolue ; le côté vidéo visualise simplement ce registre en évolution.

Les instructions séquentielles telles que « déplacez le bras du robot vers le bloc rouge », puis « soulevez-le » testent si un système se souvient vraiment. Le Pan réussit car le bloc rouge, ses coordonnées, et la position du bras résident dans cet univers interne persistant, prêts pour tout ce que vous lui demanderez de faire ensuite.

Construire un monde, un cadre à la fois

Pan fonctionne comme un cerveau assemblé. MBZ UAI a intégré Quen 2.5 VL 7B en tant que noyau de raisonnement, fournissant des instructions, de la physique, des relations entre objets, puis a structuré un « état du monde » pour Juan 2.1 T2V 14B, un décodeur texte-vidéo réglé pour des images nettes et cohérentes. Cette séparation maintient la logique et les visuels découplés, de sorte que les décisions stylistiques ne dérangent jamais la position des objets ni leurs mouvements.

Pas un nom propre du déploiement de vidéos en une seule passe fragile, Pan s'appuie sur un système que l'équipe cNot un nom propre causal swind dpm. Pensez-y comme à un tapis roulant : chaque clip arrive sous forme de cadres latents bruyants, est affiné en vidéo propre, puis se verrouille comme histoire que les futurs segments doivent respecter. De nouveaux segments ne peuvent se baser que sur les cadres passés, sans jamais jeter un œil en avant, ce qui empêche les téléportations déconcertantes et les ruptures de continuité qui hantent les modèles vidéo longs.

Le modèle Causal Swind DPM ajoute également une touche : un bruit contrôlé sur le cadre de conditionnement. En corrompant légèrement l'image de référence, Pan arrête de se préoccuper de détails parfaits au pixel près comme le scintillement de texture. Pas un nom propre se concentre sur la structure : les positions des objets, les vecteurs de mouvement, pas un nom propre les schémas d'interaction. Ce biais en faveur de la géométrie plutôt que du brillant est la raison pour laquelle un bras robotique, une voiture ou un personnage peuvent persister à travers des dizaines d'étapes sans fondre en une bouillie hors modèle.

Rien de tout cela n'est bon marché. MBZ UAI a formé le décodeur vidéo sur un cluster de 960 GPU NVIDIA H200, un type de configuration généralement réservé aux modèles de langage de pointe, pas à une simple démonstration académique. Ils ont utilisé un objectif d'appariement de flux pour le décodeur de diffusion, associé à des optimisations telles que FlashAttention-3 et l'entraînement de données en parallèle sharding pour maintenir les gradients en mouvement à grande échelle.

Quen 2.5 n'a pas seulement appris à répéter des instructions ; il a étudié la relation de cause à effet. L'équipe a sélectionné des ensembles de données où les actions entraînent des résultats visibles : les portes s'ouvrent lorsque les poignées tournent, les liquides se renversent lorsque les tasses basculent, les drones dérivent lorsque le vent change. Ce biais se manifeste lorsque Pan continue de simuler après des commandes comme "tourner à gauche", "accélérer" ou "empiler le bloc bleu sur le bloc rouge" sans réinitialiser la scène à chaque fois.

Cette philosophie de formation reflète ce que Microsoft a fait avec Fara-7B sur le web, en ancrant les agents dans des trajectoires à long terme plutôt que dans des instantanés isolés. Quiconque souhaite voir comment cette approche se déploie dans un modèle compact d'utilisation informatique peut consulter le Modèle Fara-7B sur Hugging Face. Pan applique simplement la même obsession pour la continuité aux pixels, à la physique et aux onglets de navigateur.

Les géants se réveillent avec de nouvelles astuces.

Les géants de l'industrie échangent discrètement des chatbots génériques contre des outils hautement spécialisés qui font réellement des choses. Au lieu d'un seul modèle tentant de répondre à chaque question, les entreprises façonnent l'IA en systèmes conçus spécialement : des agents qui naviguent dans des applications web, des modèles qui simulent des mondes au fil du temps, des assistants adaptés pour le shopping, les études ou la navigation. Fara-7B et Pan ne sont pas des cas isolés ; ils représentent des signes précoces d'un changement vers une IA native à la tâche.

Le mouvement de Google peut sembler subtil en surface : Images Interactives à l'intérieur de Gemini. En réalité, c'est un jeu stratégique pour contrôler la manière dont les étudiants, les passionnés, et les professionnels apprennent à partir de contenus visuels. Cliquez sur un diagramme de physique que Gemini met en avant, les forces et les composants sont étiquetés, et il guide à travers un raisonnement étape par étape au lieu de fournir une simple explication statique.

L'éducation rend cela particulièrement puissant. Un étudiant en biologie peut examiner un diagramme anatomique, obtenir des explications détaillées, des questions de type quiz, des questions de suivi liées à des régions spécifiques de l'image. Les enseignants peuvent faire glisser un diagramme dans Gemini pour générer instantanément des leçons interactives, des ensembles de problèmes, des variations ancrées dans le même asset visuel.

Cette interactivité alimente directement la fidélisation de l'écosystème de Google. Les Images interactives fonctionnent le mieux lorsque vous restez dans l'orbite de Gemini, Google Docs, et de Classroom. Chaque diagramme annoté, chaque feuille de travail partagée, chaque session enregistrée devient une raison supplémentaire pour les écoles et les créateurs de conserver leur contenu—leurs utilisateurs—au sein de la pile d'apprentissage de Google.

Perplexity s'oriente dans une direction différente et ciblée : le commerce. Son nouvel Assistant de Shopping transforme la recherche de produits en un dialogue continu qui mémorise vos préférences au fil du temps. Au lieu de lancer une nouvelle requête pour chaque achat, vous construisez un profil persistant de marques, tailles, budgets et critères rédhibitoires que l'assistant applique discrètement.

Cette persistance est cruciale lorsque vous passez de « trouve-moi un ordinateur portable » à « j'ai besoin d'une machine silencieuse de 14 pouces à moins de 1 200 dollars qui reste froide et qui a un excellent support Linux. » Le système de Perplexity négocie des compromis, s'approvisionne auprès de plusieurs commerçants et conserve le contexte au fil des jours ou des semaines alors que vous affinez ce que vous souhaitez. Il se comporte moins comme un moteur de recherche et plus comme un acheteur personnel intégré dans votre navigateur.

Pas un nom propre, cela met une pression directe sur l'approche plus généralisée d'OpenAI. Alors qu'OpenAI parle des agents pas un nom propre GPTs de manière globale, les concurrents lancent des outils spécifiquement ciblés qui s'intègrent dans les flux de travail quotidiens : étudier, faire des courses, naviguer, construire. L'IA passe d'une "boîte à réponses" à une infrastructure, pas un nom propre, les entreprises qui gagneront seront celles dont les modèles ressemblent moins à des chatbots, pas un nom propre, mais plutôt à des fonctionnalités intégrées des applications dans lesquelles vous évoluez déjà.

Votre prochain assistant IA pourrait être vos lunettes.

Illustration : Votre prochain assistant IA pourrait être vos lunettes.
Illustration : Votre prochain assistant IA pourrait être vos lunettes.

Alibaba parie sur le fait que votre prochain assistant AI se trouve sur votre visage, et non dans votre poche. Sa nouvelle ligne de lunettes intelligentes Cork S1 G1, lancée à travers la Chine, ressemble moins à des prototypes de science-fiction et davantage à du matériel prêt à être vendu à côté des smartphones et des écouteurs.

Les deux modèles s'appuient fortement sur la perception en temps réel. Dirigez votre regard vers un menu, une publicité ou une carte de métro, les lunettes superposent une traduction instantanée, transformant l'anglais en chinois ou vice versa en moins d'une seconde. Le Q&R visuel vous permet de regarder une étiquette de produit, une vitrine ou un document et de poser des questions en langage naturel, avec des réponses apparaissant dans votre champ de vision ou transmises par audio par conduction osseuse.

Une intégration profonde avec l'écosystème d'Alibaba en fait un point de contact physique pour votre vie numérique. Les liens avec Taobao vous permettent de regarder un article dans un magasin et de consulter les prix en ligne, les avis et les recommandations. Les promesses d'Alipay garantissent des paiements sans souci, tandis que la navigation utilise Amap pour ancrer des directions vers des rues réelles et des vitrines sur un écran de téléphone plat.

La tarification montre à quel point Alibaba veut être agressif. Les dispositifs portables chinois sont déjà expédiés en énormes volumes - des dizaines de millions de montres connectées et d'écouteurs chaque année - Alibaba positionne le Cork S1 et le G1 plus près des casques audio premium que des smartphones phares. Des forfaits subventionnés avec des opérateurs mobiles et des crédits shopping sur Taobao font concurrence aux lunettes intelligentes occidentales qui coûtent souvent plus de 500 $ et qui quittent rarement les cercles des premiers adopteurs.

Le marché des appareils portables en Chine donne un coup de pouce à Alibaba. Les consommateurs considèrent déjà les écouteurs sans fil comme des mises à niveau jetables, les remplaçant tous les 18 à 24 mois. Positionner les lunettes AI comme la prochaine étape incrémentale, et non comme un gadget de luxe, permet à Alibaba de profiter des habitudes de mise à niveau existantes plutôt que d'inventer de nouvelles.

Ce que teste Alibaba, c'est si un assistant devrait vivre comme une couche persistante et consciente du contexte sur la réalité. Pas juste sortir un téléphone, ouvrir une application, regarder ce que vous voyez, écouter ce que vous dites, réagir sur le moment. Si ce modèle perdure, l'IA cesse d'être une simple boîte de dialogue et commence à devenir une présence constante et ambiante intégrée dans la vie quotidienne.

Pourquoi OpenAI devrait s'inquiéter

OpenAI semble soudainement moins comme une plateforme inévitable, non pas un nom propre, mais plutôt comme un choix très vaste et très coûteux. Le Fara-7B de Microsoft montre qu'un agent de 7 milliards de paramètres fonctionnant localement peut rivaliser ou dépasser les géants basés sur le cloud sur WebVoyager, Online-Mind2Web et WebTailBench, tout en coûtant environ 2,5 cents par tâche au lieu de 30 cents. Cela remet en question l'histoire économique des agents de style GPT-4o qui transmettent chaque capture d'écran à un centre de données.

Plus grand n'est plus automatique. Cela ne signifie pas qu'un modèle sur un appareil unique, capable de voir les pixels, de raisonner, et d'agir sans une structure de systèmes d'assistance, est meilleur. Le processus de formation synthétique de Fara-7B, avec plus d'un million d'actions réparties sur plus de 145 000 sessions vérifiées, prouve qu'il est possible d'obtenir un comportement de haute qualité sans accumuler de télémétrie utilisateur. Si les entreprises peuvent bénéficier d'une automatisation rapide, privée et économique sur leur propre matériel, l'argument par défaut de « tout envoyer sur le cloud d'OpenAI » s'affaiblit.

Le Pan de MBZ UAI attaque OpenAI sous un autre angle : l'ambition. Pan assemble Quen 2.5 Not a proper noun Juan 2.1 en un modèle du monde qui se souvient de ce qui s'est passé d'un extrait vidéo à l'autre, utilisant des déploiements causaux SwiNN-DPM Not a proper noun 960 GPU Nvidia H200 pour maintenir la cohérence des scènes dans le temps. C'est ce type de comportement à long terme, conscient des conséquences, que OpenAI évoque dans ses démonstrations mais ne livre pas en tant qu'infrastructure ouverte.

Les laboratoires de recherche open-source montrent maintenant qu'ils peuvent assembler des capacités de pointe à partir de pièces modulaires et publient les recettes. Avec Pan, le plan pour des environnements vidéo interactifs et persistants échappe à l'emprise de tout fournisseur unique. Lorsque n'importe qui peut forker, peaufiner et intégrer cette capacité, l'avantage fermé d'OpenAI ressemble davantage à un avantage temporaire qu'à une digue structurelle.

Pendant ce temps, Google, Perplexity et Alibaba transforment discrètement des modèles spécialisés en produits attrayants. Les images interactives de Gemini vivent à l'intérieur des surfaces de productivité de recherche de Google, l'agent de shopping de Perplexity fonctionne sur une interface similaire à celle d'une recherche qui se souvient des habitudes des utilisateurs, et les lunettes AI Cork S1 G1 d'Alibaba sont livrées en tant qu'écosystèmes matériels complets. Ce ne sont pas des chatbots génériques ; ce sont des utilitaires intégrés de manière étroite.

Le matériel n'est pas un nom propre, l'intégration dans l'écosystème crée des barrières que l'accès aux API ne peut pas facilement franchir. OpenAI a ChatGPT, une application de bureau, pas un nom propre, une API, mais pas de lunettes grand public, pas de système d'exploitation pour téléphone, pas de moteur de recherche, pas de super-app de détail. Alors que des modèles comme Fara-7B se répandent via des poids ouverts, des rapports comme le Fara-7B Technical Report - Microsoft Research, le centre de gravité se déplace vers celui qui possède l'appareil, le flux de travail, pas un nom propre, les données—pas seulement le modèle.

Votre IA rentre enfin chez elle

La semaine d'annonces de Microsoft reconfigure discrètement la trajectoire de l'IA grand public. Fara-7B, Pan, les images interactives de Gemini, l'assistant shopping de Perplexity, le Cork S1 d'Alibaba ne visent pas des classements plus importants ; ils visent une utilisation quotidienne. Ensemble, ils signalent un tournant vers des systèmes pratiques, personnels, et Not a proper noun privés.

Fara-7B fonctionne avec un agent informatique complet de 7 milliards de paramètres sur une machine locale, pour environ 0,025 $ par tâche WebVoyager contre environ 0,30 $ pour les systèmes de style GPT-4.1. Ce design à modèle unique réduit la latence, supprime la bande passante pour les captures d'écran et garde vos données de navigation hors des serveurs distants. L'entraînement synthétique via les 145 631 sessions vérifiées de Fara-7B et plus d'un million d'actions montre que l'on peut obtenir de la précision sans enregistrer les utilisateurs.

Pan pousse dans une direction différente : des modèles du monde persistants qui se souviennent de ce qui s'est passé d'image en image. Son empilement Quen 2.5 VL-7B + Juan 2.1 T2V-14B, entraîné sur 960 GPU Nvidia H200, traite la vidéo comme une simulation vivante, et non comme une série de clips jetables. Cette architecture ouvre des portes pour la robotique, la réalité augmentée, et les jeux où la continuité compte plus que le polissage cinématographique.

Les lunettes AI Cork S1 d'Alibaba sortent les assistants des fenêtres de chat et les portent sur votre visage. Assocées à des modèles qui fonctionnent partiellement ou entièrement sur l'appareil, elles promettent une traduction instantanée, une navigation, et une recherche sans avoir à transmettre chaque image à un centre de données aux États-Unis. Associées aux diagrammes interactifs de Gemini et aux flux d'achat adaptés aux habitudes de Perplexity, l'IA commence à se sentir ambiante, et non transactionnelle.

Pas un nom propre de cela ne remet en question l'hypothèse selon laquelle une IA utile doit se trouver dans des nuages hyperscale. Les agents locaux ou hybrides signifient : - Latence réduite - Meilleure confidentialité - Coût opérationnel inférieur - Plus large portée matérielle

Donc, dans un an, quel changement révolutionnaire impactera plus ta vie : des agents locaux de style Fara-7B, des modèles du monde à la Pan, ou une IA intégrée dans des lunettes que tu ne quittes jamais ?

Questions Fréquemment Posées

Qu'est-ce qui distingue le Fara-7B de Microsoft des autres agents d'IA ?

Fara-7B est un modèle unique de 7 milliards de paramètres conçu pour fonctionner localement sur un appareil. Il traite les captures d'écran directement sans avoir besoin d'infrastructure cloud ni de plusieurs modèles d'assistance, ce qui le rend plus rapide, moins coûteux et plus privé.

Qu'est-ce qu'un 'modèle mondial' comme celui de MBZ UAI ?

Un modèle du monde simule un environnement continu dans le temps, se souvenant des événements passés et prédisant les conséquences des actions. Contrairement aux générateurs vidéo standards, il maintient la cohérence et la relation de cause à effet pour la simulation et la planification.

Comment le Fara-7B a-t-il été formé sans données utilisateurs ?

Microsoft a utilisé un moteur de données synthétiques appelé FaraJen, qui a déployé des agents IA sur 70 000 sites Web pour générer des sessions utilisateur réalistes. Ces données ont ensuite été vérifiées par trois juges IA, créant un ensemble d'entraînement de haute qualité tout en préservant la vie privée.

Ces nouveaux modèles sont-ils open source ?

Oui, Microsoft a lancé Fara-7B en tant que modèle à poids ouvert. Le Pan de MBZ UAI est également un modèle mondial open-source de premier plan qui remet en question plusieurs systèmes commerciaux.

Frequently Asked Questions

Qu'est-ce qui distingue le Fara-7B de Microsoft des autres agents d'IA ?
Fara-7B est un modèle unique de 7 milliards de paramètres conçu pour fonctionner localement sur un appareil. Il traite les captures d'écran directement sans avoir besoin d'infrastructure cloud ni de plusieurs modèles d'assistance, ce qui le rend plus rapide, moins coûteux et plus privé.
Qu'est-ce qu'un 'modèle mondial' comme celui de MBZ UAI ?
Un modèle du monde simule un environnement continu dans le temps, se souvenant des événements passés et prédisant les conséquences des actions. Contrairement aux générateurs vidéo standards, il maintient la cohérence et la relation de cause à effet pour la simulation et la planification.
Comment le Fara-7B a-t-il été formé sans données utilisateurs ?
Microsoft a utilisé un moteur de données synthétiques appelé FaraJen, qui a déployé des agents IA sur 70 000 sites Web pour générer des sessions utilisateur réalistes. Ces données ont ensuite été vérifiées par trois juges IA, créant un ensemble d'entraînement de haute qualité tout en préservant la vie privée.
Ces nouveaux modèles sont-ils open source ?
Oui, Microsoft a lancé Fara-7B en tant que modèle à poids ouvert. Le Pan de MBZ UAI est également un modèle mondial open-source de premier plan qui remet en question plusieurs systèmes commerciaux.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts