マイクロソフトのFara-7BがOpenAIエージェントに前例のない圧力をかける

💡

TL;DR / Key Takeaways

マイクロソフトは、クラウドではなくあなたのデバイス上で動作する超効率的なAIエージェントFara-7Bを発表しました。この動きは、競合他社からの新しいモデルの波と相まって、OpenAIの優位性を試す大きな変化を示しています。

クラウドを必要としないAIエージェント

マイクロソフトは、Fara-7Bという70億パラメータの「コンピュータ使用」モデルを発表し、クラウドファーストのAIに対して直接的な一撃を放ちました。このモデルは、あなたのデバイス上で直接実行されます。GPT-4サイズのバックエンドも、巨大小規模サーバー群もなく、画面を見つめる単一のネットワークが次に何をすべきかを決定します。大規模なサーバーファームによって存続したり消失したりしてきたカテゴリーにおいて、これは本当に新しい道筋を示すものです。

既存のAIエージェントはリモートコントロールセンターのように機能します。すべてのスクリーンショットがクラウドにストリーミングされ、大きなモデルがそれを処理します。適切な名詞ではない、さまざまなモデルが計画、ビジョン、エラー回復を行います。その設計は帯域幅を消費し、レイテンシーを追加し、企業向けにしか意味を持たないタスクごとのコストを増加させます。一般ユーザーにとって、クラウドに接続されたエージェントはデモでは素晴らしい印象を与えますが、日常的な使用では苦痛です。

Fara-7Bは、すべてのスタックを1つの統合モデルに集約することで、そのボトルネックに対処します。生のスクリーンショットを取り込み、基盤となるピクセル座標を予測し、アクセシビリティツリーの解析やプランナー、ビジョン、ツール使用モデルのチェーンを経ることなく、一度のパスでアクションを出力します。マイクロソフトの報告によると、WebVoyagerベンチマークでは、Fara-7Bが約0.025ドルでフルタスクを完了するのに対し、巨大なGPTスタイルの推論モデルに基づくエージェントではおおよそ0.30ドルかかります。

ローカル実行は、体験を経済的な側面と同じくらい変えます。デバイス上での実行はラウンドトリップの待機時間を短縮します。なぜなら、何も機械を離れる必要がないからです。適切な名詞ではなく、敏感なブラウジングやログイン、適切な名詞の文書をデフォルトでリモートログから除外します。ラップトップやデスクトップ、適切な名詞の最終的な電話において、Fara-7Bは「AIコパイロット」がリモートサブスクリプションよりもインストールされたアプリのように振る舞う未来を描いています。

これは単なるモデル圧縮ではなく、効率的で実用的なAIへの戦略的な転換です。Fara-7Bは、WebVoyagerで73.5%、WebTailBenchで38.4%を達成し、はるかに大きなシステムに迫りながら、出力トークンの約十分の一を使用しています。このサイズ、強力なパフォーマンス、驚くほど低いトークン使用量の組み合わせは、新たな競争の前線を示しています：誰がローカルに、安価に、そしてプライベートに機能的なエージェントを提供できるかということです。

マイクロソフトはそのフロントを開きました。OpenAI、Google、Alibaba、そして多くの企業が今では強力なクラウドエージェントを構築しており、彼らは率直な質問に答えなければなりません：なぜこのエージェントがデバイス上で動作しないべきなのでしょうか？

マイクロソフトがダイエット中のエージェントを構築した方法

マイクロソフトのエージェントは、簡単なアイデアから始まります：1つのモデル、1つの脳、支え無し。Fara-7Bは、計画モデル、ビジョンモデル、ツールルーター、別々の実行者を使いません。スクリーンショットとタスクの説明を取り込み、地に足のついたアクションを直接出力します—ここをクリック、これを入力、あそこをスクロール—ヘルパーシステムの迷路を通り抜けることなく。

今日のほとんどの「AIエージェント」スタックは、ルーブ・ゴールドバーグの機械に似ています。大きな推論モデルが目標を解釈し、別のモデルがアクセシビリティツリーを解析し、さらに別のモデルが視覚を処理し、別のモデルが各ステップを検証します。しかし、Fara-7Bはそのオーケストレーション層を排除し、しばしば実際のボトルネックとなるのはモデルそのものではなく、そのレイヤーであることを示しています。

適切な固有名詞ではないDOMやアクセシビリティツリーの解析を推論時に行うのではなく、Fara-7Bはピクセルに直接作用します。人間が見るのと同じスクリーンショットを見て、可視要素に沿ったピクセル座標アクションを予測します。この回避策により、カスタムウィジェットやキャンバス重視のUI、適切にラベル付けされていない企業ダッシュボードといった、サイトごとのアクセシビリティメタデータに依存する脆弱な依存関係を排除します。

スクリーンショットファーストデザインは、クリーンなデプロイメントストーリーも実現します。スクリーンをキャプチャできるアプリ—デスクトップ、ブラウザ拡張機能、VDIクライアント—は、各ウェブサイトの内部に接続することなくFara-7Bにデータを供給できます。アクセシビリティフックが不一致または無効にされている厳格な企業環境では、これが唯一の実現可能な手段です。

コストはアーキテクチャの変化が顕著になる部分です。マイクロソフトは、Fara-7Bを使用したフルタスクのコストが約$0.025であるのに対し、GPT-4スタイルのエージェント（GPT-4.1やo3レベルの推論モデルに依存する）では約$0.30になると見積もっています。この12倍の差は二つの要因から生じています。7Bモデルは運用コストが安く、Fara-7Bはそれらの重いエージェントの約10分の1の出力トークンを使用します。

WebVoyagerベンチマークによると、Fara-7Bはタスクごとに約124,000の入力トークンと1,100の出力トークンを消費します。マルチエージェントのGPT-4スタックは、冗長な思考の連鎖やツールの自己反省を生成し、これらは請求可能なトークンとしてカウントされます。Fara-7Bのコンパクトでアクション重視の出力は、直接的に低い請求額と少ないレイテンシーに繋がります。

一般のユーザーにとって、ITチームにとって、このシンプルさはリーダーボードの数パーセントの向上よりも重要です。一つのモデルは、ノートパソコンでの出荷が容易で、エッジデバイスでの管理がしやすく、プライバシー監査にも適しています。費用対効果が高く、迅速で、自立したシステムは、賢いけれど扱いにくいものよりも常に優れています。

ユーザーを監視せずにAIをトレーニングする

マイクロソフトはFara-7Bのトレーニングデータに関して異例のことを行いました。それは人間の監視を完全に回避しようとしたのです。ユーザーのクリックをマイニングしたり、ブラウザの履歴をスクレイピングしたり、画面を録画したりする、いわゆる適切な名詞を用いることなく、同社はFara-7Bを構築しました。これは、実際の人々のセッションに触れることなく、モデルに現実的なコンピュータ使用の痕跡を供給するために設計された合成データファクトリーです。

Fara-7Bは、サニタイズされたおもちゃの環境ではなく、オープンウェブにAIエージェントを派遣することで機能します。これらのエージェントは、ショッピングサイトからドキュメントページまで、70,000以上のウェブドメインにアクセスします。そして、具体的なタスクをエンドツーエンドで実行します：検索、スクロール、クリック、入力、ナビゲート、そして提出します。

セッションは故意に混沌としています。エージェントはミスクリックし、間違ったページを開き、戻り、再検索し、フィルターを調整し、適切な名詞ではなくクエリを洗練させます。その雑音は重要です。なぜなら、Fara-7Bは人間のユーザーが直面するのと同じ混沌としたUXで動作することを学ぶ必要があり、手順が整えられたデモフローではないからです。

生の合成データだけでは幻覚の罠に陥る可能性があるため、Microsoftは厳格な検証レイヤーを追加しました。生成された各セッションは、異なる品質の側面を評価する3人のAI審査員を経て通過します。

審査員は次のことを確認します： - 各ステップの論理が前のステップから正しく導かれているか - 行動がページ上に明示的に存在するものと一致しているか - 最終的な回答が元のタスクを実際に満たしているか

判定に失敗したものはすべて除外されます。このトリアージの後、マイクロソフトは145,631の確認済みセッションを保持し、合計で100万以上の個別アクションを記録しました。このフィルタリングされたサブセットを使用して、Fara-7Bの行動ポリシーを訓練しました。このプロセスの詳細は、Fara-7B: An Efficient Agentic Model for Computer Use - Microsoft Researchで確認できます。

それと業界の通常のプレイブックとを対比させてみてください。多くのエージェンシーシステムは以下に依存しています： - 実際の製品からの高額な人間のインタラクションログ - DOM、クリック、スクロールをキャプチャする計測されたブラウザ - 完全な画面またはセッション録画

これらのパイプラインは明らかなプライバシーの警鐘を鳴らします。ユーザーデータを収集、保存、そしてクリーンアップするための重厚なインフラです。Fara-7Bのアプローチは、計算集約型のシミュレーションと自動化された評価に置き換え、GPU時間を合成されたが厳密に制御されたトレーニングデータに変えます。

結果：Fara-7Bは、実際のブラウジングの感覚—エラー、行き止まり、復帰—を学習しますが、Microsoftは誰のデスクトップも監視する必要がありません。

この小さなエージェントは、実力以上の働きをします。

ベンチマークは通常、モデルを露呈します。Fara-7Bはそれを柔軟に使用します。WebVoyagerでは、マイクロソフトのコンパクトエージェントが73.5％の成功率を記録し、タスクごとに約124,000の入力トークンと約1,100の出力トークンを消費します。このプロファイルでは、各フルランのコストは約0.025ドルで、GPT-4.1スタイルの推論モデルを搭載したエージェントスタックの約0.30ドルと比較されます。

Online-Mind2Webは、実際のウェブフローをテストするために構築されたベンチマークで、同様のパターンを示しています。Fara-7Bは34.1%に達し、これは派手ではないように聞こえますが、実際には10倍から20倍のパラメータを持つモデルと競っていることを理解すると、印象が変わります。これらのシステムは、ステップ間での状態を追跡するために、はるかに多くのコンテキスト出力トークンを消費します。

WebTailBenchは、Microsoftが議論を深める場所です。この新しいベンチマークは、過小評価されているが非常に一般的なタスクに焦点を当てています： - 複数のポータルでの求人応募 - 地図ビューでのフィルターを使用した不動産検索 - 製品やサービスのマルチサイト比較

WebTailBenchで、Fara-7Bは38.4%のスコアを獲得し、前回の最高の7Bクラスエージェントを大きく上回りました。このタスクは、正確な「適用」ボタンの位置を特定したり、ページネーションをナビゲートしたり、サインインを管理したりといった、ピクセル単位の決定に基づいています。単にテキストを要約するだけではありません。

効率性は物語のもう一つの半分です。Fara-7Bは、重量級エージェントシステムの約10分の1の出力トークンを使用し、いくつかのWebVoyager WebTailBenchタスクにおいてそれらと同等かそれを上回るパフォーマンスを発揮します。モデルが少なく、軌道が短く、オーケストレーション層がないことにより、レイテンシが低下し、コストも大幅に削減されます。

全体として、これらの数字は、70B以上の巨大企業だけが本格的なコンピュータ利用の自動化を実現できるという仮定を覆します。Fara-7Bは、専門のエージェントが現実的なウェブタスクで最先端の結果を提供できることを示しており、運用コストが安価で、ローカルにプライベートで大規模に行えることができます。

次に起こることを記憶するAI

今週、世界モデルは研究論文から現実へと移行しました。MBZ UAIの新しいシステムPanは、「ビデオAI」が意味するものを静かに書き換えます。単一の美しいクリップを生成するのではなく、すべてを忘れてしまうのではなく、Panはプロンプトやフレームを超えて持続するシミュレーションを行います。完全なシーケンスも含まれます。それをカメラとしてではなく、むしろ小さく制御可能な宇宙として考えてください。

従来のテキストから動画へのモデルは金魚のように振る舞います：プロンプトを入力すると、4～8秒の映像を生成し、その後、メモリが完全にリセットされます。内部状態は引き継がれないため、「今、左に曲がって」といったフォローアップのプロンプトは、言葉に loosely マッチした新しいシーンを生み出すだけです。彼らが生成するのはピクセルであり、結果ではありません。

パンは全く異なるカテゴリーに属します：ワールドモデルです。ワールドモデルは、オブジェクト、エージェント、環境（固有名詞ではありません）の内部表現を維持し、行動の進行に伴ってその表現を更新します。あなたが見る動画は、その隠れた状態のレンダリングに過ぎず、コア製品ではありません。

パンに都市の通りに車を生成するように頼んでください。固有名詞ではありません。内部シーングラフを作成します：位置、向き、速度、関係性。「左に曲がって」と言ってください。固有名詞ではありません。パンは単に新しい角度で車を再描画するわけではありません。シミュレーション内での回転軌道の変更を適用し、その後、更新された状態を次のビデオチャンクとしてレンダリングします。

別のコミュニケーションを行う。 "スピードアップ" のような固有名詞ではない。同じ内部の車が、一貫した照明やレイアウト、カメラのフレーミングの下で同じ道を加速する。指示を連結することができます。

1「左に曲がってください」
2「加速する」
3「赤信号で止まる」
4「歩行者を渡らせてください」

パンはそれぞれを4つの切り離されたプロンプトではなく、1つの連続したタイムライン上の別の刻みとして扱います。

その連続性は、現在のほとんどのジェネレーターが破っているものです。彼らは、単発の一貫性—鮮明なフレーム、映画的な動き、派手なスタイル—を最適化しながら、キャラクターが微妙に変化したり、小道具がテレポートしたり、適切な名詞でない部屋のレイアウトがクリップ間で漂ったりします。Panのワールドモデルは優先順位を逆転させます：状態を保持し、その上に動画を描画することです。

パネルは、Qwen2.5-VL-7Bを中心に構築された推論コアに依存しています。これは、Hunyuan-Video（Qwen2.1-T2V-14Bクラスの技術）から適応されたビデオのバックボーンであり、論理とビジュアルを同期させています。推論側は、何が存在し、どのように動くかを追跡し、ビデオ側はその進化する元帳を視覚化します。

連続的なコミュニケーションは、システムが本当に記憶しているかどうかをテストします。「ロボットアームを赤いブロックに動かす」と「それを拾う」といった固有名詞ではない指示ではなく、赤いブロックとその座標、アームのポーズがその持続的な内部世界に存在し、次に何を求められても対応できる状態であることが重要です。

一瞬一瞬で世界を築く

パンは、縫い合わせられた脳のように機能します。MBZ UAIは、推論コアとしてQuen 2.5 VL 7Bを接続し、指示を管理し、物理学や物体の関係を処理します。そして、構造化された「世界の状態」をJuan 2.1 T2V 14Bに渡します。これは、シャープで一貫したフレームに調整されたテキストからビデオへのデコーダーです。この分割により、ロジックとビジュアルが切り離され、スタイルの決定がオブジェクトの位置や動きに混乱をもたらすことはありません。

適切な固有名詞ではないが、ビデオを一度に繊細に展開することに関して、Panはチームのシステムに依存しています。それをコンベヤーベルトのように考えてください：各クリップはノイズのある潜在フレームとして到着し、クリーンなビデオに洗練され、次に未来の部分が尊重しなければならない歴史として固定されます。新しいセグメントは過去のフレームにのみ依存でき、決して先を見ることはできません。これにより、長いビデオモデルを悩ませる突飛なテレポートや連続性の破れを防ぎます。

Causal swind dpmは、条件フレームに制御されたノイズを加えというひねりを加えます。参照画像をわずかに劣化させることで、Panはテクスチャのちらつきのようなピクセル単位の詳細にこだわるのをやめます。具体名詞が構造に焦点を合わせ、物体の位置や運動ベクトル、具体名詞の相互作用パターンを重視します。その光沢よりも幾何学への偏りがあるため、ロボットアーム、車、またはキャラクターがオフモデルのぐちゃぐちゃにならずに、何十ステップにもわたって持続できるのです。

これらは安くはありません。MBZ UAIは960台のNVIDIA H200 GPUのクラスターでビデオデコーダーをトレーニングしました。このようなセットアップは、学術的なデモではなく、最前線のLLMに通常用いられます。彼らは拡散デコーダーに対してフローマッチングの目的を使用し、FlashAttention-3のような最適化やシャーディングされたデータパネルトレーニングを組み合わせて、スケールで勾配を動かし続けました。

Quen 2.5は単にプロンプトを繰り返すのではなく、因果関係を学びました。チームは、行動が目に見える結果につながるデータセットをキュレーションしました。例えば、ドアはハンドルを回すと開き、容器が傾くと液体がこぼれ、風が変わるとドローンが漂流します。このバイアスは、「左に曲がる」「加速する」「青いブロックを赤いブロックの上に積む」といった命令があるとき、シーンをリセットすることなくシミュレーションを続けるPanに現れます。

このトレーニングの哲学は、MicrosoftがウェブサイドでFara-7Bに対して行ったことを反映しており、エージェントを長期の軌道に基づかせています。個別のスナップショットの適切な固有名詞ではありません。このアプローチがコンパクトなコンピュータ使用モデルでどのように展開されるかを見たい人は、Hugging FaceのFara-7Bモデルを確認できます。Panは、ピクセルに対しても同じ継続性への執着を適用しており、物理学の適切な固有名詞でも、ブラウザタブの適切な固有名詞でもありません。

ジャイアンツが新しいトリックで目覚める

業界の巨人たちは、汎用チャットボットを高度に特化したツールに静かに置き換えています。すべての問いに答えるモデルではなく、企業はAIを目的に特化したシステムに切り分けています。ウェブアプリを操作するエージェントや、時間をかけて世界をシミュレートするモデル、買い物、学習、またはブラウジングに特化したアシスタントなどです。Fara-7BやPanは例外ではなく、 タスクネイティブAI へのシフトの初期の兆しです。

Googleの動きは一見控えめに見えるかもしれませんが、インタラクティブイメージがGeminiの中に組み込まれています。その背後には、学生や趣味人、専門家たちが視覚資料からどのように学ぶかを独自に掌握しようとする戦略的な意図があります。物理学の図をタップすると、Geminiは力を強調し、構成要素にラベルを付け、静的な説明ブロックを提供するのではなく、段階的に推論を説明します。

教育はこれを特別に強力にします。生物学の学生は解剖図を見ながら、段階的な説明やクイズ形式の質問、特定の画像の領域に関連したフォローアップ質問を受けることができます。教師はダイアグラムをジェミニにドラッグすることで、インタラクティブなレッスンや問題セット、同じ視覚素材に基づくバリエーションを瞬時に生成できます。

そのインタラクティビティは、Googleのエコシステムにおけるロックインにつながります。インタラクティブ画像は、Gemini、Google Docs、Classroomの軌道内にいるときに最も効果を発揮します。すべての注釈付き図、共有ワークシート、保存されたセッションは、学校やクリエイターがコンテンツ—ユーザー—をGoogleの学習スタック内に保ち続ける理由の一つになります。

パープレキシティは、異なる角度から商業に進出しています。新しい会話型ショッピングアシスタントは、商品検索を継続的な対話に変え、あなたの好みを時間とともに記憶します。毎回新しい検索を行うのではなく、あなたはアシスタントが静かに適用する、持続的なプロフィールを構築します。このプロフィールには、ブランド、サイズ、予算、妥協できない条件が含まれています。

その執念は、「ノートパソコンを見つけて」という段階から「静音性があり、14インチで1,200ドル以下の冷却性能が良く、Linuxサポートが充実しているものが必要です」といった具体的な要求に移行する際に重要です。Perplexityのシステムは、トレードオフを調整し、複数の小売業者から情報を引き出し、あなたが何を求めているのかを洗練させていく過程で数日間または数週間にわたってコンテキストを保持します。それは検索エンジンのようではなく、むしろあなたのブラウザに組み込まれたパーソナルバイヤーのように振る舞います。

これは固有名詞ではなく、OpenAIのより一般的なアプローチに直接的な圧力をかけています。OpenAIがGPTに関して広範な議論をしている一方で、競合他社は日常のワークフローに組み込まれるような厳密に範囲を定めたツールを提供しています：勉強、ショッピング、ブラウジング、構築。AIは「回答ボックス」からインフラストラクチャへと移行しており、勝利する企業は、そのモデルがチャットボットのように感じられず、すでに使用しているアプリの統合された機能のように感じられるものになるでしょう。

あなたの次のAIアシスタントは、あなたの眼鏡かもしれません。

アリババは、あなたの次のAIアシスタントがポケットの中ではなく、あなたの顔の上にいると賭けています。中国全土で発売された新しいCork S1 Not a proper noun G1 スマートグラスラインは、SFのプロトタイプというよりも、スマートフォンやイヤフォンの隣で販売する準備が整ったハードウェアのように見えます。

両モデルはリアルタイムの知覚に大きく依存しています。メニューや広告、地下鉄の地図を見つめると、眼鏡が瞬時に翻訳を重ね合わせ、英語から中国語、またはその逆に1秒以内で変換します。ビジュアルQ&Aでは、商品ラベルや店舗、文書を見つめて自然言語の質問をすることができ、回答は視界に表示されたり、骨伝導オーディオを通じて伝えられたりします。

アリババのエコシステムとの深い統合により、あなたのデジタルライフの物理的なフロントエンドとなります。タオバオとの連携により、店舗でアイテムを見て、オンラインの価格やレビュー、レコメンデーションを確認することができます。アリペイのフックによって手数料無料の支払いが約束され、ナビゲーションはAmapを利用して実際の通りや店舗に方向を固定します。フラットなスマートフォンの画面上での体験を実現します。

価格設定は、アリババがどれほど攻撃的になりたいかを示しています。中国のウェアラブルデバイスはすでに何千万台ものスマートウォッチが出荷されており、アリババはCork S1やG1をフラッグシップスマートフォンよりもプレミアムヘッドフォンに近い位置づけにしています。モバイルキャリアとの補助付きバンドルやタオバオでのショッピングクレジットは、500ドル以上のことが多く、先進的な技術を好む層をほとんど離れない西洋のスマートグラスを下回っています。

中国のウェアラブル市場はアリババに追い風を与えています。消費者はすでにワイヤレスイヤフォンを使い捨てのアップグレードとして扱っており、18〜24ヶ月ごとに交換しています。AIグラスを贅沢品ではなく次のステップとして位置付けることで、アリババは新たな習慣を作り出すのではなく、既存のアップグレード習慣に乗ることができます。

アリババが試しているのは、アシスタントが現実の中で持続的で文脈を理解する層として存在すべきかどうかです。電話を取り出すことやアプリを開くことではなく、あなたが見るものを見て、あなたが言うことを聞き、その瞬間に応答することです。そのモデルが定着すれば、AIはチャットボックスであることをやめ、日常生活に織り交ぜられた常に存在する、環境に溶け込んだ存在へと変わります。

なぜOpenAIは懸念すべきか

OpenAIは突然、避けられないプラットフォームのように見えなくなりました。固有名詞ではなく、非常に大きく、非常に高価な選択肢という感じです。マイクロソフトのFara-7Bは、70億のパラメータを持つエージェントがローカルで動作することで、WebVoyager、Online-Mind2Web、WebTailBenchにおいてクラウドに依存する巨大企業と渡り合ったり、打ち勝ったりできることを示しています。そして、そのコストはだいたい30セントのタスクあたり2.5セント程度です。これは、すべてのスクリーンショットをデータセンターにストリーミングするGPT-4oスタイルのエージェントの経済的なストーリーを打ち消すものです。

大きさはもはや自動ではない単なる固有名詞ではなく、単一のデバイス上のモデルがピクセルを認識し、推論し、支援システムの足場なしに行動できることが重要です。Fara-7Bの合成トレーニングパイプラインは、145,000以上の検証済みセッションで100万を超えるアクションを使用し、高品質な挙動をユーザーのテレメトリーを蓄積することなく得られることを証明しています。企業が自社のハードウェア上で迅速、プライベート、低コストの自動化を実現できる場合、デフォルトの「すべてをOpenAIのクラウドに送信する」という提案は弱まります。

MBZ UAIのPanは、別の角度からOpenAIに挑戦します：野望です。Panは、Quen 2.5とJuan 2.1を織り交ぜて、次のビデオのチャンクから何が起こったかを記憶する世界モデルを構築します。因果関係を考慮したSwiNN-DPMのロールアウトを使用し、960台のNvidia H200 GPUを駆使して、時間を通じてシーンを一貫性のあるものに保ちます。これは、OpenAIがデモでうたっている長期的かつ結果を意識した行動ですが、オープンインフラストラクチャとしては提供されていません。

オープンソースの研究所は、モジュール式の部品から最先端の能力を組み立てることができることを示しています。そして、そのレシピを公開しています。Panを使用すれば、インタラクティブで持続可能なビデオ環境の設計図は、特定のベンダーに依存しなくなります。誰もがその能力をフォークし、微調整し、埋め込むことができるとき、OpenAIのクローズドスタック優位性は、構造的な堀ではなく、一時的なリードのように見えます。

一方、Google、Perplexity、Alibabaは静かに専門的なモデルを使いやすい製品に転換しています。Geminiのインタラクティブ画像はGoogleの検索機能内に存在し、Perplexityのショッピングエージェントはユーザーの習慣を記憶する検索のようなインターフェース上で動作し、AlibabaのCork S1 G1 AIメガネは完全なハードウェアエコシステムとして出荷されます。これらは一般的なチャットボットではなく、密接に統合されたユーティリティです。

ハードウェアは固有名詞ではなく、エコシステム統合はAPIアクセスが容易に越えられない堀を生み出します。OpenAIはChatGPTというデスクトップアプリを持っていますが、量販市場向けの眼鏡や電話OS、検索エンジン、小売スーパ―アプリはありません。Fara-7Bのようなモデルがオープンウェイトを介して広まる中、Fara-7B技術レポート - マイクロソフトリサーチのようなレポートが出ると、重心はデバイス、ワークフロー、データを所有する人の方に移ります。モデルだけではなく。

あなたのAIがついに帰ってくる

マイクロソフトの発表週は、消費者向けAIの流れを静かに変えました。Fara-7B、Pan、Geminiのインタラクティブ画像、Perplexityのショッピングアシスタント、AlibabaのCork S1。G1は、より大きなリーダーボードを追求するのではなく、日々の利用を追求します。これらは、抽象的なデモから実用的で、個人的な、プライベートなシステムへの転換を示唆しています。

Fara-7Bは、ローカルマシン上で70億のパラメーターを持つフルコンピュータ使用エージェントを運用しており、WebVoyagerタスクあたり約$0.025で動作します。これは、GPT-4.1スタイルのスタックの約$0.30と比較されます。このシングルモデルデザインはレイテンシを大幅に削減し、スクリーンショットに対する帯域幅をゼロにし、ブラウジングデータをリモートサーバーから守ります。Fara-7Bの145,631回の確認済みセッションによる合成トレーニングと100万件以上のアクションは、ユーザーをログインさせることなく精度を得ることができることを示しています。

パンは異なる方向に押し進めます：フレームごとに何が起こったかを記憶する持続的なワールドモデルです。そのQuen 2.5 VL-7B + Juan 2.1 T2V-14Bスタックは、960個のNvidia H200 GPUで訓練されており、動画を生きたシミュレーションのように扱います。それは使い捨てクリップの適切な名詞ではありません。このアーキテクチャは、ロボティクスやAR、そして映画的な磨き以上に連続性が重要なゲームの扉を開きます。

アリババのコルクS1は、AIグラスがアシスタントをチャットウィンドウからあなたの顔に引き出します。パーティや完全なオンデバイスで動作するモデルと組み合わせることで、米国のデータセンターを介さずに、ヘッドアップの翻訳、ナビゲーション、検索を実現することを約束します。ジェミニのタップ可能な図を組み合わせ、パープレキシティの習慣に基づいたショッピングフローと共に、AIは取引的なものではなく、環境的なものとして感じられるようになります。

適切な名詞ではないため、役立つAIがハイパースケールクラウドに存在しなければならないという仮定が揺らいでいます。ローカルまたはハイブリッドエージェントは以下を意味します： - より低いレイテンシ - より強いプライバシー - より低い運用コスト - より広いハードウェアの適用範囲

1年後、あなたの生活に最も大きな変化をもたらすのはどれですか？Fara-7Bスタイルのローカルエージェント、Panのような世界モデル、または顔から離れないメガネに組み込まれたAIですか？

よくある質問

マイクロソフトのFara-7Bは、他のAIエージェントと何が違うのでしょうか？

Fara-7Bは、デバイス上でローカルに動作するように設計された単一の7Bパラメータモデルです。クラウドインフラや複数の支援モデルを必要とせずにスクリーンショットを直接処理するため、より速く、安価で、プライバシーも守られます。

「MBZ UAIのPanのような『ワールドモデル』とは何ですか？」

ワールドモデルは、過去の出来事を記憶し、行動の結果を予測しながら、時間を通じて連続した環境をシミュレートします。標準的なビデオ生成器とは異なり、シミュレーションと計画のために整合性と因果関係を維持します。

Fara-7Bはユーザーデータなしでどのように訓練されましたか？

マイクロソフトは、FaraJenという合成データエンジンを使用し、70,000のウェブサイトにAIエージェントを展開してリアルなユーザーセッションを生成しました。このデータは、その後、3人のAI審査員によって検証され、高品質でプライバシーを保護したトレーニングセットが作成されました。

これらの新しいモデルはオープンソースですか？

はい、マイクロソフトはFara-7Bをオープンウェイトモデルとしてリリースしました。MBZ UAIのPanも、いくつかの商用システムに挑戦する先進的なオープンソースの世界モデルです。

𝕏 in ↑↗

マイクロソフトのFARAがオープンAIを驚かせた