TL;DR / Key Takeaways
クラウドAI税があなたの財布を drainしています。
クラウドAIは無料のように感じられますが、請求書が届くと状況が変わります。GPTスタイルのAPIにおけるトークンごとの料金設定は、すべての実験を小さな財務上の決定に変えます。週末のプロトタイプから製品に移行する際には、その決定が急速に積みあがります。エージェントをいくつか立ち上げたり、長いコンテキストをストリーミングしたり、A/Bテストのバッチを実行したりすると、使⽤状況のグラフはユーティリティのようではなく、新しい従業員の給与のように見えてきます。
トークンごとの経済が好奇心を罰する。100,000トークンのデータセットで3つの異なるAIモデルを比較したいですか?それは、アイデアが機能するかどうかも分かる前に、毎回数十万トークンが請求されることになります。これを、終日エンドポイントを叩く開発者チームに拡張すると、「試してみて」はレート制限や予算の警告の下で静かに消えてしまいます。
コストは問題の半分に過ぎません。クラウドAPIに送信するすべてのプロンプト、ログ、ユーザー記録は、他者のインフラを通過し、その保管ポリシー、アクセス制御、漏洩リスクに従っています。医療、金融、または内部製品データに関しては、「私たちを信頼してください、匿名化しています」と言っても、規制当局や顧客が難しい質問をし始めると薄っぺらに感じられます。
データを所有するということは、それが移動する計算経路を所有することを意味します。ローカル推論は、生の入力、中間埋め込み、および生成された出力をあなたが管理するマシン上に、あなた自身のファイアウォールの背後で、あなた自身の監査ルールのもとに保持します。国境を越えたデータ転送はなく、第三者のログもなく、あなたの独自のコーパスでトレーニングされた謎の「モデル改善」プログラムも存在しません。
Exoは、コンピュートをレンタルする従来のモデルを所有するモデルに変革します。OpenAIやAnthropicにトークンごとに永遠に支払うのではなく、既に所有しているMac、Linuxボックス、さらにはRaspberry PiをピアツーピアAIクラスターに変えます。あなたのネットワークがデータセンターとなり、ハードウェア予算は無限のサブスクリプションではなく、一度きりの資本支出になります。
その再構築は、率直な質問を引き起こします:もしあなたが二度とクラウドGPUを必要としなくなったらどうなるのでしょうか?Exoの独自のベンチマークは、ローカルネットワーク上のMシリーズMacのクラスターで235Bから671Bのパラメーターを持つAI AIモデルが動作していることを示しています。それでは、A100ラックの代わりに「古い」機械の山が使えるようになると、クラウドAI税はどうなるのでしょうか?
エクソに会いましょう:あなたの個人用AIベオウルフクラスター
クラウドAIは、スポーツカーを分単位でレンタルするような感覚です。Exoはそのモデルを逆転させます。これは、あなたのデスクやクローゼットにあるランダムなマシンの山をピアツーピアのAIクラスターに変えるオープンソースシステムです。クラウドも、トークンごとの税金もなく、ただあなたのハードウェアが一つの巨大なアクセラレーターのように機能します。
それをLLMのためのベオウルフクラスタと考えてください。大学院でのネットワーキングの苦痛を除いて。従来のHPCクラスターは、手作業での設定、IPスプレッドシート、MPIエラーに費やされる週末を必要とします。Exoは、ローカルネットワーク上のデバイスを自動的に検出し、それらの利用方法を交渉し、アプリのためにクリーンなOpenAIスタイルのHTTPエンドポイントを公開します。
コアの仕組み:Exoは、異種デバイス間でメモリと計算をプールし、まるで一つの論理GPUのように機能させます。あなたのMacBook Pro、Linuxタワー、そしていくつかのRaspberry Piが孤立したおもちゃではなく、1台の融合したマシンとして動き始めます。「このGPUに適合するか?」という問いを、「家全体に適合するか?」という問いに置き換えます。
Exoは、各ノードの帯域幅、遅延、空きRAMをチェックし、それに応じてAIモデルをシャーディングします。テンソル並列性とパイプライン並列性を利用して、大規模な重み行列やレイヤースタックをデバイス間で分割し、活動をLANを介して送信します。実際には、各ボックスが数十GBしか持っていなくても、共有VRAMを得ることができます。
Exoは推論のみに焦点を当てており、トレーニングは行いません。これにより問題が管理しやすく、ユーザーエクスペリエンスが保持されます。Llama 3やDeepSeek V3のような事前トレーニング済みの重たいモデルをロードして、ただ生成するだけです。バックプロパゲーションも最適化ステートも不要で、数日間のトレーニングを監視する必要もありません。
数字が現実を作る。コミュニティのベンチマークによると、Qwen 3 235Bは4台のM3 Ultra Mac Studioで約32トークン毎秒で動作しています。Exo Labs自体は、8台のM4 Mac miniでDeepSeek V3 671Bを運用し、約512 GBの効果的なメモリを8ビット精度で利用しました。
混合ハードウェアはあなたを失格にするものではありません。ExoはmacOS上でMLXを通じてAppleシリコンGPUを活用し、Linux上ではCPUやGPUに依存し、さらにはRaspberry Piを引き入れて追加のRAMや軽い計算を行うことも可能です。有線リンクやThunderbolt 5 RDMAはレイテンシを十分に削減し、モデルの観点から見ると、あなたの分散したマシンは一つのローカルAIスパコンのようにぼやけます。
ゼロコンフィギュレーションクラスタリングの魔法
魔法は、どんなプロンプトがAIモデルに届く前から始まります。MacBook、Linuxボックス、またはRaspberry PiでExoを起動すると、すぐに自動発見が始まり、ローカルネットワーク内の他のExo対応デバイスをスキャンしてそれらを一つのクラスターに統合します。ダッシュボードもウィザードもなく、「高度な」タブがサブネットマスクを隠していることもありません。
従来の分散システムでは、パフォーマンスのすべてのトークンを獲得するために奮闘する必要があります。IPアドレスを juggling し、ポートを開き、YAMLを編集し、Kubernetes、Slurm、またはRayなどのオーケストレーションレイヤーを見守る必要があります。Exoはそれをひっくり返します。AirPlayのように振る舞い、スピーカーではなくAIモデルのためのものです。
Exoは起動すると静かにネットワークのベンチマークを行います。各ノードの帯域幅、レイテンシ、および利用可能なメモリを測定し、その後、テンソルとパイプラインの並列処理を使用してAIモデルをどのようにシャーディングするかを決定します。16GBのRaspberry Piと128GBのMac Studioは同じスライスを持つことはなく、それを実現するために設定ファイルに触れる必要はありません。
ワークフローには、通常の分散コンピューティングの作業が欠けています。あなたは以下のことを行いません: - IPやホスト名を手動で割り当てる - クラスター全体のYAML仕様を書く - Docker Swarm、Kubernetes、またはSlurmキューを設定する
代わりに、ExoはあなたのLAN上にOpenAI互換のエンドポイントを公開し、アドホックなマシンの集まりを1つの論理的なアクセラレーターとして扱います。アプリをローカルURLに向けると、Exoがバックグラウンドでルーティング、スケジューリング、デバイス間の転送を処理します。
それをクラウドで同等のクラスターを立ち上げることと対比してみてください。そこであなたは、AIモデルを読み込む前にVPC、セキュリティグループ、ノードグループ、自動スケーリングポリシーを組み合わせなければなりません。exo: あなたの日常のデバイスで自宅にAIクラスターを構築を使用するホームラボは、実験にすぐに取り組むことができます。ゼロコンフィギュレーションのクラスター化は、「古いハードウェアを持っている」に「AIスーパコンピュータを持っている」を1つのコマンドで変えます。
エクソが巨大なAIの脳を分解する方法
1台のマシンに収まらない脳は、スライスされる必要があります。Exoのトリックはモデルシャーディングです:それは巨大なAI脳を切り分け、複数のCPU、GPU、さらにはRaspberry Piのような小型ボード上で動作するようにし、実行時に再び組み合わせます。あなたのアプリケーションにとって、それはまだ単一のOpenAIスタイルのエンドポイントの背後にある一つの巨大なAIモデルのように見えます。
内部では、Exoはテンソル並列性に依存しています。完全なトランスフォーマー層を一つのデバイスにロードするのではなく、その層の巨大なテンソル—重み、活性化、アテンション行列—を複数のマシンに分割します。それぞれのデバイスが自分の分担した計算を行い、Exoが部分的な結果を次の計算ステップに融合します。
パイプライン並列処理は第二の軸を追加します。ExoはAIモデルの異なる層やブロックを異なるノードに割り当て、ネットワークを組立ラインに変えます。トークンは、一つのボックスの埋め込み層から別のボックスの注意ブロックへ、さらに他の場所の出力層へと、すべて緊密なリレーの中で流れます。
スマートスプリッティングは、システムがクラスターの物理的レイアウトを理解している場合にのみ機能します。Exoはトポロジー認識型パーティショニングを実行し、各ノードのVRAM、システムRAM、CPUタイプ、ストレージを調査し、その後、Wi-Fi、イーサネット、サンダーボルトのリンクレイテンシと帯域幅を測定します。このプロファイルに基づいて、テンソルスプリットとパイプラインスプリットの選択や、それぞれのシャードの配置が決定されます。
最新のApple GPUを搭載した大型のMacは、最も重いレイヤーを扱います。Exoは、M4 Proを搭載したMacBook Pro上で、最も大きなパラメータマトリックスを持つ注意機構とフィードフォワードブロックを固定することができます。AppleのMLXスタックを使用することで、データをできるだけGPU上に保持します。これにより、GPUに束縛されたセグメントは最速のシリコン上に留まり、高価な転送を最小限に抑えます。
一方で、より性能の低いデバイスも貢献しています。同じLAN上のRaspberry Piは、グラフの中の軽量でCPUに依存した部分、つまりトークン化、ルーティングロジック、小さなプロジェクションレイヤー、または後処理をホストすることができます。ExoはそのPiを別のシャードターゲットとして扱い、限られたRAMと控えめなコアに合った作業をスケジュールします。
グラフが実行されると、アクティベーションがシャード間でネットワークを流れます。Thunderbolt 5に接続された対応Macでは、ExoはRDMAスタイルのGPU間転送を利用し、CPUを経由する場合と比べてレイテンシを最大99%削減します。例えば、4台のM3 Ultra Mac Studioが協力して235BパラメータのQwen 3セットアップを処理し、このアプローチを使用して1秒あたり約32トークンを処理することができます。
あなたのラップトップにあるプライベートなOpenAI互換API
クラウドAI APIは、ネットワーキング、負荷分散、HTTP経由でトークンをストリーミングするなどの難しい部分を隠しているため、スムーズに感じられます。Exoはそのプレイブックを静かに盗み取り、あなたのラップトップに移植します。これを起動すると、OpenAI API のように振る舞うローカルHTTPエンドポイントが得られますが、すべてのトークンはあなたがすでに所有しているハードウェアから来ます。
開発者にとって、統合はほぼ侮辱的なほどシンプルに見えます。あなたのコードが `https://api.openai.com` を指している場所では、ベースURLを `http://localhost:11434`(またはExoが使用するポート)に置き換え、同じ OpenAI互換 のJSONペイロードを保持します。既存の `/v1/chat/completions` や `/v1/completions` への呼び出しは、OpenAIのサーバーの代わりにあなたのExoクラスターにルーティングされます。
その一行の変更は、すでにAI搭載アプリを提供している場合には重要です。あなたのCLIツール、ブラウザ拡張機能、またはバックエンドサービスは、現在のリクエスト形式、エラーハンドリング、ストリーミングロジックを維持できます。Exoがバックグラウンドでシャーディング、スケジューリング、ハードウェア検出を行う間、洗練されたクラウドAPIのエルゴノミクスを保つことができます。
互換性はカスタムコードを超えています。Open WebUIのようなツールは、ExoとOpenAIのように対話でき、あなたのLANを離れないプライベートなChatGPTスタイルのインターフェースを提供します。Open WebUIの「OpenAIベースURL」を`localhost`に設定し、ExoがホストするAIモデルを選択すれば、Mac mini、Linuxボックス、Raspberry Piによって駆動される完全なチャットコンソールが利用できます。
すべてをローカルで実行することは、経済性や脅威モデルを変えます。トークンごとの予期しない請求、実験を制限するレート制限、サードパーティのデータセンターを通過するプロンプトや文書はありません。顧客の記録、独自のコード、または規制されたデータを扱うチームにとって、ローカルのOpenAI互換APIは、面倒なコンプライアンスレビューを避けることを意味します。
開発者体験はそのままに、インフラが一新します。引き続き`POST`でJSONを送信し、レスポンスを解析し、トークンをログに記録しますが、今ではクォータの増加を要求する代わりに、別のMacBookを接続することでスケールできます。ExoはあなたのネットワークをプライベートAIバックボーンに変え、すでに知っているのと同じAPIインターフェースを維持しながら、背後で何が起こるかに対する制御を大幅に強化します。
サンダーボルト5の秘密兵器
RDMAはネットワーキングのアルファベットスープのように聞こえますが、Appleの最新ハードウェアでは静かにスイッチが切り替わります:あなたのThunderboltケーブルが高速度のGPU間のへその緒になります。Thunderbolt 5を介したリモートダイレクトメモリアクセスにより、一台のMacのGPUが別のMacのメモリに直接読み書きでき、CPUを完全にスキップします。
従来のマルチマシンセットアップでは、テンソルが各システムのCPUとシステムRAMを介して移動するため、毎回のホップでミリ秒単位のオーバーヘッドが発生します。RDMAはその遠回りを排除し、ノード間の待機時間を最大99%削減し、Thunderbolt 5を外部ポートから内部PCIeファブリックに近いものに変えます。
Exoがこれを活用することで、Mac StudiosやMac minisの連鎖が一つの大きなマルチGPUボックスのように振る舞い始めます。アクティベーションはThunderbolt 5を介して一つのApple GPUから別のGPUへ直接流れるため、Exoのテンソルやパイプラインのシャーディングは、クラスターのような感覚から、複数のマシンにまたがる一つの巨大なSoCのように感じられるようになります。
ジェフ・ギーリングのテストから得られたベンチマークは、実際にどのようなものかを示しています:4台のM3 Ultra Mac StudioがQwen 3 235Bを使用して、RDMAを介したThunderboltで約32トークン/秒で処理しています。それはクラウド規模のスループットですが、AWSリージョンではなく、誰かのデスクの下で動作しています。
Exo Labsはこのアイデアをさらに推進し、512 GBの統合メモリを持つ8台のM4 Mac miniでDeepSeek V3 671Bを実行しました。Thunderbolt 5によるRDMAのおかげで、これら8台の小型ボックスが一台の巨大なシステムのように機能し、通常はエンタープライズのH100クラスターにしか存在しないAIモデルをホストできるほど大きな共有メモリプールを持つことができました。
プロシューマーにとって、それは費用対効果の計算を一夜にして変えます。数十台の高性能GPUを時間単位でレンタルする代わりに、Thunderbolt 5対応のMacをいくつか直列接続し、Exoにそれらを200Bパラメータ以上のAIモデルのための1つの論理的アクセラレーターとして扱わせることができます。
自家製AIラックを計画している人には、明確なレシピがあります: - Thunderbolt 5対応のAppleシリコンマシン - トップオブラックスイッチの代わりにケーブル - シャーディングとRDMAを調整するExo
詳細、サポートされている構成、そしてロードマップは公式エクソサイトに掲載されており、これがThunderbolt 5を自分自身のプライベートAI基盤に変えるためのドキュメントとしても機能します。
実世界のベンチマーク: 理論からトークン/秒へ
ベンチマークによって、Exoはクールなネットワーキングのトリックから信頼できるAI AIモデルエンジンへと変わりました。初期採用者からの数字は、「200B以上のAI AIモデルを自宅で実行する」ということがもはやミームではないことを示しています。特に、すべてを接続してExoにシャーディングのロジックを処理させればなおさらです。
ジェフ・ギアリングのセットアップは、まるでホームラボの夢物語のようだ。4台のM3 Ultra Mac StudioボックスがThunderbolt 5で接続されている。彼はExoのテンソル並列処理とRDMAを利用し、これらのマシンでQwQ-32B-235Bを動作させ、約32トークン毎秒の持続的な生成を達成し、クラスターには約15TBのプールされたVRAM相当のメモリが利用可能だった。
その数字は重要で、時間単位でマルチGPUのA100やH100リグをレンタルできる有料クラウドインスタンスと同じ範囲に収まっています。ギアリングの解説では、各M3 Ultraを追加するごとにほぼ線形の増加が見られ、Exoが手動の再設定なしに新しいメモリと計算リソースにAIモデルを自動的にプッシュしていることが示されています。これは、本格的な分散推論スタックから期待されるスケーリングの挙動そのものであり、週末の副プロジェクトとは異なります。
ExoLabsはDeepSeek V3 671Bでさらに攻め込んでおり、これは通常ハイパースケーラーのデータセンター向けに用意されているモデルサイズです。彼らの内部ベンチマークでは、8ビット量子化されたAIモデルを8台のM4 Mac miniシステムのクラスター上で実行し、約512 GBの統一メモリをプールしました。トークン毎秒の数は小型のAIモデルと比較して減少しますが、要点はシンプルです:671BパラメータのAIモデルは、誰かの机の下にあるミニのスタックからプロンプトに応答できます。
ネットワークはこれらの結果を左右します。ワイヤードリンク — 10 GbE、Thunderbolt 4、そして特にRDMA対応のThunderbolt 5 — は、アクティベーショントラフィックを十分に速く保ち、クラスターが一つの大きなマシンのように動作します。GeerlingのテストとExoLabsの実行結果は、Wi-Fiに戻るとスループットが著しく低下し、各ノード間のホップが消費者用無線の混雑と戦うため、レイテンシが急上昇することを示しています。
スケーリングは非常にシンプルに見えます。より多くのメモリはより大きなAIモデルを意味し、より多くの帯域幅は1秒あたりのトークン数の増加を意味します。デバイスを追加することで、Exoは以下を行います: - 帯域幅、レイテンシ、空きメモリを測定 - テンソルとパイプラインの並列処理を用いてAIモデルを再シャーディング - アプリケーションのためにOpenAI互換エンドポイントを安定させます
コミュニティとExoLabsの両方からのベンチマークは、これが単なる考えの実験ではないことを証明しています。十分な数のMacが有線ネットワークに接続されることで、Exoはデスクトップとミニの集まりをローカルAIスーパーコンピュータに変え、クラウドに手を触れることなく200B~671B領域に到達します。
初めてのラグタグAIクラスターを構築する
週末に自分だけのスクリッピーなAIクラスターを作りたいですか?まずは小規模で有線接続から始めましょう。理想的な初期セットアップは、有線接続の2台の比較的強力なマシンを使用します。例えば、プライマリーノードとしてM2 ProまたはM3のMacBook Proを使い、さらにデスクトップPCまたは別のMacをギガビットまたは2.5 GbEで接続します。Wi-Fiはテストには適していますが、有線接続は、さらなる拡張が必要な際のレイテンシを予測可能に保ちます。
インストールは新鮮なほど退屈です。両方のマシンにGitHubまたは公式サイトからExoをインストールし、Exoデーモンを実行します。そして数秒待ちます。デバイスはLAN上で自動的に互いを検出し、帯域幅とメモリをベンチマークし、AIモデルの切り分け方について静かに合意します。
まずは、フロンティアモンスターではなく、単一の大きめの量子化モデルから始めましょう。最初のターゲットとしては、4ビットの量子化で70BパラメータのAIモデルが適しています。これは、合計64〜128GBのRAMまたは共通メモリを備えた2台の最新の機械に comfortably(快適に)収まります。ワークフローを学んで、ウェイトをダウンロードしたり、Exoを立ち上げたり、ローカルのOpenAI互換エンドポイントに接続したりしてから、200B+の実験に挑戦しましょう。
それが動作するようになったら、ハードウェアの混合を開始します。最も高速なMacまたはLinuxのボックスを「脳」として扱い、手持ちのものを取り付けてください:予備のIntelノートパソコン、ミニPC、あるいはRaspberry Pi 5などです。Exoのトポロジー対応プランナーは、重いテンソルシャードを強力なノードに偏らせ、軽いレイヤーやCPUに優しい作業を古い機器にオフロードします。
この戦略を使えば、さらに進めることができます:
- 1最大のAIモデルのウェイトを最も多くのRAM/VRAMを搭載したマシンに配置してください。
- 2可能な限り、すべてのクラスター ノードは有線 Ethernet または Thunderbolt 接続を使用してください。
- 3Wi-Fiは、Raspberry PiやAndroidフォンなどの低影響のヘルパーだけに使用してください。
新しいAppleシリコンでは、Thunderbolt 5が力を倍増させます。ExoはThunderbolt 5経由のRDMAを利用してGPU間メモリ転送を行い、レイテンシを削減することで、複数のMacが1台の大きなユニファイドボックスのように振る舞うようになります。これが、コミュニティのセットアップがQwen 3 235Bを4台のM3 Ultra Mac Studioで約32トークン/秒という数字に達する方法です—クラウドGPUなし、ただ慎重な配線と量子化で実現しています。
隠れたトレードオフと制限事項
クラウドAIの料金は詐欺のように感じられますが、ローカルAIには独自の隠れた条件があります。Exoはコストをトークンからハードウェアと電力に移行し、最大の制約はもはやVRAMではなく、ネットワークスループットです。235Bや671BパラメータのAIモデルを複数のマシンに分散させると、すべてのトークンが分散システムの問題となります。
ネットワーク速度とレイテンシがすべてを支配します。10 Gbpsの有線接続やThunderbolt 5はテンソルの流れを保つことができますが、混雑したWi-Fi 5ルーターでは絶対に不可能です。ExoはWi-Fiでも動作しますが、「AIスーパコンピュータ」の幻想を、より穏やかな遅いチャットボットに近いものと引き換えにします。
トポロジーは生の計算能力と同じくらい重要です。Exoはノード間でアクティベーションを常に送信しているため、単一の遅延が全体のパイプラインを止めることがあります。オフィスのMac miniとパワーラインイーサネット経由のRaspberry Piのように、たとえ2台のマシン間であっても高いレイテンシーはトークン毎秒を大きく減少させる可能性があります。
混合ハードウェアはロマンティックに聞こえますが、「最も遅いノード」問題が直面すると、その印象は変わります。M4 Max MacBook ProをRaspberry Pi 4や古いIntel NUCに接続すると、Exoは遅いデバイスが処理を終えるまでペースを落とさざるを得ません。これを緩和する方法は以下の通りです: - 弱いノードで小さなまたはCPUに優しいレイヤーを維持する - 本当にパワー不足のデバイスを大規模AIモデルから除外する - ホットパスに参加するすべてのデバイスに有線イーサネットを使用する
Thunderbolt 5によるRDMAは役立ちますが、特定のAppleのセットアップのみで機能します。Jeff Geerlingのベンチマーク「15 TB VRAM on Mac Studio: RDMA over Thunderbolt 5」では、低遅延のGPU間転送がどのように4台のM3 Ultra Mac Studioを1つの巨大なGPUのように機能させるかが示されています。ほとんどの人は、ランダムに集めたノートパソコンではその数字には達しません。
もう一つの厳格な境界線:Exoは推論のみを行います。AIモデルのトレーニング、さらにはファインチューニングには、異なるメモリパターン、オプティマイザの状態、そして勾配の同期が必要であり、Exoは現時点ではそれを実装していません。
分散型AIの夜明け
クラウドAIはかつて避けられないものに見えました:少数のハイパースケーラーが、その知能をトークン単位で提供していました。しかし、Exoは異なる軌道を示唆しています。そこでは、AI AIモデルが、あなたが既に所有しているラップトップ、ミニPC、ホビー基板のネットワーク上で動作します。遠くのGPUファームにプロンプトを送信するのではなく、計算、コスト、そして制御を自分の壁の内側に保持します。
分散型でローカル、プライバシー重視のAIは、MacBook、Linuxタワー、Raspberry Piが共同で235Bパラメータモデルを提供できるようになると、単なる技術者向けのニッチではなくなります。ExoのOpenAI互換エンドポイントは、api.openai.comと通信するアプリがhttp://localhostと通信することができ、違いに気づかないという仕組みを意味します。この切り替えにより、トークンごとの料金が完全に排除されます。
開発者にとって、これは研究予算なしで研究ラボを手に入れるようなものです。8台のM4 Mac miniと512 GBのプールされたメモリでDeepseek V3 671Bを量子化して実験したいですか?もはやAWSのA100ラックや6桁のクレジットラインは必要ありません。いくつかの良いマシンと少しの忍耐があれば十分です。その変化は、どの単一のベンチマークチャートよりも重要です。
ホビー愛好家は突然、最前線に近づきました。二台の中古Mac miniとお下がりのゲームPCを持つ学生でも、企業のNDAの後ろにしか存在しなかったAIモデルを使ってエージェント、ツール呼び出し、RAGパイプラインを実行できます。GitHubからExoをフォークして、いくつかのボックスを接続し、235Bパラメータモデルで30トークン/秒以上を得ることができる場合、「ホームラボ」と「スタートアップインフラ」の境界線は曖昧になります。
ビッグテックの利点は常にスケールにあります:データセンター、独自のアクセラレーター、そしてプライベートモデルの重み。Exoのようなツールは、スケールを資本の問題ではなくソフトウェアの問題にすることで、底からその堀を攻撃します。数本のThunderbolt 5ケーブルとRDMAが4台のMシリーズデスクトップを1台の巨大なGPUのように動作させられるなら、そのGPUをミリ秒単位でレンタルするという主張は弱まります。
分散型AIはクラウドAIを完全に置き換えることはないでしょう。ハイパースケーラーは依然としてトレーニングとグローバルな配信を所有しています。しかし、推論は競争の対象となっています。Exoやそれに類似したプロジェクトが成熟するにつれて、真剣なAIモデルをローカルで実行することは、ハックのように感じられることが少なくなり、むしろデフォルトのように思えるでしょう。
よくある質問
Exoとは何ですか?
Exoは、MacやLinux PC、Raspberry Piなどの複数のデバイスをローカルネットワーク上で統合し、クラウドを利用せずに大規模なAIモデルの推論を実行するための単一の分散クラスターを構築できるオープンソースツールです。
Exoはどのハードウェアをサポートしていますか?
Exoは、macOS(Apple Silicon)、Linux、Androidデバイスなどの多様なハードウェアの組み合わせをサポートしています。これにより、ユーザーはラップトップ、デスクトップ、スマートフォン、Raspberry Piのようなシングルボードコンピュータからリソースをプールすることができます。
Exoは、1つのクラスター内で異なる種類のハードウェアをどのように処理しますか?
Exoはデバイスを自動的に検出し、それらの利用可能なメモリとネットワーク性能を測定し、次にテンソルおよびパイプライン並列処理を使用してAIモデルをそれらのデバイスに知的に分割します。MacではAppleのMLXフレームワークを使用し、LinuxシステムではCPUにフォールバックできます。
Exoを使用してAIモデルをトレーニングできますか?
いいえ、ExoはAIモデル推論専用に設計されており、これは事前にトレーニングされたモデルを実行するプロセスです。ゼロからモデルをトレーニングするという計算集約的なタスクには最適化されていません。