Laufe große KI-Modelle lokal mit Exo: Der Open-Source-KI-Cluster

💡

Zusammenfassung / Kernpunkte

Hören Sie auf, verrückte Cloud-Rechnungen zu zahlen, um große KI-Modelle auszuführen. Ein neues Open-Source-Tool namens Exo verwandelt Ihre bestehenden Macs, PCs und sogar Raspberry Pis in einen leistungsstarken, privaten KI-Cluster.

Die Cloud-AI-Steuer belastet Ihren Geldbeutel.

Cloud-KI fühlt sich frei an, bis die Rechnung kommt. Die Preisgestaltung pro Token bei GPT-ähnlichen APIs verwandelt jedes Experiment in eine kleine finanzielle Entscheidung, und diese Entscheidungen summieren sich schnell, wenn man von einem Wochenend-Prototypen zu einem Produkt übergeht. Starte ein paar Agenten, übertrage lange Kontexte oder führe eine Reihe von A/B-Tests durch, und du blickst auf ein Nutzungsgraf, das weniger wie eine Versorgungsrechnung aussieht und mehr wie das Gehalt eines neuen Mitarbeiters.

Die Token-Ökonomie bestraft Neugier. Möchten Sie drei verschiedene KI-Modelle an einem Datensatz mit 100.000 Token vergleichen? Das sind hundertetausende Token, die bei jedem einzelnen Durchlauf abgerechnet werden, noch bevor Sie überhaupt wissen, ob die Idee funktioniert. Skaliert man das auf ein Team von Entwicklern, die den ganzen Tag an Endpunkten arbeiten, stirbt „einfach mal ausprobieren“ leise unter Rate-Limits und Budgetwarnungen.

Kosten sind nur die halbe Miete. Jeder Prompt, jedes Protokoll und jeder Benutzerdatensatz, den Sie an eine Cloud-API senden, läuft über die Infrastruktur eines Dritten, die durch deren Aufbewahrungsrichtlinien, Zugriffssteuerungen und Sicherheitsrisiken geregelt ist. Bei Gesundheits-, Finanz- oder internen Produktdaten fühlt sich „Vertrauen Sie uns, wir anonymisieren“ dünn an, wenn Regulierungsbehörden und Kunden begannen, schwierige Fragen zu stellen.

Der Besitz der Daten bedeutet, den Rechenweg zu besitzen, den sie zurücklegt. Lokale Inferenz hält rohe Eingaben, Zwischen-Embeddings und generierte Ausgaben auf Maschinen, die Sie kontrollieren, hinter Ihrer eigenen Firewall und unter Ihren eigenen Prüfungsrichtlinien. Keine grenzüberschreitenden Datenübertragungen, keine Protokolle von Dritten, keine geheimen „Modellverbesserungs“-Programme, die auf Ihrem proprietären Korpus trainiert werden.

Exo verändert die Standardpraxis vom Mieten von Rechenleistung hin zum Eigentum. Anstatt OpenAI oder Anthropic dauerhaft pro Token zu bezahlen, verwandelt Exo die Macs, Linux-Rechner und sogar Raspberry Pis, die Sie bereits haben, in ein Peer-to-Peer-AI-Cluster. Ihr Netzwerk wird zum Rechenzentrum, und Ihr Hardware-Budget wird zu einer einmaligen Investition anstelle eines unbegrenzten Abonnements.

Diese Umformulierung führt zu einer klaren Frage: Was wäre, wenn Sie nie wieder eine Cloud-GPU benötigen würden? Exos eigene Benchmarks zeigen KI-Modelle mit 235B bis 671B Parametern, die über Cluster von M-Serie Macs in einem lokalen Netzwerk betrieben werden. Was passiert also mit der Cloud-AI-Steuer, wenn ein Haufen „alter“ Maschinen anstelle eines A100-Racks fungieren kann?

Lerne Exo kennen: Dein persönlicher AI Beowulf-Cluster

Illustration: Treffen Sie Exo: Ihr persönlicher AI Beowulf-Cluster

Cloud-KI fühlt sich an wie das Mieten eines Sportwagens nach Minute. Exo kehrt dieses Modell um: Es ist ein Open-Source-System, das den zufälligen Haufen von Maschinen auf deinem Schreibtisch und in deinem Schrank in ein Peer-to-Peer-KI-Cluster verwandelt. Keine Cloud, keine Gebühren pro Token, nur deine Hardware, die wie ein riesiger Beschleuniger agiert.

Betrachten Sie es als einen Beowulf-Cluster für LLMs, ganz ohne die lästigen Netzwerkprobleme der Graduiertenschule. Traditionelle HPC-Cluster erfordern selbstgebaute Konfigurationen, IP-Tabellen und ein Wochenende, das mit MPI-Fehlern verloren geht. Exo erkennt automatisch Geräte in Ihrem lokalen Netzwerk, verhandelt, wie man sie nutzen kann, und bietet einen sauberen HTTP-Endpunkt im OpenAI-Stil für Ihre Apps an.

Der entscheidende Trick: Exo bündelt Speicher und Rechenleistung über heterogene Geräte, sodass sie sich wie eine einzige logische GPU verhalten. Ihr MacBook Pro, ein Linux-Tower und ein paar Raspberry Pis hören auf, isolierte Spielzeuge zu sein, und beginnen, wie eine integrierte Maschine zu agieren. Sie tauschen „passt es auf diese GPU?“ gegen „passt es in mein ganzes Haus?“ aus.

Im Hintergrund überprüft Exo die Bandbreite, Latenz und den freien RAM jedes Knotens und schneidet die KI-Modelle entsprechend auf. Es verwendet Tensor-Parallelismus und Pipeline-Parallelismus, um massive Gewichtsmatrizen und Schichtstacks über Geräte hinweg aufzuteilen, während die Aktivierungen über Ihr LAN übertragen werden. In der Praxis erhalten Sie einen gemeinsamen VRAM, selbst wenn jede Maschine nur über einige Dutzend Gigabyte verfügt.

Exo konzentriert sich ausschließlich auf Inference, nicht auf Training, was das Problem handhabbar macht und die Benutzererfahrung angenehm hält. Sie laden vortrainierte Schwergewichte wie Llama 3 oder DeepSeek V3 und generieren einfach. Kein Backpropagation, kein Optimierer-Status, keine mehrtägigen Trainingsläufe, die überwacht werden müssen.

Zahlen machen es greifbar. Die Gemeinschaftsbenchmarks zeigen, dass Qwen 3 235B mit etwa 32 Tokens pro Sekunde auf vier M3 Ultra Mac Studios läuft. Exo Labs selbst hat DeepSeek V3 671B über acht M4 Mac minis betrieben und dabei ungefähr 512 GB effektiven Speicher bei 8-Bit-Präzision gebündelt.

Gemischte Hardware disqualifiziert Sie nicht. Exo nutzt Apple Silicon GPUs über MLX auf macOS, greift auf CPUs oder GPUs unter Linux zurück und kann sogar Raspberry Pis für zusätzliches RAM oder leichte Berechnungen einbeziehen. Verkabelte Verbindungen und Thunderbolt 5 RDMA reduzieren die Latenz so stark, dass Ihre verteilten Maschinen aus der Perspektive des Modells zu einem lokalen KI-Supercomputer verschwommen zusammenkommen.

Die Magie der Zero-Configuration-Clustering

Die Magie beginnt hier, bevor irgendeine Eingabe ein KI-Modell erreicht. Starte Exo auf einem MacBook, Linux-Rechner oder Raspberry Pi, und es beginnt sofort mit der Automatischen Entdeckung, indem es dein lokales Netzwerk nach anderen Exo-fähigen Geräten durchsucht und sie zu einem einzigen Cluster zusammenfügt. Keine Dashboards, keine Assistenten, kein „Erweitert“-Tab, der eine Subnetzmaske verbirgt.

Traditionelle verteilte Systeme erfordern, dass Sie jede Token an Leistung erarbeiten. Sie jonglieren mit IP-Adressen, öffnen Ports, bearbeiten YAML und überwachen Orchestrierungsebenen wie Kubernetes, Slurm oder Ray. Exo kehrt das um: Es verhält sich mehr wie AirPlay als MPI, jedoch für KI-Modelle anstelle von Lautsprechern.

Sobald Exo läuft, bewertet es leise Ihr Netzwerk. Es misst Bandbreite, Latenz und verfügbaren Speicher auf jedem Knoten und entscheidet dann, wie das KI-Modell mithilfe von Tensor- und Pipeline-Parallelismus aufgeteilt werden soll. Ein 16 GB Raspberry Pi und ein 128 GB Mac Studio erhalten nicht den gleichen Anteil, und Sie berühren niemals eine Konfigurationsdatei, um dies zu ermöglichen.

Fehlende im Workflow sind alle üblichen Aufgaben der verteilten Datenverarbeitung. Sie: - Weisen keine IPs oder Hostnamen manuell zu - Schreiben keine clusterweiten YAML-Spezifikationen - Konfigurieren keine Docker Swarm-, Kubernetes- oder Slurm-Warteschlangen

Stattdessen bietet Exo einen OpenAI-kompatiblen Endpunkt in Ihrem lokalen Netzwerk an und betrachtet Ihren adhoc zusammengestellten Maschinenpark als einen logischen Beschleuniger. Sie richten Ihre App auf eine lokale URL aus, und Exo übernimmt im Hintergrund das Routing, die Planung und die Übertragungen zwischen den Geräten.

Im Gegensatz dazu, wenn Sie einen vergleichbaren Cluster in der Cloud erstellen, müssen Sie VPCs, Sicherheitsgruppen, Knoten-Gruppen und Autoscaling-Richtlinien zusammenfügen, bevor Sie überhaupt ein KI-Modell laden. Heimlabore, die exo: Führen Sie Ihren eigenen KI-Cluster zu Hause mit Alltagsgeräten aus, überspringen direkt zu Experimenten. Zero-Configuration-Clustering verwandelt „Ich habe etwas alte Hardware“ in „Ich habe einen KI-Supercomputer“ mit einem einzigen Befehl.

Wie Exo ein riesiges KI-Gehirn auseinanderspalten kann

Gehirne, die nicht auf eine Maschine passen, müssen aufgeteilt werden. Exos Trick ist Model Sharding: Es nimmt ein riesiges KI-Gehirn und schneidet es in Stücke, die über mehrere CPUs, GPUs und sogar kleine Platinen wie Raspberry Pi verteilt werden können, und fügt sie dann zur Laufzeit wieder zusammen. Für Ihre Anwendung sieht es immer noch wie ein riesiges KI-Modell hinter einem einzigen OpenAI-ähnlichen Endpunkt aus.

Unter der Haube setzt Exo auf Tensorparallelismus. Anstatt eine gesamte Transformerschicht auf einem Gerät zu laden, verteilt es die massiven Tensoren der Schicht—Gewichte, Aktivierungen, Aufmerksamkeitsmatrizen—auf mehrere Maschinen. Jedes Gerät verarbeitet seinen Teil der Berechnungen, und Exo fügt die Teilergebnisse in den nächsten Schritt der Berechnung zusammen.

Pipeline-Parallelismus fügt eine zweite Achse hinzu. Exo kann verschiedene Schichten oder Blöcke des KI-Modells unterschiedlichen Knoten zuweisen und Ihr Netzwerk in eine Montagelinie verwandeln. Tokens fließen von einer Embedding-Schicht in einem Kasten zu Attention-Blöcken in einem anderen und dann zu Ausgabeschichten an anderer Stelle, alles in einer engen Übergabe.

Intelligente Aufteilung funktioniert nur, wenn das System die physische Anordnung des Clusters versteht. Exo führt topologiebewusste Partitionierung durch: Es befragt jeden Knoten nach VRAM, systeminternem RAM, CPU-Typ und Speicher und misst dann die Latenz und Bandbreite über WLAN, Ethernet und Thunderbolt. Dieses Profil bestimmt, wie es zwischen Tensor- und Pipeline-Aufteilungen wählt und wo jedes Fragment platziert wird.

Ein leistungsstarker Mac mit einer modernen Apple GPU übernimmt die schwersten Schichten. Exo kann die Aufmerksamkeits- und Feed-Forward-Blöcke mit den größten Parametermatrizen auf einem MacBook Pro mit einem M4 Pro fixieren, indem die MLX-Plattform von Apple verwendet wird, um Daten so oft wie möglich auf der GPU zu halten. Diese GPU-gebundenen Segmente bleiben auf dem schnellsten Chip, um kostspielige Übertragungen zu minimieren.

In der Zwischenzeit tragen schwächere Geräte weiterhin bei. Ein Raspberry Pi im selben LAN könnte leichtere, CPU-gebundene Teile des Graphen hosten: Tokenisierung, Routing-Logik, kleine Projektionsschichten oder Nachbearbeitung. Exo behandelt diesen Pi als ein weiteres Ziel für Shards und plant Arbeiten, die in seinen begrenzten RAM und bescheidenen Kernen passen.

Wenn das Graph ausgeführt wird, fließen die Aktivierungen über das Netzwerk zwischen den Shards. Auf unterstützten Macs, die über Thunderbolt 5 verbunden sind, nutzt Exo sogar RDMA-ähnliche GPU-zu-GPU-Übertragungen, wodurch die Latenz im Vergleich zur Umleitung über die CPU um bis zu 99 % gesenkt wird. Vier M3 Ultra Mac Studios können beispielsweise in einem 235B-Parameter Qwen 3 Setup zusammenarbeiten und dabei mit diesem Ansatz etwa 32 Token pro Sekunde verarbeiten.

Eine private, OpenAI-kompatible API auf Ihrem Laptop

Cloud-AI-APIs wirken slick, weil sie all die komplizierten Aspekte verbergen: Netzwerktechnologie, Lastenausgleich, das Streaming von Token über HTTP. Exo schnitzt leise dieses Handlungsschema und bringt es auf deinen Laptop. Starte es und du erhältst einen lokalen HTTP-Endpunkt, der sich wie die OpenAI-API verhält, aber jedes Token kommt von Hardware, die du bereits besitzt.

Für Entwickler erscheint die Integration fast beleidigend einfach. Überall dort, wo Ihr Code auf `https://api.openai.com` zeigt, ersetzen Sie die Basis-URL durch `http://localhost:11434` (oder den entsprechenden Port, den Exo verwendet) und behalten die gleichen OpenAI-kompatiblen JSON-Payloads bei. Vorhandene Aufrufe an `/v1/chat/completions` oder `/v1/completions` werden einfach in Ihr Exo-Cluster umgeleitet, anstatt zu den Servern von OpenAI.

Dieser einzeilige Änderungsbedarf ist wichtig, wenn Sie bereits KI-gestützte Apps versenden. Ihre CLI-Tools, Browsererweiterungen oder Backend-Services können ihre aktuellen Anfrageformate, Fehlermeldungen und Streaming-Logik beibehalten. Sie bewahren die Ergonomie einer ausgefeilten Cloud-API, während Exo im Hintergrund Sharding, Zeitplanung und Hardwareerkennung übernimmt.

Kompatibilität geht über benutzerdefinierten Code hinaus. Tools wie Open WebUI können mit Exo kommunizieren, als wäre es OpenAI, und bieten Ihnen eine private, ChatGPT-ähnliche Schnittstelle, die Ihr LAN nie verlässt. Richten Sie die „OpenAI-Basis-URL“ von Open WebUI auf `localhost` ein, wählen Sie ein KI-Modell, das von Exo gehostet wird, und Sie erhalten eine vollständige Chat-Konsole, die von Ihren Mac Minis, Linux-Boxen und Raspberry Pis betrieben wird.

Alles lokal zu betreiben verändert die wirtschaftlichen Gegebenheiten und das Bedrohungsmodell. Keine überraschenden Rechnungen pro Token, keine Drosselung von Experimenten durch Ratenbeschränkungen und keine Eingabeaufforderungen oder Dokumente, die ein Rechenzentrum von Dritten passieren. Für Teams, die mit Kundenakten, proprietärem Code oder regulierten Daten arbeiten, kann eine lokale OpenAI-kompatible API bedeuten, schmerzhafte Compliance-Überprüfungen zu umgehen.

Die Entwicklererfahrung bleibt vertraut, während Ihre Infrastruktur auf den Kopf gestellt wird. Sie `POST` weiterhin JSON, analysieren Antworten und protokollieren Tokens, aber jetzt können Sie durch das Anschließen eines weiteren MacBooks skalieren, anstatt eine Erhöhung des Kontingents anzufordern. Exo verwandelt Ihr Netzwerk in ein privates KI-Rückgrat, mit derselben API-Oberfläche, die Sie bereits kennen, und viel mehr Kontrolle darüber, was im Hintergrund geschieht.

Die Geheimwaffe Thunderbolt 5

RDMA klingt wie ein Netzwerk-Alphabet-Supp, aber auf Apples neuester Hardware flippt es leise einen Schalter: Ihr Thunderbolt-Kabel wird zu einer Hochgeschwindigkeits-Umbilikalschnur zwischen GPUs. Remote Direct Memory Access über Thunderbolt 5 ermöglicht es einer GPU eines Macs, direkt in den Speicher eines anderen Macs zu lesen und zu schreiben, ohne den CPU vollständig zu nutzen.

Traditionelle Multi-Maschinen-Setups leiten Tensoren durch die CPU und den Systemspeicher jeder einzelnen Maschine, was bei jedem Schritt mehrere Millisekunden an zusätzlicher Verzögerung verursacht. RDMA umgeht diesen Umweg und reduziert die Inter-Node-Latenz um bis zu 99%, wodurch Thunderbolt 5 eher wie ein internes PCIe-Layout als wie ein externer Anschluss wirkt.

Mit Exo, das oben auf dieser Technologie sitzt, beginnt eine Kette von Mac Studios oder Mac Minis, sich wie ein einzelnes, kompaktes Multi-GPU-Gehäuse zu verhalten. Aktivierungen fließen direkt von einer Apple GPU zur anderen über Thunderbolt 5, sodass Exos Tensor- und Pipeline-Sharding nicht mehr wie ein Cluster, sondern wie ein übergroßer SoC wirkt, der sich über mehrere Maschinen erstreckt.

Benchmarks aus Jeff Geerlings Tests zeigen, wie das in der Praxis aussieht: vier M3 Ultra Mac Studios, die Qwen 3 235B mit etwa 32 Token pro Sekunde über RDMA über Thunderbolt betreiben. Das entspricht einer Cloud-ähnlichen Durchsatzkapazität, die jedoch unter dem Schreibtisch jemandes läuft, nicht in einer AWS-Region.

Exo Labs hat die Idee weiter vorangetrieben und DeepSeek V3 671B auf acht M4 Mac minis mit einem gemeinsamen Speicher von 512 GB ausgeführt. RDMA über Thunderbolt 5 ließ diese acht kleinen Geräte wie ein einziges Monster-System agieren, mit einem gemeinsamen Speicherpool, der groß genug war, um KI-Modelle zu hosten, die normalerweise nur auf Unternehmens-H100-Clustern leben.

Für Prosumer ändert sich über Nacht die Machbarkeitsrechnung. Anstatt dutzende hochmoderne GPUs stundenweise zu mieten, können Sie einige mit Thunderbolt 5 ausgestattete Macs kaskadieren und Exo diese als einen logischen Beschleuniger für KI-Modelle mit über 200 Milliarden Parametern behandeln lassen.

Jeder, der ein Homebrew-AI-Rack plant, hat jetzt ein klares Rezept: - Apple-Silicon-Geräte mit Thunderbolt 5‑Fähigkeit - Kabel anstelle von Top-of-Rack-Switches - Exo, das Sharding und RDMA orchestriert

Details, unterstützte Konfigurationen und der Fahrplan sind auf der offiziellen Exo-Website verfügbar, die sich praktisch auch als Dokumentation zur Umwandlung von Thunderbolt 5 in Ihr eigenes privates KI-Rückgrat eignet.

Echte Benchmarks: Von der Theorie zu Token/Sek.

Benchmarks verwandeln Exo von einem coolen Networking-Trick in eine glaubwürdige KI-Modelle-Engine. Zahlen von frühen Nutzern zeigen, dass "ein 200B+ KI-Modell zu Hause ausführen" kein Meme mehr ist, insbesondere wenn man alles miteinander verknüpft und Exo die Sharding-Logik für einen übernehmen lässt.

Jeff Geerling’s Setup liest sich wie ein Traum aus einem Heimlabor: vier M3 Ultra Mac Studio-Boxen, die über Thunderbolt 5 verbunden sind. Mit Exos Tensor-Parallelismus und RDMA führte er QwQ-32B-235B auf diesen Maschinen aus und erreichte etwa 32 Token pro Sekunde an nachhaltiger Generierung, mit rund 15 TB pooled VRAM-äquivalentem Speicher, der dem Cluster zur Verfügung steht.

Diese Zahlen sind wichtig, da sie im selben Bereich wie kostenpflichtige Cloud-Instanzen liegen, die Ihnen Multi-GPU A100- oder H100-Rigs nach Minuten vermieten. Geerlings Bericht zeigt nahezu lineare Fortschritte, während er jedes M3 Ultra hinzufügt, wobei Exo automatisch mehr der KI-Modelle über den neuen Speicher und die Rechenleistung verteilt, ohne dass eine manuelle Neukonfiguration erforderlich ist. Das ist genau das Skalierungsverhalten, das man von einem ernsthaften verteilten Inferenz-Stack erwartet, nicht von einem Wochenendprojekt.

ExoLabs hat mit DeepSeek V3 671B noch einen Gang höher geschaltet, ein Modell, das normalerweise für hyperskalierbare Rechenzentren reserviert ist. Ihr interner Benchmark testete die 8-Bit quantisierten KI-Modelle auf einem Cluster von acht M4 Mac mini-Systemen mit insgesamt etwa 512 GB einheitlichem Speicher. Die Token-pro-Sekunde-Zahlen sind im Vergleich zu kleineren KI-Modellen gesunken, aber die Schlagzeile ist einfach: Ein 671B-Parameter-KI-Modell kann Aufforderungen von einem Stapel Minis unter dem Schreibtisch beantworten.

Netzwerken entscheidet über den Erfolg oder Misserfolg dieser Ergebnisse. Verkabelte Verbindungen – 10 GbE, Thunderbolt 4 und besonders Thunderbolt 5 mit RDMA – stellen sicher, dass der Aktivierungsverkehr schnell genug ist, damit der Cluster sich wie eine große Maschine verhält. Geerlings Tests und die Läufe von ExoLabs zeigen beide, dass bei einem Rückfall auf Wi-Fi der Durchsatz sinkt und die Latenz steigt, da jeder Knotenwechsel mit der Überlastung von Consumer-Wireless-Netzwerken kämpft.

Das Skalieren sieht ebenfalls brutal einfach aus: mehr Speicher bedeutet größere KI-Modelle, und mehr Bandbreite bedeutet mehr Token pro Sekunde. Fügen Sie Geräte hinzu und Exo einfach: - Misst Bandbreite, Latenz und freien Speicher - Reshardet die KI-Modelle mit Tensor- und Pipeline-Parallelismus - Hält den OpenAI-kompatiblen Endpunkt stabil für Ihre Apps

Benchmarks aus der Community und von ExoLabs beweisen, dass dies kein Gedankenexperiment ist. Mit genügend Macs in einem kabelgebundenen Netzwerk verwandelt Exo einen Haufen Desktops und Minis in einen lokalen KI-Supercomputer, der in den Bereich von 200B–671B vordringt, ohne die Cloud zu nutzen.

Aufbau Ihres ersten Ragtag-KI-Clusters

Illustration: Aufbau Ihres ersten improvisierten KI-Clusters

Möchten Sie am Wochenende Ihren eigenen kleinen AI-Cluster aufbauen? Beginnen Sie klein und verkabelt. Die ideale erste Konfiguration nutzt zwei einigermaßen leistungsstarke Maschinen über Ethernet: zum Beispiel ein M2 Pro oder M3 MacBook Pro als primären Knoten sowie einen Desktop-PC oder einen zweiten Mac über Gigabit oder 2,5 GbE. WLAN funktioniert für Tests, aber kabelgebundene Verbindungen halten die Latenz vorhersehbar, sobald Sie über giocoso Aufforderungen hinaus skalieren.

Die Installation bleibt erfrischend langweilig. Installiere Exo von GitHub oder von der offiziellen Website auf beiden Maschinen, starte den Exo-Daemon und warte einige Sekunden. Die Geräte entdecken sich automatisch im LAN, messen Bandbreite und Speicher und stimmen stillschweigend darüber ab, wie die KI-Modelle aufgeteilt werden.

Beginnen Sie mit einem einzelnen, größeren quantisierten Modell, nicht mit einem Monster an der Front. Ein solides erstes Ziel: ein KI-Modell mit 70 Milliarden Parametern bei 4-Bit-Quantisierung, das bequem auf zwei modernen Maschinen mit insgesamt 64–128 GB RAM oder einheitlichem Speicher läuft. Sie lernen den Workflow – Gewichte herunterladen, Exo starten, den lokalen OpenAI-kompatiblen Endpunkt aufrufen – bevor Sie sich mit Experimenten über 200 Milliarden Parametern beschäftigen.

Sobald das funktioniert, beginnen Sie mit der Kombination von Hardware. Behandeln Sie Ihren schnellsten Mac oder Linux-Rechner als das "Gehirn" und ergänzen Sie ihn mit allem, was Sie haben: Ersatz-Intel-Laptops, einem Mini-PC, vielleicht einem Raspberry Pi 5. Der topologiebewusste Planer von Exo wird schwere Tensor-Shards zugunsten des starken Knotens priorisieren und leichtere Schichten oder CPU-freundliche Aufgaben auf die ältere Hardware auslagern.

Sie können dies mit einer einfachen Strategie weiter vorantreiben:

1Laden Sie die größten KI-Modellgewichte auf die Maschine mit dem meisten RAM/VRAM.
2Halten Sie alle Cluster-Knoten wo möglich über kabelgebundenes Ethernet oder Thunderbolt verbunden.
3Verwenden Sie Wi-Fi nur für gering belastende Helfer wie Raspberry Pi oder Android-Telefone.

Auf neueren Apple-Silicon-Systemen wird Thunderbolt 5 zu einem Multiplikator der Leistungsfähigkeit. Exo kann RDMA über Thunderbolt 5 für GPU-zu-GPU-Speicherübertragungen nutzen, wodurch die Latenz verringert wird, sodass mehrere Macs wie eine leistungsstarke, einheitliche Box agieren. So erreichen Community-Setups Zahlen wie Qwen 3 235B mit etwa 32 Tokens/Sekunde über vier M3 Ultra Mac Studio – ohne Cloud-GPUs, nur sorgfältige Verkabelung und Quantisierung.

Die verborgenen Kompromisse und Einschränkungen

Cloud-AI-Rechnungen fühlen sich wie ein Betrug an, aber lokales AI hat seine eigenen Kleingedruckten. Exo verlagert die Kosten von Tokens auf Hardware und Strom, und die größte Einschränkung ist nicht mehr der VRAM, sondern die Netzwerkbandbreite. Wenn Sie ein 235B- oder 671B-Parameter-AI-Modell über Maschinen verteilen, wird jedes Token zu einem Problem verteilter Systeme.

Netzwerkgeschwindigkeit und Latenz dominieren alles. Eine 10 Gbps kabelgebundene Verbindung oder Thunderbolt 5 können Tensoren fließen lassen; ein überlasteter Wi‑Fi 5 Router absolut nicht. Exo wird weiterhin über Wi‑Fi laufen, aber Sie tauschen die „AI-Supercomputer“-Fantasie gegen etwas ein, das näher an einem höflich langsamen Chatbot ist.

Topologie ist genauso wichtig wie rohe Rechenleistung. Exo überträgt ständig Aktivierungen zwischen Knoten, sodass ein einzelner langsamer Hop die gesamte Pipeline zum Stillstand bringen kann. Hohe Latenz zwischen auch nur zwei Maschinen – sagen wir, einem Mac mini im Büro und einem Raspberry Pi über Powerline-Ethernet – kann die Token-pro-Sekunde-Leistung erheblich beeinträchtigen.

Gemischte Hardware klingt romantisch, bis das „slowest node“-Problem zuschlägt. Wenn Sie ein M4 Max MacBook Pro mit einem Raspberry Pi 4 und einem alten Intel NUC verketten, muss Exo sich nach dem Gerät richten, das seinen Teil zuletzt abschließt. Sie können dies mitigieren, indem Sie: - Kleine oder CPU-freundliche Schichten auf schwächeren Knoten belassen - Echte leistungsschwache Geräte von großen KI-Modellen ausschließen - Kabelgebundenes Ethernet für alles verwenden, was am heißen Pfad beteiligt ist

RDMA über Thunderbolt 5 hilft, aber nur auf bestimmten Apple-Konfigurationen. Jeff Geerlings Benchmarks in 15 TB VRAM auf Mac Studio: RDMA über Thunderbolt 5 zeigen, wie latenzarme GPU-zu-GPU-Transfers vier M3 Ultra Mac Studios in etwas verwandeln, das sich wie eine riesige GPU verhält. Die meisten Menschen werden diese Werte nicht mit einer beliebigen Ansammlung von Laptops erreichen.

Eine weitere klare Grenze: Exo führt nur Inference durch. Das Training von KI-Modellen, selbst das Feintuning, erfordert andere Speicher- und Optimizer-Zustände sowie Gradienten-Synchronisation, die Exo heute einfach nicht implementiert.

Der Aufstieg der dezentralen KI

Cloud-KI schien einst unvermeidlich: eine Handvoll Hyperscaler, die Intelligenz nach Bedarf vermieten. Exo deutet auf einen anderen Weg hin, bei dem KI-Modelle auf einem Netzwerk aus Laptops, Minis und Bastel-Boards laufen, die Sie bereits besitzen. Anstatt Anfragen an eine entfernte GPU-Farm zu senden, halten Sie Berechnung, Kosten und Kontrolle innerhalb Ihrer eigenen Wände.

Dezentralisierte, lokale und datenschutzfreundliche KI hört auf, eine Nische für Bastler zu sein, wenn ein MacBook, ein Linux-Tower und ein Raspberry Pi gemeinsam ein Modell mit 235 Milliarden Parametern bedienen können. Exos OpenAI-kompatibler Endpunkt bedeutet, dass jede App, die mit api.openai.com kommuniziert, stattdessen mit http://localhost kommunizieren kann, ohne einen Unterschied zu bemerken. Dieser Austausch entfernt die Preisgestaltung pro Token vollständig aus der Gleichung.

Für Entwickler fühlt sich das an wie ein Forschungslabor ohne das nötige Forschungsbudget. Möchten Sie mit Deepseek V3 671B experimentieren, quantisiert über 8 M4 Mac minis und 512 GB gemeinsam genutztem Speicher? Sie benötigen nicht mehr ein Rack mit A100s auf AWS oder eine sechsstellige Kreditlinie; Sie brauchen nur ein paar anständige Maschinen und etwas Geduld. Dieser Wandel ist wichtiger als jede einzelne Benchmark-Tabelle.

Hobbyisten sitzen plötzlich viel näher an der Grenze. Ein Student mit zwei gebrauchten Mac minis und einem überlassenen Gaming-PC kann Agenten, Tool-Calling und RAG-Pipelines auf KI-Modellen ausführen, die früher nur hinter Unternehmens-NDAs existierten. Wenn man Exo von GitHub forken, ein paar Geräte anschließen und über 30 Tokens/Sekunde auf einem 235B-Parameter-Modell erzielen kann, verschwimmt die Grenze zwischen „Heimlabor“ und „Startup-Infrastruktur“.

Der Vorteil von Big Tech war schon immer die Skalierung: Rechenzentren, proprietäre Beschleuniger und private Modellgewichte. Werkzeuge wie Exo greifen diesen Schutz von unten an, indem sie Skalierung zu einem Softwareproblem machen, nicht zu einem Kapitalproblem. Wenn ein paar Thunderbolt 5 Kabel und RDMA vier M-Serie-Desktops wie eine einzige leistungsstarke GPU agieren lassen können, wird das Argument, diese GPU nach Millisekunden zu mieten, schwächer.

Dezentralisierte KI wird die Cloud-KI nicht vollständig ersetzen; hyperskalierende Anbieter besitzen nach wie vor das Training und die globale Verteilung. Aber die Inferenz ist umkämpft. Wenn Exo und ähnliche Projekte reifen, wird das lokale Ausführen ernsthafter KI-Modelle weniger wie ein Trick und mehr wie die Norm erscheinen.

Häufig gestellte Fragen

Was ist Exo?

Exo ist ein Open-Source-Tool, mit dem Sie mehrere Geräte in Ihrem lokalen Netzwerk – wie Macs, Linux-PCs und Raspberry Pis – zu einem einzigen verteilten Cluster kombinieren können, um große KI-Modelle für die Inferenz auszuführen, ohne die Cloud zu nutzen.

Welche Hardware unterstützt Exo?

Exo unterstützt eine Mischung aus heterogener Hardware, einschließlich macOS (Apple Silicon), Linux und Android-Geräten. Dies ermöglicht es den Nutzern, Ressourcen von Laptops, Desktop-Computern, Smartphones und Einplatinencomputern wie dem Raspberry Pi zu bündeln.

Wie geht Exo mit verschiedenen Hardwaretypen in einem Cluster um?

Exo entdeckt automatisch Geräte, misst deren verfügbare Speicher- und Netzwerkleistung und verteilt dann intelligent das KI-Modell mithilfe von Tensor- und Pipeline-Parallellismus über diese Geräte. Es verwendet das MLX-Framework von Apple auf Macs und kann auf Linux-Systemen auf CPUs zurückgreifen.

Kann ich Exo verwenden, um KI-Modelle zu trainieren?

Nein, Exo ist speziell für die Inferenz von KI-Modellen konzipiert, also den Prozess, ein vortrainiertes Modell auszuführen. Es ist nicht optimiert für die rechenintensive Aufgabe, Modelle von Grund auf neu zu trainieren.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Häufig gestellte Fragen

Was ist Exo?

Welche Hardware unterstützt Exo?

Exo unterstützt eine Mischung aus heterogener Hardware, einschließlich macOS , Linux und Android-Geräten. Dies ermöglicht es den Nutzern, Ressourcen von Laptops, Desktop-Computern, Smartphones und Einplatinencomputern wie dem Raspberry Pi zu bündeln.

Wie geht Exo mit verschiedenen Hardwaretypen in einem Cluster um?

Kann ich Exo verwenden, um KI-Modelle zu trainieren?

Ihre alte Hardware ist jetzt ein KI-Supercomputer.

Zusammenfassung / Kernpunkte

Die Cloud-AI-Steuer belastet Ihren Geldbeutel.

Lerne Exo kennen: Dein persönlicher AI Beowulf-Cluster

Die Magie der Zero-Configuration-Clustering

Wie Exo ein riesiges KI-Gehirn auseinanderspalten kann

Eine private, OpenAI-kompatible API auf Ihrem Laptop

Die Geheimwaffe Thunderbolt 5

Echte Benchmarks: Von der Theorie zu Token/Sek.

Aufbau Ihres ersten Ragtag-KI-Clusters

Die verborgenen Kompromisse und Einschränkungen

Der Aufstieg der dezentralen KI

Häufig gestellte Fragen

Was ist Exo?

Welche Hardware unterstützt Exo?

Wie geht Exo mit verschiedenen Hardwaretypen in einem Cluster um?

Kann ich Exo verwenden, um KI-Modelle zu trainieren?

One weekly email of tools worth shipping. No drip funnel.

Häufig gestellte Fragen

Als Nächstes lesen

Deno's KI-Firewall beendet das Agenten-Chaos

Dieser AI Agent baut Unternehmen für Sie auf

Realitätscheck für KI: Der Benchmark, der LLMs entlarvte

Bleiben Sie der KI voraus