TL;DR / Key Takeaways
Налог на облачный ИИ опустошает ваш кошелек
Облачный ИИ кажется безлимитным, пока не приходит счет. Ценовая политика по токенам на API в стиле GPT превращает каждый эксперимент в небольшое финансовое решение, и эти решения быстро накапливаются, когда вы переходите от прототипа на выходные к продукту. Запустите несколько агентов, стримьте длинные контексты или проводите партию A/B тестов, и вы смотрите на график использования, который выглядит не как коммунальные услуги, а скорее как зарплата нового сотрудника.
Экономика на основе токенов карает за любопытство. Хотите сравнить три разных модели ИИ на наборе данных в 100 000 токенов? Это сотни тысяч токенов, за которые выставляют счета за каждую попытку, прежде чем вы даже узнаете, сработает ли идея. Увеличьте это до команды разработчиков, которые целый день работают с конечными точками, и фраза «просто попробуйте» тихо умирает под давлением ограничений по скорости и бюджетных сигналов.
Стоимость — это только половина проблемы. Каждый запрос, журнал и запись пользователя, которые вы отправляете в облачное API, проходят через инфраструктуру другого человека, подчиняясь их политикам хранения, механизмам управления доступом и рискам утечки. Для данных в области здравоохранения, финансов или внутренних продуктов фраза «доверяйте нам, мы анонимизируем» кажется неубедительной, когда регуляторы и клиенты начинают задавать сложные вопросы.
Владение данными означает владение вычислительным путем, по которому они проходят. Локальная интерпретация сохраняет сырые входные данные, промежуточные встраивания и сгенерированные выводы на машинах, которые вы контролируете, за вашим собственным файерволом, под вашими собственными правилами аудита. Никаких трансакций данных через границу, никаких сторонних журналов, никаких загадочных программ «улучшения моделей», обученных на вашем собственном корпусе.
Exo меняет правила игры, заменяя аренду вычислительных мощностей на их собственность. Вместо того чтобы вечно платить OpenAI или Anthropic за каждую токен, Exo преобразует ваши Mac, Linux-устройства и даже Raspberry Pi в пировую AI-ассоциацию. Ваша сеть становится дата-центром, а ваш бюджет на оборудование превращается в одноразовые капитальные затраты вместо бесконечной подписки.
Это переосмысление ведет к прямому вопросу: что если вам больше никогда не понадобятся облачные GPU? Собственные бенчмарки Exo показывают, что AI AI Models с 235 миллиардами до 671 миллиарда параметров работают на кластерах Mac M-серии в локальной сети. Так что происходит с облачным налогом на ИИ, когда куча "старых" машин может заменить стойку A100?
Познакомьтесь с Exo: вашим личным кластером AI Beowulf.
Облачный ИИ ощущается как аренда спорткара поминутно. Exo переворачивает эту модель: это система с открытым исходным кодом, которая превращает случайный набор машин на вашем столе и в вашем шкафу в одноранговый кластер ИИ. Никакого облака, никаких налогов за токены — просто ваше оборудование, работающее как один гигантский ускоритель.
Думайте об этом как о кластере Беовульфа для LLM, без боли в сетевом взаимодействии из аспирантуры. Традиционные HPC-кластеры требуют ручной настройки конфигураций, таблиц IP и уикенда, потраченного на ошибки MPI. Exo автоматически обнаруживает устройства в вашей локальной сети, согласовывает, как их использовать, и предоставляет чистый HTTP-эндпоинт в стиле OpenAI для ваших приложений.
Основной трюк: Exo объединяет память и вычислительные ресурсы с разных гетерогенных устройств так, что они ведут себя как один логический GPU. Ваш MacBook Pro, Linux-станция и пара Raspberry Pi перестают быть изолированными игрушками и начинают работать как единая система. Вы меняете вопрос «уместится ли это на этом GPU?» на «уместится ли это во всем моем доме?»
Под капотом Exo проверяет пропускную способность, задержку и свободную оперативную память каждого узла, а затем соответственно разбивает AI Модели. Он использует тензорный параллелизм и конвейерный параллелизм, чтобы разделить массивные матрицы весов и слои между устройствами, передавая активации через вашу локальную сеть. На практике вы получаете общий видеопамять, даже если у каждого устройства всего лишь несколько десятков гигабайт.
Exo сосредоточен исключительно на инференсе, а не на обучении, что делает задачу управляемой, а пользовательский опыт — удобным. Вы загружаете предварительно обученные мощные модели, такие как Llama 3 или DeepSeek V3, и просто генерируете. Без обратного распространения, без состояния оптимизатора, без многосуточных тренировок, требующих постоянного контроля.
Цифры делают это реальным. Бенчмарки сообщества показывают, что Qwen 3 235B работает на скорости около 32 токенов в секунду на четырех Mac Studio с процессором M3 Ultra. Exo Labs сами запустили DeepSeek V3 671B на восьми Mac mini с процессором M4, объединив примерно 512 ГБ эффективной памяти с 8-битной точностью.
Смешанное оборудование не лишает вас возможностей. Exo использует графические процессоры Apple silicon через MLX на macOS, полагается на ЦПУ или ГПУ на Linux и даже может подключать Raspberry Pi для дополнительной оперативной памяти или легких вычислений. Провода и Thunderbolt 5 RDMA снижают задержку настолько, что с точки зрения модели ваши разрозненные машины сливаются в один локальный суперкомпьютер с ИИ.
Магия кластеризации без настройки
Волшебство начинается здесь до того, как любой запрос попадет в ИИ модель. Запустите Exo на MacBook, Linux-устройстве или Raspberry Pi, и он сразу начинает автообнаружение, сканируя вашу локальную сеть на предмет других устройств с поддержкой Exo и объединяя их в единый кластер. Никаких панелей управления, никаких мастеров, никакой “расширенной” вкладки с скрытой маской подсети.
Традиционные распределенные системы заставляют вас зарабатывать каждую единицу производительности. Вам приходится манипулировать IP-адресами, открывать порты, редактировать YAML и следить за слоями оркестрации, такими как Kubernetes, Slurm или Ray. Exo переворачивает это представление: он ведет себя больше как AirPlay, а не как MPI, но для ИИ моделей вместо колонок.
Как только запустится, Exo тихо проводит бенчмаркинг вашей сети. Он измеряет пропускную способность, задержку и доступную память на каждом узле, а затем решает, как разделить модель ИИ, используя тензорное и пайплайн-параллелизм. Raspberry Pi на 16 ГБ и Mac Studio на 128 ГБ не получают одинаковую долю, и вам никогда не придется редактировать конфигурационный файл, чтобы это стало реальностью.
Из рабочего процесса отсутствуют все обычные задачи распределенных вычислений. Вы не: - Вручную назначаете IP-адреса или имена хостов - Пишете спецификации YAML для кластера - Настраиваете очереди Docker Swarm, Kubernetes или Slurm
Вместо этого Exo предоставляет совместимый с OpenAI конечный узел в вашей локальной сети и обрабатывает ваш произвольный набор машин как один логический ускоритель. Вы настраиваете ваше приложение на локальный URL, а Exo занимается маршрутизацией, расписанием и передачами между устройствами за кулисами.
В отличие от создания аналогичного кластера в облаке, где вам нужно будет соединять VPC, группы безопасности, группы узлов и политики автошкалирования, прежде чем загружать AI-модель, домашние лаборатории с использованием exo: Запустите свой собственный AI-кластер дома с помощью обычных устройств сразу переходят к экспериментам. Кластеризация без настройки превращает «У меня есть старое оборудование» в «У меня есть AI-суперкомпьютер» всего одной командой.
Как Exo Разделяет Огромный Искусственный Интеллект на Части
Мозги, которые не помещаются на одном устройстве, нужно делить. Хитрость Exo заключается в распределении моделей: он берет гигантский AI-мозг и разделяет его на части, которые могут функционировать на нескольких ЦПУ, ГПУ и даже на крошечных платах, таких как Raspberry Pi, а затем снова соединяет их во время выполнения. Для вашего приложения это все еще выглядит как один огромный AI-модель за единой точкой доступа в стиле OpenAI.
Внутри Exo использует тензорное параллелизм. Вместо того чтобы загружать весь слой трансформера на одно устройство, он делит огромные тензоры слоя — веса, активации, матрицы внимания — между несколькими машинами. Каждое устройство обрабатывает свою долю математических вычислений, а Exo объединяет частичные результаты в следующий шаг вычисления.
Параллелизм по каналу добавляет вторую ось. Exo может назначать разные слои или блоки ИИ-модели различным узлам, превращая вашу сеть в конвейер. Токены передаются от слоя внедрения на одном узле к блокам внимания на другом, а затем к выходным слоям где-то еще, все это в строгом реле.
Умное разделение работает только в том случае, если система понимает физическую структуру кластера. Exo выполняет разделение с учетом топологии: он испытывает каждую ноду на наличие VRAM, системной оперативной памяти, типу процессора и хранилищу, а затем измеряет задержку и пропускную способность по Wi-Fi, Ethernet и Thunderbolt. Этот профиль определяет, как он выбирает разделение тензоров и конвейеров, а также куда помещается каждая часть.
Жирный Mac с современным графическим процессором Apple в итоге обрабатывает самые тяжелые слои. Exo может закрепить внимание и блоки прямой связи с наибольшими матрицами параметров на MacBook Pro с M4 Pro, используя стек MLX от Apple, чтобы держать данные на графическом процессоре как можно дольше. Эти сегменты, зависимые от графического процессора, остаются на самом быстром кремнии, что минимизирует дорогостоящие трансферы.
Тем временем, более слабые устройства также вносят свой вклад. Raspberry Pi в той же сети может обрабатывать более легкие, ориентированные на процессор части графа: токенизацию, логику маршрутизации, небольшие проекционные слои или постобработку. Exo рассматривает этот Pi как еще одну цель для разделения, планируя задачи, которые соответствуют его ограниченной оперативной памяти и скромным ядрам.
Когда граф исполняется, активации передаются по сети между шардов. На поддерживаемых Mac, подключенных через Thunderbolt 5, Exo даже использует переносы GPU‑к‑GPU в стиле RDMA, снижая задержку до 99% по сравнению с проходом через ЦП. Четыре Mac Studio с M3 Ultra, например, могут совместно работать с настройкой Qwen 3 на 235 миллиардов параметров и при этом обрабатывать около 32 токенов в секунду, используя этот подход.
Частный API, совместимый с OpenAI, на вашем ноутбуке
Облачные AI API ощущаются гладко, потому что они скрывают все трудные моменты: сетевое взаимодействие, балансировку нагрузки, отправку токенов обратно по HTTP. Exo тихо заимствует этот подход и переносит его на ваш ноутбук. Запустите его, и вы получите локальный HTTP-эндпоинт, который ведет себя как OpenAI API, но каждый токен поступает с аппаратуры, которая уже принадлежит вам.
Для разработчиков интеграция выглядит почти оскорбительно простой. Где бы ваш код ни указывал на `https://api.openai.com`, вы просто меняете базовый URL на `http://localhost:11434` (или другой порт, используемый Exo) и сохраняете те же совместимые с OpenAI JSON-пейлоады. Существующие вызовы к `/v1/chat/completions` или `/v1/completions` просто направляются в ваш кластер Exo вместо серверов OpenAI.
Это однострочное изменение имеет значение, если вы уже разрабатываете приложения с поддержкой ИИ. Ваши инструменты командной строки, расширения для браузера или серверные службы могут сохранить свои текущие форматы запросов, обработку ошибок и логику потоковой передачи. Вы сохраняете эргономику отшлифованного облачного API, в то время как Exo обрабатывает шардирование, планирование и обнаружение оборудования на фоне.
Совместимость выходит за рамки кастомного кода. Инструменты, такие как Open WebUI, могут взаимодействовать с Exo так, как если бы это был OpenAI, предоставляя вам приватный интерфейс в стиле ChatGPT, который никогда не покидает вашу локальную сеть. Укажите в "OpenAI base URL" Open WebUI адрес `localhost`, выберите AI модель, которую хостит Exo, и вы получите полноценную консоль для общения, работающую на ваших Mac mini, Linux-устройствах и Raspberry Pi.
Запуск всего локально меняет экономику и модель угроз. Никаких неожиданных счетов за токены, никаких ограничений по скорости, мешающих экспериментам, и никакие подсказки или документы не проходят через центр данных третьей стороны. Для команд, работающих с клиентскими записями, собственным кодом или регулируемыми данными, локальный OpenAI-совместимый API может означать пропуск болезненных проверок на соответствие.
Опыт разработчика остается знакомым, пока ваша инфраструктура переворачивается с ног на голову. Вы по-прежнему `POST` JSON, парсите ответы и сохраняете токены, но теперь вы можете масштабироваться, просто подключив еще один MacBook вместо запроса на увеличение квоты. Exo превращает вашу сеть в частную ИИ-основу, с тем же API, который вы уже знаете, и значительно большим контролем над тем, что происходит под капотом.
Секретное оружие Thunderbolt 5
RDMA звучит как сетевой алфавитный суп, но на последнем оборудовании Apple он тихо включает переключатель: ваш кабель Thunderbolt становится высокоскоростным «пуповинным» соединением между GPU. Удаленный прямой доступ к памяти через Thunderbolt 5 позволяет GPU одного Mac читать и записывать данные прямо в память другого Mac, полностью обходя ЦП.
Традиционные многомашинные настройки перемещают тензоры через ЦПУ и системную оперативную память каждой системы, добавляя миллисекунды накладных расходов на каждом переходе. RDMA сокращает этот объезд, уменьшая задержку между узлами до 99% и превращая Thunderbolt 5 в нечто более близкое к внутреннему PCIe интерфейсу, чем к внешнему порту.
С Exo, работающим поверх этого, цепочка Mac Studios или Mac mini начинает вести себя как единый мощный мульти-GPU блок. Активации проходят прямо от одного GPU Apple к другому через Thunderbolt 5, так что тензорные и конвейерные шардирования Exo перестают восприниматься как кластер и становятся чем-то единым, oversized SoC, распределённым между машинами.
Бенчмарки из тестирования Джеффа Гирлинга показывают, как это выглядит на практике: четыре M3 Ultra Mac Studio обрабатывают Qwen 3 235B со скоростью около 32 токенов в секунду через RDMA по Thunderbolt. Это производительность на уровне облачных технологий, но работающая под чьим-то столом, а не в регионе AWS.
Exo Labs продвинули эту идею дальше, запустив DeepSeek V3 671B на восьми Mac mini M4 с объединенной 512 ГБ общей памяти. RDMA через Thunderbolt 5 позволил этим восьми маленьким компьютерам работать как одна мощная система с общим объемом памяти, достаточным для размещения AI моделей, которые обычно существует только на кластерах H100 для предприятий.
Для продюсеров это меняет расчет целесообразности в одночасье. Вместо того чтобы арендовать десятки высококлассных GPU по часам, вы можете объединить несколько Mac с поддержкой Thunderbolt 5 и позволить Exo рассматривать их как один логический ускоритель для AI моделей с более чем 200 миллиардами параметров.
Все, кто планирует создать домашний AI-стек, теперь имеют ясную схему: - Устройства Apple на кремнии с поддержкой Thunderbolt 5 - Кабели вместо переключателей верхнего уровня - Exo для оркестрации шардирования и RDMA
Детали, поддерживаемые конфигурации и дорожная карта доступны на Официальном сайте Exo, который фактически выполняет функции документации для преобразования Thunderbolt 5 в вашу собственную частную ИИ-основу.
Реальные эталоны: от теории к токенам в секунду
Бенчмарки превращают Exo из интересного сетевого трюка в надежный движок AI AI Models. Данные от ранних пользователей показывают, что "запуск AI AI Models с объемом более 200 миллиардов дома" больше не является мемом, особенно если вы свяжете все вместе и позволите Exo управлять логикой шардинга за вас.
Настройка Джеффа Гирлинга выглядит как сон о домашней лаборатории: четыре M3 Ultra Mac Studio, объединенные с помощью Thunderbolt 5. Используя тензорный параллелизм Exo и RDMA, он запускал QwQ‑32B‑235B на этих машинах и достиг примерно 32 токенов в секунду устойчивой генерации, имея около 15 ТБ пулемой памяти эквивалентной VRAM доступной для кластера.
Эти цифры важны, поскольку они находятся в том же диапазоне, что и платные облачные инстансы, арендующие много-GPU установки A100 или H100 по минутной оплате. Описание Гирлинга показывает почти линейные достижения по мере добавления каждого M3 Ultra, при этом Exo автоматически распределяет больше моделей ИИ по новой памяти и вычислительным ресурсам без ручной перенастройки. Это именно то поведение масштабирования, которое вы ожидаете от серьезного распределенного стека вывода, а не от проектирования на выходные.
ExoLabs продвигается еще дальше с DeepSeek V3 671B, моделью, размер которой обычно резервируется для гипермасштабируемых дата-центров. Их внутренний бенчмарк запускал 8-битные квантизированные модели ИИ на кластере из восьми M4 Mac mini, объединяя около 512 ГБ унифицированной памяти. Показатели токенов в секунду снижаются по сравнению с меньшими моделями ИИ, но основная идея проста: модель ИИ с 671 миллиардом параметров может обрабатывать запросы из стека мини-компьютеров под чьим-то столом.
Сетевые соединения определяют результат. Проводные соединения — 10 GbE, Thunderbolt 4 и особенно Thunderbolt 5 с RDMA — поддерживают скорость активации трафика на таком уровне, что кластер ведет себя как одно большое устройство. Тесты Гирлинга и запуски ExoLabs показывают, что когда вы возвращаетесь к Wi-Fi, производительность падает, а задержка возрастает, так как каждая передача между узлами сталкивается с перегруженностью потребительской беспроводной сети.
Масштабирование также выглядит крайне простым: больше памяти означает большие модели ИИ, а больше пропускной способности означает больше токенов в секунду. Добавьте устройства, и Exo просто: - Измеряет пропускную способность, задержку и свободную память - Перераспределяет модели ИИ с использованием тензорного и конвейерного параллелизма - Поддерживает стабильный интерфейс, совместимый с OpenAI, для ваших приложений
Бенчмарки как от сообщества, так и от ExoLabs доказывают, что это не просто мысленный эксперимент. С достаточным количеством Mac в проводной сети Exo превращает кучу настольных компьютеров и мини-компьютеров в локальный суперкомпьютер ИИ, который достигает 200B–671B без обращения к облаку.
Создание вашего первого неформального кластера ИИ
Итак, вы хотите создать свой собственный AI-кластер за выходные? Начните с малого и с проводным подключением. Идеальная первая установка использует два достаточно мощных устройства на Ethernet: например, MacBook Pro с M2 Pro или M3 в качестве основного узла плюс настольный ПК или второй Mac на гигабитном или 2,5 GbE. Wi-Fi подходит для тестирования, но проводные соединения обеспечивают предсказуемую задержку, когда вы переходите на более серьезные задачи.
Установка остается приятно скучной. Установите Exo с GitHub или с официального сайта на обоих устройствах, запустите демон Exo и подождите несколько секунд. Устройства автоматически обнаруживают друг друга в вашей локальной сети, измеряют пропускную способность и память, и тихо соглашаются, как распределить AI модели.
Начните с одной крупной квантизированной модели, а не с мощного фронтального монстра. Хорошая первая цель: ИИ-модель с 70 миллиардами параметров при 4-битной квантизации, которая удобно помещается на двух современных машинах с общими 64–128 ГБ ОЗУ или унифицированной памяти. Вы изучаете рабочий процесс — загружаете веса, запускаете Exo, обращаетесь к локальной точке доступа, совместимой с OpenAI, прежде чем начать эксперименты с моделями 200B+.
Как только это заработает, начните смешивать оборудование. Рассматривайте свой самый быстрый Mac или Linux как «мозг» и подключайте все, что у вас есть: запасные ноутбуки на Intel, мини-ПК, возможно, Raspberry Pi 5. Динамически осознающий топологию планировщик Exo будет направлять тяжелые тензорные шары к мощному узлу и разгружать более легкие слои или задачи, удобные для ЦП, на более старое оборудование.
Вы можете продвинуть это дальше с помощью простой стратегии:
- 1Поместите самые крупные весовые модели ИИ на машину с наибольшим объемом ОЗУ/видеопамяти.
- 2Подключайте все узлы кластера по проводной сети Ethernet или Thunderbolt, если это возможно.
- 3Используйте Wi-Fi только для устройств с низким потреблением ресурсов, таких как Raspberry Pi или смартфоны на Android.
На новых чипах Apple, Thunderbolt 5 становится мультипликатором мощности. Exo может использовать RDMA через Thunderbolt 5 для передачи данных между GPU, сокращая задержку и позволяя нескольким Mac вести себя как единый мощный блок. Именно так сообщества достигают таких показателей, как Qwen 3 235B при ~32 токенах/сек на четырех M3 Ultra Mac Studio — без облачных GPU, только аккуратная проводка и квантизация.
Скрытые компромиссы и ограничения
Облачные AI-счета кажутся мошенничеством, но локальный AI тоже имеет свои подводные камни. Exo переносит затраты с токенов на оборудование и электроэнергию, а самым большим ограничением теперь является не VRAM, а пропускная способность сети. Когда вы распределяете модель AI с 235 млрд или 671 млрд параметров по машинам, каждый токен становится проблемой распределенных систем.
Скорость сети и задержка доминируют над всем. Проводное соединение на 10 Гбит/с или Thunderbolt 5 могут поддерживать поток тензоров; перегруженный роутер Wi-Fi 5 совершенно не способен на это. Exo все еще будет работать по Wi-Fi, но вы жертвуете фантазией о "суперкомпьютере ИИ" ради чего-то более похожего на вежливо медленного чат-бота.
Топология имеет такое же значение, как и вычислительная мощность. Exo постоянно перемещает активации между узлами, поэтому одна задержка может остановить всю цепочку. Высокая задержка даже между двумя машинами — скажем, Mac mini в офисе и Raspberry Pi по Ethernet через силовую линию — может значительно снизить количество токенов в секунду.
Смешанное оборудование звучит романтично, пока не появится проблема “самого медленного узла”. Если вы соедините MacBook Pro с M4 Max, Raspberry Pi 4 и старый Intel NUC, Exo должен подстраиваться под тот узел, который завершит свою задачу последним. Вы можете смягчить эту проблему, следуя этим рекомендациям: - Держите мелкие или дружественные к ЦП слои на более слабых узлах - Исключите действительно недостаточно мощные устройства из крупных AI моделей - Используйте проводной Ethernet для всех устройств, которые участвуют в критически важном процессе
RDMA по Thunderbolt 5 помогает, но только на определенных конфигурациях Apple. Бенчмарки Джеффа Гирлинга в статье 15 ТБ видеопамяти на Mac Studio: RDMA по Thunderbolt 5 показывают, как низколатентные передачи данных между GPU превращают четыре Mac Studio с M3 Ultra в нечто, что ведет себя как один гигантский GPU. Большинство людей не достигнут таких показателей на случайной куче ноутбуков.
Ещё одна жёсткая граница: Exo занимается только инференсом. Обучение ИИ-моделей, даже дообучение, требует других схем памяти, состояния оптимизаторов и синхронизации градиентов, которые Exo просто не реализует на данный момент.
Рассвет децентрализованного ИИ
Облачный ИИ когда-то казался неизбежным: несколько гигантов арендуют интеллект по токенам. Exo намекает на другую траекторию, где ИИ модели ИИ работают на сети ноутбуков, мини-компьютеров и хобби-бордов, которые уже есть у вас. Вместо того чтобы отправлять запросы на удаленную ферму GPU, вы сохраняете вычисления, затраты и контроль внутри своих стен.
Децентрализованный, локальный и приоритизирующий конфиденциальность ИИ перестает быть нишей для экспериментаторов, когда MacBook, Linux-станция и Raspberry Pi могут совместно обслуживать модель на 235 миллиардов параметров. Открытая точка доступа Exo, совместимая с OpenAI, означает, что любое приложение, взаимодействующее с api.openai.com, может вместо этого общаться с http://localhost и никогда не заметит разницы. Этот обмен полностью исключает ценообразование по токенам из уравнения.
Для разработчиков это похоже на получение исследовательской лаборатории без необходимости в бюджетах на исследования. Хотите поэкспериментировать с Deepseek V3 671B, квантованным на 8 M4 Mac mini и 512 ГБ объединенной памяти? Вам больше не нужны стойки с A100 на AWS или кредитные линии на шесть цифр; вам нужно всего лишь несколько хороших машин и немного терпения. Этот сдвиг важнее любой отдельной диаграммы с бенчмарками.
Хоббисты вдруг оказались очень близко к передовой. Студент с двумя подержанными Mac mini и ноутбуком для игр, доставшимся в наследство, может запускать агентов, вызывать инструменты и реализовывать RAG-пайплайны на моделях ИИ, которые раньше были доступны только за корпоративными NDA. Когда вы можете форкать Exo с GitHub, соединить несколько устройств и получать 30+ токенов в секунду на модели с 235 миллиардов параметров, граница между «домашней лабораторией» и «инфраструктурой стартапа» стирается.
Преимущество крупных технологий всегда заключалось в масштабе: центры обработки данных, собственные ускорители и частичные веса моделей. Инструменты, такие как Exo, атакуют этот рубеж с нижнего уровня, превращая масштаб в программную задачу, а не в капитальную. Если несколько кабелей Thunderbolt 5 и RDMA могут заставить четыре настольных компьютера серии M вести себя как один мощный графический процессор, аргумент в пользу аренды этого графического процессора по миллисекундам ослабевает.
Децентрализованный ИИ не заменит облачный ИИ полностью; гипермасштабные компании по-прежнему контролируют обучение и глобальное распределение. Но инференс теперь доступен для конкуренции. По мере того как Exo и подобные проекты развиваются, запуск серьезных AI-моделей локально будет казаться не хаком, а скорее стандартом.
Часто задаваемые вопросы
Что такое Exo?
Exo — это инструмент с открытым исходным кодом, который позволяет объединять несколько устройств в вашей локальной сети — таких как Mac, Linux-PC и Raspberry Pi — в единый распределенный кластер для запуска крупных AI-моделей для инференса без использования облачных технологий.
Какое оборудование поддерживает Exo?
Exo поддерживает сочетание разнообразного оборудования, включая macOS (Apple Silicon), Linux и устройства на базе Android. Это позволяет пользователям объединять ресурсы от ноутбуков, настольных ПК, телефонов и одноплатных компьютеров, таких как Raspberry Pi.
Как Exo обрабатывает различные типы оборудования в одном кластере?
Exo автоматически обнаруживает устройства, измеряет их доступную память и производительность сети, а затем умно распределяет модель ИИ между ними, используя тензорную и конвейерную параллельность. Он использует фреймворк MLX от Apple на Mac и может переключаться на процессоры на системах Linux.
Могу ли я использовать Exo для обучения AI-моделей?
Нет, Exo специально разработан для вывода моделей ИИ, что представляет собой процесс выполнения заранее обученной модели. Он не оптимизирован для вычислительно сложной задачи обучения моделей с нуля.