당신의 오래된 하드웨어가 이제 AI 슈퍼컴퓨터가 되었습니다.

대규모 AI 모델을 운영하기 위해 고액의 클라우드 요금을 지불하는 것을 중지하세요. Exo라는 새로운 오픈소스 도구가 기존의 맥, PC, 심지어 라즈베리 파이를 강력하고 비밀스러운 AI 클러스터로 변환해 줍니다.

Stork.AI
Hero image for: 당신의 오래된 하드웨어가 이제 AI 슈퍼컴퓨터가 되었습니다.
💡

TL;DR / Key Takeaways

대규모 AI 모델을 운영하기 위해 고액의 클라우드 요금을 지불하는 것을 중지하세요. Exo라는 새로운 오픈소스 도구가 기존의 맥, PC, 심지어 라즈베리 파이를 강력하고 비밀스러운 AI 클러스터로 변환해 줍니다.

클라우드 AI 세금이 지갑을 비우고 있습니다.

클라우드 AI는 청구서가 오기 전까지는 자유롭게 느껴집니다. GPT 스타일 API의 토큰별 가격 책정은 모든 실험을 소소한 재정적 결정으로 바꾸며, 주말 프로토타입에서 제품으로 이동할 때 이러한 결정은 빠르게 누적됩니다. 몇 개의 에이전트를 생성하거나 긴 컨텍스트를 스트리밍하거나 A/B 테스트 배치를 실행하면, 당신은 유틸리티처럼 보이지 않고 신입 사원의 급여처럼 보이는 사용 그래프를 바라보고 있습니다.

토큰 경제는 호기심을 억압합니다. 100,000토큰 데이터셋에서 세 가지 서로 다른 AI 모델을 비교하고 싶으신가요? 아이디어가 효과가 있는지 알기도 전에 매 실행마다 수십만 개의 토큰이 청구됩니다. 하루 종일 엔드포인트를 테스트하는 개발자 팀으로 이를 확대하면, “그냥 시도해 보세요”라는 말은 속도 제한과 예산 경고 아래 조용히 사라집니다.

비용은 문제의 절반에 불과합니다. 클라우드 API에 전송하는 모든 프롬프트, 로그 및 사용자 기록은 다른 사람의 인프라를 거쳐가며, 그들의 데이터 보존 정책, 접근 제어 및 유출 위험에 의해 관리됩니다. 의료, 금융 또는 내부 제품 데이터의 경우, “신뢰하세요, 우리는 이를 익명화합니다”라는 말은 규제 기관과 고객이 어려운 질문을 하기 시작할 때 그 힘이 부족해 보입니다.

데이터를 소유하는 것은 데이터가 이동하는 컴퓨팅 경로를 소유하는 것을 의미합니다. 로컬 추론은 원본 입력, 중간 임베딩, 생성된 출력을 여러분이 제어하는 기계에 보관하며, 여러분의 방화벽 뒤에, 여러분의 감사 규정 하에 있습니다. 국경 간 데이터 전송이 없고, 제3자 로그가 없으며, 여러분의 독점 코퍼스를 기반으로 훈련된 불분명한 “모델 개선” 프로그램도 없습니다.

엑소는 컴퓨팅을 임대하는 기본 방식을 소유하는 쪽으로 전환합니다. OpenAI나 Anthropic에게 영구적으로 토큰당 비용을 지불하는 대신, 엑소는 당신이 이미 보유하고 있는 Mac, 리눅스 박스, 심지어 라즈베리 파이를 P2P AI 클러스터로 변환합니다. 당신의 네트워크가 데이터 센터가 되고, 당신의 하드웨어 예산이 무한한 구독이 아닌 일회성 자본 비용이 됩니다.

그 재구성은 직설적인 질문으로 이어집니다: 만약 당신이 다시는 클라우드 GPU가 필요하지 않다면 어떻게 될까요? 엑소의 자체 벤치마크는 235B에서 671B 매개변수를 가진 AI AI 모델이 로컬 네트워크의 M 시리즈 맥 클러스터에서 실행되는 모습을 보여줍니다. 그렇다면 A100 랙을 대신할 수 있는 "옛날" 기계 더미가 있을 때 클라우드 AI 세금은 어떻게 될까요?

엑소를 만나보세요: 당신의 개인 AI 베오울프 클러스터

일러스트: 엑소를 만나보세요: 당신만의 개인 AI 베오울프 클러스터
일러스트: 엑소를 만나보세요: 당신만의 개인 AI 베오울프 클러스터

클라우드 AI는 스포츠카를 분 단위로 임대하는 느낌입니다. Exo는 그 모델을 뒤집습니다: 이는 책상과 옷장에 있는 무작위 기계들을 피어 투 피어 AI 클러스터로 변환하는 오픈 소스 시스템입니다. 클라우드도 없고, 토큰당 세금도 없으며, 단지 당신의 하드웨어가 하나의 거대한 가속기처럼 작동합니다.

이를 LLM을 위한 베오울프 클러스터로 생각해 보세요. 대학원 네트워킹의 번거로움은 제외하고요. 전통적인 HPC 클러스터는 직접 구성한 설정, IP 스프레드시트, MPI 오류로 사라지는 주말을 요구합니다. Exo는 로컬 네트워크의 장치를 자동으로 검색하고, 이를 활용하는 방법을 협상하며, 여러분의 앱을 위한 깔끔한 OpenAI 스타일의 HTTP 엔드포인트를 제공합니다.

핵심 트릭: Exo는 이질적인 장치 간에 메모리와 계산을 풀링하여 단일 논리 GPU처럼 작동하도록 합니다. 당신의 MacBook Pro, 리눅스 타워, 그리고 몇 개의 Raspberry Pi는 더 이상 고립된 장치가 아니라 하나의 통합된 기계처럼 행동합니다. “이 GPU에 맞는가?” 대신 “내 집 전체에 맞는가?”로 바꿉니다.

Exo는 각 노드의 대역폭, 지연 시간 및 여유 RAM을 검사한 후, 이에 따라 AI 모델을 분산합니다. 이는 텐서 병렬성파이프라인 병렬성을 사용하여 방대한 가중치 행렬과 레이어 스택을 장치 간에 나누고, 활성화 기능을 귀하의 LAN을 통해 전달합니다. 실제로 모든 장치가 자체적으로 수십 기가바이트만 가지고 있더라도 공유 VRAM을 사용할 수 있습니다.

Exo는 순수하게 추론에 중점을 두고 있으며, 이는 문제를 다루기 쉽게 하고 사용자 경험을 안정적으로 유지합니다. Llama 3나 DeepSeek V3와 같은 사전 훈련된 대형 모델을 로드하고 그냥 생성하기만 하면 됩니다. 역전파, 옵티마이저 상태, 여러 날에 걸친 훈련 작업을 주의 깊게 살필 필요가 없습니다.

숫자가 실체를 만듭니다. 커뮤니티 기준에 따르면 Qwen 3 235B는 네 대의 M3 울트라 맥 스튜디오에서 초당 약 32개의 토큰을 처리하고 있습니다. Exo Labs는 DeepSeek V3 671B를 여덟 대의 M4 맥 미니를 통해 실행하며, 8비트 정밀도로 약 512GB의 효과적인 메모리를 집합적으로 사용하고 있습니다.

혼합 하드웨어는 당신을 자격 박탈하지 않습니다. Exo는 macOS에서 MLX를 통해 Apple 실리콘 GPU를 실행하고, 리눅스에서는 CPU나 GPU에 의존하며, 추가 RAM 또는 가벼운 계산을 위해 Raspberry Pi를 사용할 수도 있습니다. 유선 링크와 Thunderbolt 5 RDMA는 지연 시간을 충분히 줄여서 모델의 관점에서 보면, 당신의 분산된 기계들이 하나의 로컬 AI 슈퍼컴퓨터로 흐려지게 만듭니다.

제로 설정 클러스터링의 마법

여기서 마법은 AI 모델에 프롬프트가 입력되기 전부터 시작됩니다. MacBook, Linux 박스 또는 Raspberry Pi에서 Exo를 실행하면, 즉시 자동 탐색이 시작되어 로컬 네트워크에서 다른 Exo 지원 장치를 스캔하며 하나의 클러스터로 통합합니다. 대시보드, 마법사, 서브넷 마스크를 숨기는 “고급” 탭은 없습니다.

전통적인 분산 시스템에서는 성능의 모든 토큰을 얻기 위해 노력해야 합니다. IP 주소를 관리하고, 포트를 열고, YAML을 수정하며, Kubernetes, Slurm 또는 Ray와 같은 오케스트레이션 계층을 지켜봐야 합니다. Exo는 그 방식을 뒤바꿉니다: 오히려 MPI보다는 AirPlay처럼 동작하지만, 스피커가 아닌 AI AI 모델을 위해서입니다.

실행이 시작되면 Exo는 조용히 네트워크를 벤치마크합니다. 각 노드의 대역폭, 지연 시간, 그리고 사용 가능한 메모리를 측정한 후, 텐서와 파이프라인 병렬성을 사용하여 AI 모델을 어떻게 샤딩할지 결정합니다. 16GB 라즈베리 파이와 128GB 맥 스튜디오는 같은 슬라이스를 받지 않으며, 이를 위해 구성 파일을 건드릴 필요도 없습니다.

워크플로우에서 누락된 것은 모든 일반적인 분산 컴퓨팅 작업입니다. 당신은 다음을 하지 않습니다: - IP 또는 호스트 이름을 수동으로 할당하지 않습니다 - 클러스터 전체의 YAML 사양을 작성하지 않습니다 - Docker Swarm, Kubernetes 또는 Slurm 큐를 구성하지 않습니다

대신 Exo는 귀하의 LAN에 OpenAI 호환 엔드포인트를 노출하고, 귀하의 임시 기계 모음을 하나의 논리적 가속기로 취급합니다. 귀하는 앱을 로컬 URL에 연결하고, Exo가 백그라운드에서 라우팅, 스케줄링 및 장치 간 데이터 전송을 처리합니다.

클라우드에서 동등한 클러스터를 구성하는 것과 대비해 보세요. 클라우드에서는 AI 모델을 로드하기 전에도 VPC, 보안 그룹, 노드 그룹, 자동 확장 정책 등을 연결해야 합니다. exo: 일상 장비로 집에서 AI 클러스터 운영하기를 사용하는 홈랩은 실험으로 곧바로 넘어갑니다. 제로 구성 클러스터링은 “나는 구형 하드웨어가 좀 있어”를 단 한 명령어로 “나는 AI 슈퍼컴퓨터가 있어”로 변환합니다.

엑소가 거대한 AI 뇌를 분해하는 방법

하나의 기계에 맞지 않는 뇌는 잘라야 합니다. Exo의 트릭은 모델 샤딩입니다: 거대한 AI 뇌를 여러 CPU, GPU 및 Raspberry Pi와 같은 작은 보드에 걸쳐 살아갈 수 있는 조각으로 나누고, 이를 런타임에서 다시 연결하는 것입니다. 귀하의 앱에는 여전히 하나의 OpenAI 스타일 엔드포인트 뒤에 있는 거대한 AI 모델처럼 보입니다.

엑소는 텐서 병렬 처리(tensor parallelism)에 의존합니다. 전체 변환기 레이어를 하나의 장치에 로드하는 대신, 레이어의 거대한 텐서들—가중치, 활성화, 어텐션 행렬—을 여러 기계에 분할합니다. 각 장치는 자신의 수학 조각을 처리하고, 엑소는 부분 결과를 다음 계산 단계로 결합합니다.

파이프라인 병렬성은 두 번째 축을 추가합니다. Exo는 AI 모델의 서로 다른 레이어 또는 블록을 서로 다른 노드에 할당하여 네트워크를 조립 라인으로 만듭니다. 토큰은 한 박스의 임베딩 레이어에서 다른 박스의 어텐션 블록으로 흐르고, 이후 다른 곳의 출력 레이어로 전달되며, 모두 긴밀하게 릴레이됩니다.

스마트 스플리팅은 시스템이 클러스터의 물리적 레이아웃을 이해해야만 제대로 작동합니다. Exo는 토폴로지 인식 파티셔닝을 수행합니다: 각 노드에서 VRAM, 시스템 RAM, CPU 타입 및 스토리지를 조사한 후, Wi-Fi, 이더넷 및 썬더볼트를 통한 링크 지연 시간대역폭을 측정합니다. 이 프로파일은 텐서 스플릿과 파이프라인 스플릿을 선택하고 각 샤드의 위치를 결정하는 데 사용됩니다.

현대적인 Apple GPU를 장착한 강력한 Mac은 가장 무거운 레이어를 처리합니다. Exo는 M4 Pro가 장착된 MacBook Pro에서 가장 큰 파라미터 행렬을 지닌 주의 집중 및 피드포워드 블록을 고정할 수 있으며, Apple의 MLX 스택을 사용하여 데이터를 가능한 한 GPU 내에 유지합니다. 이러한 GPU 의존적인 구간은 가장 빠른 실리콘에 남아 비싼 전송 비용을 최소화합니다.

한편, 성능이 낮은 장치들도 여전히 기여할 수 있습니다. 같은 LAN에 있는 Raspberry Pi는 그래프의 더 가볍고 CPU 중심의 부분을 호스팅할 수 있습니다: 토큰화, 라우팅 논리, 작은 프로젝션 레이어 또는 후처리 등이 있습니다. Exo는 해당 Pi를 또 다른 샤드 대상으로 취급하여 제한된 RAM과 겸손한 코어에 맞는 작업을 일정에 맞춰 배치합니다.

그래프가 실행되면, 활성화가 샤드 간에 네트워크를 통해 흐릅니다. Thunderbolt 5에 연결된 지원되는 Mac에서는 Exo가 RDMA 스타일의 GPU 간 전송을 활용하여 CPU를 거치는 것에 비해 지연 시간을 최대 99%까지 줄입니다. 예를 들어, 네 대의 M3 Ultra Mac Studio는 이 방법을 사용하여 235B 매개변수의 Qwen 3 설정에서 협력하며 여전히 초당 약 32개의 토큰을 처리할 수 있습니다.

임직원 전용, OpenAI 호환 API가 당신의 노트북에 있습니다.

일러스트: 당신의 노트북에 있는 개인적인 OpenAI 호환 API
일러스트: 당신의 노트북에 있는 개인적인 OpenAI 호환 API

클라우드 AI API는 네트워킹, 로드 밸런싱, HTTP를 통해 스트리밍하는 토큰 등 어려운 부분을 숨기기 때문에 매끄럽게 느껴집니다. Exo는 그 플레이북을 조용히 훔쳐내어 여러분의 노트북에 가져옵니다. 실행하면 로컬 HTTP 엔드포인트가 생성되어 OpenAI API처럼 동작하지만, 모든 토큰은 이미 소유하고 있는 하드웨어에서 생성됩니다.

개발자에게 통합은 거의 무시무시할 정도로 간단해 보입니다. 코드가 `https://api.openai.com`를 가리키는 모든 곳에서 기본 URL을 `http://localhost:11434`(또는 Exo가 사용하는 포트)로 바꾸고 동일한 OpenAI 호환 JSON 페이로드를 유지하면 됩니다. 기존의 `/v1/chat/completions` 또는 `/v1/completions` 호출은 OpenAI의 서버 대신 여러분의 Exo 클러스터로 라우팅됩니다.

이미 AI 기능이 탑재된 앱을 제공하고 있다면 그 한 줄의 변경이 중요합니다. 귀하의 CLI 도구, 브라우저 확장 프로그램 또는 백엔드 서비스는 현재의 요청 형태, 오류 처리 및 스트리밍 로직을 유지할 수 있습니다. Exo가 백그라운드에서 샤딩, 일정 관리 및 하드웨어 감지를 처리하는 동안 세련된 클라우드 API의 사용 편의성은 그대로 유지됩니다.

호환성은 맞춤형 코드에만 국한되지 않습니다. Open WebUI와 같은 도구는 Exo와 OpenAI처럼 소통할 수 있어, 여러분의 LAN을 벗어나지 않는 개인적인 ChatGPT 스타일의 인터페이스를 제공합니다. Open WebUI의 “OpenAI 기본 URL”을 `localhost`로 설정하고 Exo가 호스팅하는 AI 모델을 선택하면, 여러분의 Mac 미니, 리눅스 박스, 라즈베리 파이에 의해 구동되는 완전한 채팅 콘솔을 얻을 수 있습니다.

모든 것을 로컬에서 실행하면 경제성과 위협 모델이 바뀝니다. 토큰 당 예기치 못한 청구서가 없고, 실험을 제어하는 요금 제한이 없으며, 프롬프트나 문서가 제3자 데이터 센터를 통과하지 않습니다. 고객 기록, 독점 코드 또는 규제 데이터를 다루는 팀에게 로컬 OpenAI 호환 API는 고통스러운 준수 검토를 건너뛸 수 있다는 것을 의미할 수 있습니다.

개발자 경험은 친숙함을 유지하면서 인프라가 완전히 뒤집힙니다. 여전히 `POST`로 JSON을 전송하고, 응답을 파싱하며, 토큰을 기록하지만, 이제는 할당량 증가를 요청하는 대신 다른 MacBook을 연결하여 확장할 수 있습니다. Exo는 귀하의 네트워크를 개인 AI 백본으로 전환하며, 이미 알고 있는 동일한 API 인터페이스와 함께 내부에서 발생하는 일에 대한 훨씬 더 많은 제어 권한을 제공합니다.

썬더볼트 5 비밀 무기

RDMA는 네트워킹 알파벳 수프처럼 들리지만, 애플의 최신 하드웨어에서 조용히 스위치를 켭니다: 당신의 썬더볼트 케이블이 고속 GPU-투-GPU 제대가 됩니다. 썬더볼트 5를 통한 원격 직접 메모리 접근은 한 맥의 GPU가 CPU를 완전히 건너뛰고 다른 맥의 메모리에 직접 읽고 쓸 수 있게 해줍니다.

전통적인 다중 머신 설정에서는 각 시스템의 CPU와 시스템 RAM을 통해 텐서를 전달하느라 매 번 밀리초 단위의 오버헤드를 발생시킵니다. RDMA는 이러한 우회를 제거하여 노드 간 지연 시간을 최대 99%까지 단축시키고 Thunderbolt 5를 외부 포트가 아닌 내부 PCIe 패브릭에 더 가깝게 만듭니다.

Exo가 이를 기반으로 하여, Mac Studios나 Mac minis의 체인은 단일의 풍성한 다중 GPU 박스처럼 작동하기 시작합니다. 활성화는 Thunderbolt 5를 통해 하나의 Apple GPU에서 다른 GPU로 직접 흐르므로, Exo의 텐서와 파이프라인 샤딩은 클러스터처럼 느껴지지 않고, 오히려 여러 기기에 걸쳐 확장된 하나의 대형 SoC처럼 느껴집니다.

제프 기어링의 테스트에서 나온 벤치마크는 실제로 어떻게 보이는지를 보여줍니다: 네 대의 M3 울트라 맥 스튜디오RDMA를 통해 Thunderbolt로 Qwen 3 235B를 초당 약 32개의 토큰으로 처리하고 있습니다. 이는 클라우드 규모의 처리량이지만, AWS 리전이 아닌 누군가의 책상 아래에서 작동하고 있습니다.

Exo Labs는 아이디어를 더 발전시켜, 512 GB의 공유 메모리를 가진 여덟 대의 M4 Mac mini에서 DeepSeek V3 671B를 실행했습니다. Thunderbolt 5를 통한 RDMA 덕분에 이 여덟 대의 작은 박스들은 하나의 대형 시스템처럼 행동하며, 일반적으로 기업 H100 클러스터에만 존재하는 AI 모델을 호스팅할 수 있는 충분한 공유 메모리 풀을 제공했습니다.

프로슈머들에게는 그것이 하룻밤 사이에 수익성 계산을 바꿉니다. 수십 개의 고급 GPU를 시간 단위로 임대하는 대신, Thunderbolt 5 지원 Mac 몇 대를 연결하여 Exo가 이를 200B 이상의 매개변수를 갖춘 AI 모델을 위한 하나의 논리적 가속기로 인식하도록 할 수 있습니다.

홈브루 AI 랙을 계획하는 누구나 이제 명확한 레시피가 있습니다: - 썬더볼트 5를 지원하는 애플 실리콘 기계 - 탑 오브 랙 스위치 대신 케이블 - 샤딩 및 RDMA를 조율하는 엑소

세부정보, 지원되는 구성 및 로드맵은 공식 엑소 사이트에서 확인할 수 있으며, 이는 Thunderbolt 5를 개인 AI 백본으로 전환하는 문서 역할을 효과적으로 수행합니다.

실제 벤치마크: 이론에서 토큰/초로

벤치마크는 Exo를 멋진 네트워킹 트릭에서 신뢰할 수 있는 AI AI 모델 엔진으로 전환합니다. 초기 사용자들의 수치는 “200B+ AI AI 모델을 집에서 실행하다”라는 말이 더 이상 유명한 농담이 아니라는 것을 보여줍니다. 모든 것을 연결하고 Exo가 샤딩 로직을 처리하도록 하면 더욱 효과적입니다.

제프 기어링의 설치는 홈 랩의 환상과 같다: Thunderbolt 5로 연결된 네 대의 M3 울트라 맥 스튜디오 박스. 엑소의 텐서 병렬성과 RDMA를 사용하여 그는 이 기계들에서 QwQ‑32B‑235B를 실행했고, 약 초당 32개의 토큰의 지속적인 생성 속도를 기록했으며, 클러스터에 약 15TB의 풀 VRAM 동등 메모리가 사용 가능했다.

이 숫자들은 중요한 이유가 있습니다. 왜냐하면 다중 GPU A100 또는 H100 장비를 분 단위로 대여하는 유료 클라우드 인스턴스와 비슷한 범위에 속하기 때문입니다. 기어링의 글에서는 M3 울트라를 추가할 때마다 거의 선형적인 성능 향상을 보여주며, Exo는 수동 재구성 없이 새로운 메모리와 컴퓨팅 기능을 통해 AI 모델을 자동으로 더 많이 처리합니다. 이는 주말 부업이 아닌 진지한 분산 추론 스택에서 기대하는 정확한 확장 방식입니다.

ExoLabs는 DeepSeek V3 671B로 더욱 강력한 성능을 발휘하며, 이 모델 크기는 일반적으로 하이퍼스케일 데이터 센터에 할당됩니다. 내부 벤치마크에서는 여덟 개의 M4 맥 미니 시스템 클러스터에서 8비트 양자화된 AI 모델을 실행하였으며, 약 512GB의 통합 메모리를 활용했습니다. 작은 AI 모델에 비해 초당 토큰 수는 감소하지만, 핵심은 간단합니다: 671B 매개변수를 가진 AI 모델이 누군가의 책상 아래에 있는 미니 시스템 배열로부터 프롬프트에 응답할 수 있습니다.

네트워킹은 이러한 결과를 좌우합니다. 유선 링크인 10 GbE, Thunderbolt 4, 그리고 특히 RDMA가 탑재된 Thunderbolt 5는 클러스터가 하나의 대형 기계처럼 동작할 수 있도록 활성화 트래픽을 충분히 빠르게 유지합니다. Geerling의 테스트와 ExoLabs의 실행 모두 Wi-Fi로 전환할 경우, 모든 노드 간의 이동에서 소비자 무선 혼잡과 싸우게 되어 처리량이 급락하고 지연 시간이 급증하는 것을 보여줍니다.

스케일링은 매우 간단해 보입니다: 더 많은 메모리는 더 큰 AI 모델을 의미하고, 더 많은 대역폭은 초당 더 많은 토큰을 의미합니다. 장치를 추가하면 Exo는 간단히 다음을 수행합니다: - 대역폭, 지연 시간 및 여유 메모리를 측정합니다. - 텐서와 파이프라인 병렬성을 사용하여 AI 모델을 재쉐어합니다. - 귀하의 앱을 위한 OpenAI 호환 엔드포인트를 안정적으로 유지합니다.

커뮤니티와 ExoLabs의 기준은 이것이 단순한 사고 실험이 아님을 증명합니다. 유선 네트워크에 충분한 Mac이 있다면, Exo는 데스크탑과 미니를 모아 로컬 AI 슈퍼컴퓨터로 변모시켜 클라우드에 의존하지 않고 200B에서 671B의 영역으로 나아갑니다.

첫 번째 랜덤 AI 클러스터 구축하기

일러스트: 첫 번째 임시방편 AI 클러스터 구축하기
일러스트: 첫 번째 임시방편 AI 클러스터 구축하기

주말에 당신만의 스크래피 AI 클러스터를 만들고 싶으신가요? 작게 시작하고 유선으로 연결하세요. 이상적인 첫 설정은 이더넷으로 연결된 두 대의 적당히 강력한 기계를 사용하는 것입니다: 예를 들어, M2 Pro 또는 M3 MacBook Pro를 주 노드로 사용하고, 기가비트 또는 2.5 GbE로 연결된 데스크톱 PC나 두 번째 Mac을 추가합니다. Wi-Fi는 테스트 용도로는 괜찮지만, 장난감 프롬프트를 넘어 확장할 때는 유선 연결이 지연 시간을 예측 가능하게 유지해 줍니다.

설치는 새롭고 신선하게 지루하게 유지됩니다. 두 머신 모두에서 GitHub 또는 공식 웹사이트에서 Exo를 설치한 후, Exo 데몬을 실행하고 몇 초간 기다리세요. 장치들은 LAN에서 서로를 자동으로 발견하고, 대역폭과 메모리를 벤치마킹하며, AI 모델을 나누는 방법에 대해 조용히 합의합니다.

하나의 크고 양자화된 모델로 시작하세요, 최첨단 몬스터는 아닙니다. 좋은 첫 번째 목표: 4비트 양자화된 70B 매개변수 AI 모델로, 64–128GB의 RAM 또는 통합 메모리를 가진 두 대의 현대적 머신에 편안하게 맞습니다. 200B 이상의 실험을 시도하기 전에 작업 흐름을 배우세요—가중치를 다운로드하고, Exo를 실행한 다음, 로컬 OpenAI 호환 엔드포인트에 접근하세요.

작동이 시작되면 하드웨어를 혼합하세요. 가장 빠른 Mac 또는 Linux 박스를 "두뇌"로 사용하고, 여유가 있는 Intel 노트북, 미니 PC, 아마도 Raspberry Pi 5를 추가하세요. Exo의 토폴로지 인식 플래너는 강력한 노드 쪽으로 무거운 텐서 조각을 편향시키고, 더 가벼운 레이어나 CPU 친화적인 작업은 구형 장비로 오프로드합니다.

간단한 전략으로 이를 더 발전시킬 수 있습니다:

  • 1가장 큰 AI 모델의 가중치를 가장 많은 RAM/VRAM을 가진 기계에 올려 놓으세요.
  • 2모든 클러스터 노드는 가능한 경우 유선 Ethernet 또는 Thunderbolt에 연결하십시오.
  • 3Wi-Fi는 Raspberry Pi나 Android폰처럼 저전력 도우미에만 사용하세요.

최신 Apple 실리콘에서는 Thunderbolt 5가 힘의 배가 됩니다. Exo는 Thunderbolt 5를 통한 RDMA를 사용하여 GPU 간 메모리 전송을 수행하고, 지연 시간을 줄여 여러 대의 Mac이 하나의 거대한 통합 박스처럼 작동하게 만듭니다. 이러한 방식으로 커뮤니티 설정이 M3 Ultra Mac Studio 4대에서 약 32 토큰/초의 속도로 Qwen 3 235B와 같은 수치를 달성하게 됩니다. 클라우드 GPU는 사용하지 않으며, 신중한 배선과 양자화만을 활용합니다.

숨겨진 거래 비용과 한계

클라우드 AI 비용은 사기처럼 느껴지지만, 로컬 AI에도 자체적인 조건이 있습니다. Exo는 비용을 토큰에서 하드웨어와 전기로 전환하며, 가장 큰 제약은 더 이상 VRAM이 아니라 네트워크 처리량입니다. 235B 또는 671B 매개변수를 가진 AI 모델을 여러 기계에 분산시키면, 각 토큰은 분산 시스템 문제로 변하게 됩니다.

네트워크 속도와 지연 시간이 모든 것을 지배합니다. 10 Gbps 유선 연결이나 Thunderbolt 5는 텐서가 원활하게 흐르도록 할 수 있지만, 혼잡한 Wi-Fi 5 라우터는 절대 그렇게 할 수 없습니다. Exo는 여전히 Wi-Fi에서 작동하지만, "AI 슈퍼컴퓨터" 환상을 포기하고 차라리 정중하게 느린 챗봇에 가까운 것으로 대체하게 됩니다.

토폴로지가 원시 컴퓨팅 만큼 중요합니다. Exo는 노드 간에 활성화를 지속적으로 전송하므로, 하나의 느린 홉이 전체 파이프라인을 멈출 수 있습니다. 사무실의 Mac mini와 전력선 이더넷으로 연결된 Raspberry Pi와 같은 두 대의 기계 간의 높은 대기 시간은 초당 토큰 수를 크게 줄일 수 있습니다.

혼합 하드웨어는 “최느린 노드” 문제가 발생하기 전까지는 매혹적으로 들립니다. M4 Max MacBook Pro를 Raspberry Pi 4와 구형 Intel NUC에 연결하면, Exo는 마지막으로 작업이 끝나는 장치에 맞춰 속도를 조절해야 합니다. 이를 완화하려면 다음과 같은 방법이 있습니다: - 약한 노드에는 작은 또는 CPU 친화적인 레이어 유지 - 대형 AI 모델에서 실제로 성능이 부족한 장치 제외 - 핫 경로에 참여하는 모든 장치에 유선 이더넷 사용

Thunderbolt 5를 통한 RDMA는 도움이 되지만, 특정 애플 설정에서만 가능합니다. Jeff Geerling의 벤치마크인 15 TB VRAM on Mac Studio: RDMA over Thunderbolt 5에서는 저지연 GPU 간 전송이 네 대의 M3 Ultra Mac Studio를 하나의 거대한 GPU처럼 작동하게 만드는 방법을 보여줍니다. 대부분의 사람들은 무작위로 모아놓은 노트북에서는 이러한 숫자에 도달하지 못할 것입니다.

또 하나의 확고한 경계: Exo는 추론만 수행합니다. AI 모델의 훈련, 심지어 미세 조정조차도 현재 Exo가 구현하지 않는 다양한 메모리 패턴, 최적화기 상태 및 그래디언트 동기화가 필요합니다.

탈중앙화된 AI의 새벽

클라우드 AI는 한때 불가피하게 보였습니다: 소수의 대규모 클라우드 제공업체가 지능을 토큰별로 임대하는 형태. 그러나 Exo는 AI AI 모델이 이미 소유하고 있는 노트북, 미니 컴퓨터 및 취미 보드의 메쉬에서 실행되는 다른 경로를 암시합니다. 멀리 떨어진 GPU 농장에 프롬프트를 전송하는 대신, 계산, 비용 및 제어를 자신의 공간 안에 유지하는 방식입니다.

탈중앙화, 지역 기반, 그리고 개인정보 우선의 AI는 MacBook, Linux 타워 및 Raspberry Pi가 함께 235B 매개변수 모델을 제공할 수 있을 때 더 이상 기술 애호가만을 위한 틈새시장이 아닙니다. Exo의 OpenAI 호환 엔드포인트는 api.openai.com과 통신하는 모든 앱이 http://localhost와 통신할 수 있도록 하여 차이를 전혀 느끼지 못하게 합니다. 이 전환은 가격 책정에서 토큰별 요금을 완전히 제거합니다.

개발자들에게 이건 연구 예산 없이 연구실을 얻는 것 같은 기분입니다. 8개의 M4 맥 미니와 512GB의 집합 메모리에서 양자화된 Deepseek V3 671B를 실험해보고 싶으신가요? 더 이상 AWS에서 A100 랙이나 6자리 신용 한도가 필요하지 않습니다. 몇 대의 괜찮은 머신과 약간의 인내심만 있으면 됩니다. 이러한 변화는 어떤 단일 벤치마크 차트보다 더 중요합니다.

취미로 하는 사람들은 갑자기 경계에 훨씬 더 가까워졌다. 두 대의 중고 맥 미니와 손에서 손으로 전해진 게임 PC를 가진 학생은 이제 기업 NDA 뒤에서만 존재하던 AI 모델을 사용하여 에이전트, 도구 호출 및 RAG 파이프라인을 실행할 수 있다. GitHub에서 Exo를 포크하고, 몇 대의 장비를 연결하여 235B 매개변수 모델에서 초당 30개 이상의 토큰을 얻을 수 있을 때, "홈 랩"과 "스타트업 인프라"의 경계는 점점 흐려진다.

빅 테크의 이점은 항상 규모에 있었습니다: 데이터 센터, 독점 가속기, 그리고 개인 모델 가중치. Exo와 같은 도구는 규모를 소프트웨어 문제로 만들어 그 해자에 하향식으로 접근합니다. 몇 개의 Thunderbolt 5 케이블과 RDMA가 네 대의 M 시리즈 데스크탑을 단일 대형 GPU처럼 작동하게 할 수 있다면, 그 GPU를 밀리초 단위로 임대하는 주장은 약해집니다.

탈중앙화 AI가 클라우드 AI를 완전히 대체하지는 않을 것입니다. 하이퍼스케일 기업들은 여전히 훈련 및 글로벌 배포를 소유하고 있습니다. 그러나 추론은 차지할 만한 기회입니다. 엑소와 같은 프로젝트들이 성숙함에 따라, 강력한 AI 모델을 로컬에서 실행하는 것이 더 이상 해킹처럼 느껴지지 않고 기본적인 형태가 될 것입니다.

자주 묻는 질문

엑소란 무엇인가요?

Exo는 로컬 네트워크의 여러 장치(맥, 리눅스 PC, 라즈베리 파이 등)를 결합하여 클라우드를 사용하지 않고도 대규모 AI 모델을 추론하기 위해 단일 분산 클러스터로 운영할 수 있게 해주는 오픈 소스 도구입니다.

Exo는 어떤 하드웨어를 지원하나요?

엑소는 macOS(Apple Silicon), 리눅스, 안드로이드 디바이스를 포함한 다양한 이종 하드웨어를 지원합니다. 이를 통해 사용자들은 랩탑, 데스크탑, 전화기, 라즈베리 파이와 같은 싱글 보드 컴퓨터의 리소스를 통합할 수 있습니다.

엑소는 하나의 클러스터에서 다양한 유형의 하드웨어를 어떻게 처리하나요?

Exo는 장치를 자동으로 탐지하고, 사용 가능한 메모리와 네트워크 성능을 측정한 다음, 텐서 및 파이프라인 병렬성을 사용하여 AI 모델을 지능적으로 분할합니다. Mac에서는 Apple's MLX 프레임워크를 사용하며, Linux 시스템에서는 CPU로 이전할 수 있습니다.

Exo를 사용하여 AI 모델을 학습시킬 수 있나요?

아니요, Exo는 AI 모델 추론을 위해 특별히 설계되었으며, 이는 사전 훈련된 모델을 실행하는 과정입니다. 모델을 처음부터 훈련시키는 계산 집약적인 작업에는 최적화되어 있지 않습니다.

Frequently Asked Questions

엑소란 무엇인가요?
Exo는 로컬 네트워크의 여러 장치를 결합하여 클라우드를 사용하지 않고도 대규모 AI 모델을 추론하기 위해 단일 분산 클러스터로 운영할 수 있게 해주는 오픈 소스 도구입니다.
Exo는 어떤 하드웨어를 지원하나요?
엑소는 macOS, 리눅스, 안드로이드 디바이스를 포함한 다양한 이종 하드웨어를 지원합니다. 이를 통해 사용자들은 랩탑, 데스크탑, 전화기, 라즈베리 파이와 같은 싱글 보드 컴퓨터의 리소스를 통합할 수 있습니다.
엑소는 하나의 클러스터에서 다양한 유형의 하드웨어를 어떻게 처리하나요?
Exo는 장치를 자동으로 탐지하고, 사용 가능한 메모리와 네트워크 성능을 측정한 다음, 텐서 및 파이프라인 병렬성을 사용하여 AI 모델을 지능적으로 분할합니다. Mac에서는 Apple's MLX 프레임워크를 사용하며, Linux 시스템에서는 CPU로 이전할 수 있습니다.
Exo를 사용하여 AI 모델을 학습시킬 수 있나요?
아니요, Exo는 AI 모델 추론을 위해 특별히 설계되었으며, 이는 사전 훈련된 모델을 실행하는 과정입니다. 모델을 처음부터 훈련시키는 계산 집약적인 작업에는 최적화되어 있지 않습니다.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts