Ejecuta enormes modelos de IA localmente con Exo: el clúster de IA de código abierto

💡

Resumen / Puntos clave

Deja de pagar facturas exorbitantes por la nube para ejecutar grandes modelos de IA. Una nueva herramienta de código abierto llamada Exo convierte tus Mac, PC e incluso Raspberry Pis existentes en un poderoso clúster de IA privado.

El Impuesto de IA en la Nube Está Drenando Tu Billetera

La inteligencia artificial en la nube parece gratuita hasta que llega la factura. La tarificación por token en las API al estilo GPT convierte cada experimento en una pequeña decisión financiera, y esas decisiones se acumulan rápidamente cuando pasas de un prototipo de fin de semana a un producto. Activa algunos agentes, transmite contextos largos o ejecuta un lote de pruebas A/B, y te enfrentas a un gráfico de uso que parece menos un servicio público y más el salario de un nuevo empleado.

La economía por token castiga la curiosidad. ¿Quieres comparar tres modelos de IA diferentes en un conjunto de datos de 100,000 tokens? Eso son cientos de miles de tokens facturados, en cada ejecución, antes de que siquiera sepas si la idea funciona. Si escalas eso a un equipo de desarrolladores que está probando puntos finales todo el día, el "solo pruébalo" muere en silencio bajo los límites de uso y las alertas de presupuesto.

El costo es solo la mitad del problema. Cada solicitud, registro y archivo de usuario que envías a una API en la nube atraviesa la infraestructura de otra persona, regida por sus políticas de retención, sus controles de acceso y su riesgo de violación. Para el sector salud, finanzas o datos internos de productos, "confía en nosotros, anonimamos" suena poco convincente cuando los reguladores y clientes comienzan a hacer preguntas difíciles.

Poseer los datos significa poseer el camino de computación que recorren. La inferencia local mantiene las entradas en bruto, los embeddings intermedios y los outputs generados en máquinas que controlas, detrás de tu propio firewall, bajo tus propias reglas de auditoría. Sin transferencias de datos transfronterizas, sin registros de terceros, sin misteriosos programas de "mejora de modelos" entrenados con tu corpus propietario.

Exo cambia el modelo predeterminado de alquilar computación a poseerla. En lugar de pagar a OpenAI o Anthropic por cada token indefinidamente, Exo convierte las Macs, cajas Linux e incluso Raspberry Pis que ya tienes en un clúster de IA peer-to-peer. Tu red se convierte en el centro de datos, y tu presupuesto de hardware se convierte en un gasto de capital único en lugar de una suscripción infinita.

Ese replanteamiento lleva a una pregunta directa: ¿qué pasaría si nunca más necesitaras una GPU en la nube? Los propios benchmarks de Exo muestran Modelos de IA con entre 235B y 671B de parámetros corriendo en clústeres de Macs de la serie M en una red local. Entonces, ¿qué sucede con el impuesto de IA en la nube cuando un montón de máquinas "viejas" puede sustituir a un rack A100?

Conoce a Exo: Tu Clúster Beowulf AI Personal

Ilustración: Conoce a Exo: Tu Cluster Beowulf AI Personal

La IA en la nube se siente como alquilar un coche deportivo por minuto. Exo invierte ese modelo: es un sistema de código abierto que convierte la pila aleatoria de máquinas en tu escritorio y en tu armario en un clúster de IA de igual a igual. Sin nube, sin impuesto por token, solo tu hardware actuando como un enorme acelerador.

Piense en ello como un clúster Beowulf para LLMs, sin el dolor de cabeza de la red de posgrado. Los clústeres HPC tradicionales requieren configuraciones personalizadas, hojas de cálculo de IP y un fin de semana perdido debido a errores de MPI. Exo descubre automáticamente los dispositivos en su red local, negocia cómo utilizarlos y expone un endpoint HTTP limpio al estilo de OpenAI para sus aplicaciones.

El truco principal: Exo agrupa la memoria y el cómputo a través de dispositivos heterogéneos para que funcionen como una sola GPU lógica. Tu MacBook Pro, una torre con Linux y un par de Raspberry Pis dejan de ser juguetes aislados y comienzan a actuar como una máquina unida. Cambias el “¿cabe en esta GPU?” por “¿cabe en toda mi casa?”

Bajo el capó, Exo inspecciona el ancho de banda, la latencia y la RAM libre de cada nodo, y luego divide los modelos de IA en consecuencia. Utiliza paralelismo de tensores y paralelismo en tuberías para dividir matrices de pesos masivos y pilas de capas entre dispositivos, transmitiendo activaciones a través de tu red local. En la práctica, obtienes VRAM compartida, incluso si cada caja solo tiene unas pocas decenas de gigabytes por sí sola.

Exo se centra únicamente en la inferencia, no en el entrenamiento, lo que mantiene el problema manejable y la experiencia de usuario en buen estado. Cargas pesos pesados preentrenados como Llama 3 o DeepSeek V3 y solo generas. Sin retropropagación, sin estado del optimizador, sin sesiones de entrenamiento de varios días que cuidar.

Los números lo hacen real. Los puntos de referencia de la comunidad muestran que Qwen 3 235B funciona a alrededor de 32 tokens por segundo en cuatro Mac Studios M3 Ultra. Exo Labs, por su parte, impulsó DeepSeek V3 671B en ocho Mac minis M4, agrupando aproximadamente 512 GB de memoria efectiva a una precisión de 8 bits.

El hardware mixto no te descalifica. Exo utiliza las GPU de silicio de Apple a través de MLX en macOS, se apoya en CPUs o GPUs en Linux, e incluso puede involucrar Raspberry Pis para aumentar la RAM o realizar cálculos ligeros. Los enlaces por cable y Thunderbolt 5 RDMA reducen la latencia lo suficiente como para que, desde la perspectiva del modelo, tus máquinas dispersas se difuminen en un único superordenador local de IA.

La magia del clustering sin configuración.

La magia aquí comienza antes de que cualquier solicitud llegue a un modelo de IA. Inicia Exo en un MacBook, una máquina Linux o una Raspberry Pi, y comienza inmediatamente con la autodetección, escaneando tu red local en busca de otros dispositivos habilitados para Exo y uniéndolos en un solo clúster. Sin paneles de control, sin asistentes, sin una pestaña “avanzada” que oculte una máscara de subred.

Los sistemas distribuidos tradicionales te obligan a ganar cada token de rendimiento. Manejas direcciones IP, abres puertos, editas YAML y cuidas capas de orquestación como Kubernetes, Slurm o Ray. Exo invierte eso: se comporta más como AirPlay que como MPI, pero para Modelos de IA en lugar de altavoces.

Una vez en funcionamiento, Exo evalúa silenciosamente tu red. Mide ancho de banda, latencia y memoria disponible en cada nodo, y luego decide cómo fragmentar el Modelo de IA utilizando paralelismo de tensores y de tuberías. Un Raspberry Pi de 16 GB y un Mac Studio de 128 GB no obtienen la misma porción, y nunca necesitas modificar un archivo de configuración para que eso sea cierto.

Faltan del flujo de trabajo todas las tareas habituales de la computación distribuida. No tienes que: - Asignar manualmente IPs o nombres de host - Escribir especificaciones YAML a nivel de clúster - Configurar colas de Docker Swarm, Kubernetes o Slurm

En cambio, Exo expone un punto final compatible con OpenAI en tu red local y trata tu conjunto ad hoc de máquinas como un único acelerador lógico. Apuntas tu aplicación a una URL local, y Exo se encarga de la ruta, la programación y las transferencias entre dispositivos en segundo plano.

Contrastalo con la creación de un clúster equivalente en la nube, donde tendrías que unir VPCs, grupos de seguridad, grupos de nodos y políticas de escalado automático antes de cargar un modelo de IA. Los laboratorios domésticos utilizando exo: Ejecuta tu propio clúster de IA en casa con dispositivos comunes saltan directamente a la experimentación. El agrupamiento sin configuración transforma “Tengo algo de hardware viejo” en “Tengo un superordenador de IA” con un solo comando.

Cómo Exo Divide un Gran Cerebro de IA

Los cerebros que no caben en una sola máquina necesitan ser divididos. El truco de Exo es fragmentación de modelos: toma un enorme cerebro de IA y lo corta en piezas que pueden vivir en múltiples CPUs, GPUs e incluso en placas pequeñas como Raspberry Pi, luego las vuelve a unir en tiempo de ejecución. Para tu aplicación, sigue pareciendo un único y enorme modelo de IA detrás de un único endpoint al estilo de OpenAI.

Bajo el capó, Exo se basa en paralelismo tensorial. En lugar de cargar una capa entera de transformador en un solo dispositivo, divide los enormes tensores de la capa—pesos, activaciones, matrices de atención—entre varias máquinas. Cada dispositivo procesa su fragmento del cálculo, y Exo fusiona los resultados parciales en el siguiente paso de la computación.

La paralelización en tuberías añade un segundo eje. Exo puede asignar diferentes capas o bloques del modelo de IA a diferentes nodos, convirtiendo tu red en una línea de ensamblaje. Los tokens fluyen desde una capa de incrustación en una caja hacia bloques de atención en otra, y luego a capas de salida en algún otro lugar, todo en un relevo ajustado.

El particionamiento inteligente solo funciona si el sistema comprende la disposición física del clúster. Exo realiza un particionamiento consciente de la topología: sondea cada nodo en busca de VRAM, RAM del sistema, tipo de CPU y almacenamiento, luego mide la latencia y el ancho de banda a través de Wi-Fi, Ethernet y Thunderbolt. Ese perfil guía la forma en que elige las divisiones de tensor frente a las divisiones de canalización y dónde aterriza cada fragmento.

Un Mac robusto con una GPU moderna de Apple termina llevando las capas más pesadas. Exo puede fijar la atención y los bloques de alimentación hacia adelante con las matrices de parámetros más grandes en un MacBook Pro con un M4 Pro, utilizando la pila MLX de Apple para mantener los datos en la GPU tanto como sea posible. Esos segmentos vinculados a la GPU permanecen en el silicio más rápido, minimizando las transferencias costosas.

Mientras tanto, dispositivos más débiles siguen contribuyendo. Un Raspberry Pi en la misma LAN podría albergar partes más ligeras y con mayor carga de CPU del gráfico: tokenización, lógica de enrutamiento, pequeñas capas de proyección o post-procesamiento. Exo trata ese Pi como otro objetivo de shard, programando trabajo que se ajuste a su RAM limitada y núcleos modestos.

Cuando se ejecuta el gráfico, las activaciones fluyen a través de la red entre fragmentos. En Macs compatibles conectados por Thunderbolt 5, Exo incluso aprovecha transferencias de GPU a GPU estilo RDMA, reduciendo la latencia hasta un 99% en comparación con el rebote a través de la CPU. Cuatro Mac Studio M3 Ultra, por ejemplo, pueden cooperar en una configuración de 235 mil millones de parámetros Qwen 3 y aún así procesar alrededor de 32 tokens por segundo utilizando este enfoque.

Una API privada compatible con OpenAI en tu portátil

Las API de IA en la nube se sienten sofisticadas porque ocultan todas las partes difíciles: redes, balanceo de carga, transmisión de tokens a través de HTTP. Exo toma silenciosamente ese modelo y lo lleva a tu laptop. Al iniciarlo, obtienes un punto de acceso HTTP local que se comporta como la API de OpenAI, pero cada token proviene del hardware que ya posees.

Para los desarrolladores, la integración parece casi insultantemente simple. Dondequiera que tu código apunte a `https://api.openai.com`, simplemente cambias la URL base a `http://localhost:11434` (o el puerto que utilice Exo) y mantienes los mismos payloads JSON compatibles con OpenAI. Las llamadas existentes a `/v1/chat/completions` o `/v1/completions` simplemente se redirigen a tu clúster de Exo en lugar de a los servidores de OpenAI.

Ese cambio de una línea importa si ya envías aplicaciones impulsadas por IA. Tus herramientas CLI, extensiones de navegador o servicios en segundo plano pueden mantener sus formas de solicitud actuales, manejo de errores y lógica de transmisión. Mantienes la ergonomía de una API de nube pulida mientras Exo se encarga de la fragmentación, programación y detección de hardware en segundo plano.

La compatibilidad va más allá del código personalizado. Herramientas como Open WebUI pueden comunicarse con Exo como si fuera OpenAI, ofreciéndote una interfaz privada al estilo de ChatGPT que nunca abandona tu red local. Apunta la "URL base de OpenAI" de Open WebUI a `localhost`, selecciona un modelo de IA que Exo albergue y obtendrás una consola de chat completa impulsada por tus Mac minis, máquinas Linux y Raspberry Pis.

Ejecutar todo localmente cambia la economía y el modelo de amenazas. Sin sorpresas en las facturas por token, sin límites de tasa que restrinjan experimentos, y sin solicitudes o documentos que crucen un centro de datos de terceros. Para equipos que manejan registros de clientes, código propietario o datos regulados, una API compatible con OpenAI local puede significar evitar revisiones de cumplimiento dolorosas.

La experiencia del desarrollador se mantiene familiar mientras tu infraestructura se transforma por completo. Aún puedes `POST` JSON, analizar respuestas y registrar tokens, pero ahora puedes escalar simplemente conectando otro MacBook en lugar de solicitar un aumento de cuota. Exo convierte tu red en una columna vertebral privada de IA, con la misma superficie de API que ya conoces y mucho más control sobre lo que sucede en el fondo.

El arma secreta Thunderbolt 5

RDMA suena como sopa alfabética de redes, pero en el último hardware de Apple, en silencio activa un interruptor: tu cable Thunderbolt se convierte en un cordón umbilical de alta velocidad entre GPU a GPU. Acceso Directo a Memoria Remota a través de Thunderbolt 5 permite que la GPU de un Mac lea y escriba directamente en la memoria de otro Mac, omitiendo completamente la CPU.

Las configuraciones tradicionales de múltiples máquinas hacen rebotar tensores a través de la CPU y la RAM del sistema de cada equipo, añadiendo milisegundos de sobrecarga en cada salto. RDMA elimina ese desvío, reduciendo la latencia entre nodos en hasta un 99% y convirtiendo Thunderbolt 5 en algo más parecido a un tejido PCIe interno que a un puerto externo.

Con Exo montado sobre esto, una cadena de Mac Studios o Mac minis comienza a comportarse como una única y robusta caja multi-GPU. Las activaciones fluyen directamente de una GPU de Apple a otra a través de Thunderbolt 5, por lo que el particionamiento de tensores y pipelines de Exo deja de sentirse como un clúster y más como un SoC sobredimensionado que se extiende a través de las máquinas.

Los índices de referencia de las pruebas de Jeff Geerling muestran cómo se ve eso en la práctica: cuatro Mac Studios M3 Ultra empujando Qwen 3 235B a alrededor de 32 tokens por segundo a través de RDMA sobre Thunderbolt. Esa es una capacidad de procesamiento a escala de nube, pero funcionando debajo del escritorio de alguien, no en una región de AWS.

Exo Labs llevó la idea más allá, ejecutando DeepSeek V3 671B en ocho Mac minis M4 con un total de 512 GB de memoria compartida. RDMA a través de Thunderbolt 5 hizo que esos ocho pequeños equipos funcionaran como un gran sistema con un pool de memoria compartida lo suficientemente grande como para alojar modelos de IA que normalmente solo residen en clusters empresariales H100.

Para los prosumidores, eso cambia la viabilidad de forma inmediata. En lugar de alquilar docenas de GPUs de alta gama por hora, puedes conectar en cadena algunos Macs equipados con Thunderbolt 5 y permitir que Exo los trate como un único acelerador lógico para modelos de IA de más de 200 mil millones de parámetros.

Cualquiera que esté planeando un rack de IA casero ahora tiene una receta clara: - Máquinas de silicio de Apple compatibles con Thunderbolt 5 - Cables en lugar de conmutadores en la parte superior del rack - Exo orquestando shard y RDMA

Los detalles, configuraciones soportadas y la hoja de ruta están disponibles en el Sitio Oficial de Exo, que efectivamente también funciona como documentación para transformar Thunderbolt 5 en tu propia infraestructura de IA privada.

Referencias del Mundo Real: De la Teoría a Tokens/Sec

Los benchmarks convierten a Exo de un ingenioso truco de redes en un motor creíble de Modelos de IA IA. Los números de los primeros adoptantes muestran que “ejecutar modelos de IA de más de 200 mil millones en casa” ya no es un meme, especialmente si conectas todo y dejas que Exo maneje la lógica de fragmentación por ti.

La configuración de Jeff Geerling parece un sueño febril de laboratorio en casa: cuatro cajas de M3 Ultra Mac Studio unidas mediante Thunderbolt 5. Usando el paralelismo tensorial de Exo y RDMA, ejecutó QwQ‑32B‑235B en esas máquinas y alcanzó aproximadamente 32 tokens por segundo de generación sostenida, con alrededor de 15 TB de memoria equivalente a VRAM disponible para el clúster.

Esos números importan porque están en la misma liga que las instancias de nube pagadas que te alquilan equipos multi-GPU A100 o H100 por minuto. El informe de Geerling muestra ganancias casi lineales a medida que añade cada M3 Ultra, con Exo empujando automáticamente más de los modelos de IA a través de la nueva memoria y potencia de cálculo sin necesidad de reconfiguración manual. Ese es precisamente el tipo de comportamiento de escalado que esperas de una pila de inferencia distribuida seria, no de un proyecto secundario de fin de semana.

ExoLabs intensificó aún más sus esfuerzos con DeepSeek V3 671B, un tamaño de modelo reservado generalmente para centros de datos de hiperescaladores. Su evaluación interna ejecutó modelos de IA cuantificados a 8 bits en un clúster de ocho M4 Mac mini, sumando alrededor de 512 GB de memoria unificada. Los números de tokens por segundo disminuyen en comparación con modelos de IA más pequeños, pero el mensaje es simple: un modelo de IA de 671B parámetros puede responder a solicitudes desde una pila de minis debajo del escritorio de alguien.

El networking puede determinar el éxito o el fracaso de esos resultados. Las conexiones por cable — 10 GbE, Thunderbolt 4 y especialmente Thunderbolt 5 con RDMA — mantienen el tráfico de activación lo suficientemente rápido como para que el clúster se comporte como una gran máquina. Las pruebas de Geerling y los experimentos de ExoLabs muestran que cuando se recurre al Wi‑Fi, el rendimiento se desploma y la latencia se dispara, ya que cada salto entre nodos lucha contra la congestión de las conexiones inalámbricas de consumo.

La escalabilidad también parece brutalmente sencilla: más memoria significa modelos de IA más grandes, y más ancho de banda significa más tokens por segundo. Agregue dispositivos y Exo simplemente: - Mide el ancho de banda, la latencia y la memoria libre - Redistribuye los modelos de IA con paralelismo de tensores y de tuberías - Mantiene estable el punto final compatible con OpenAI para tus aplicaciones

Los parámetros de referencia tanto de la comunidad como de ExoLabs demuestran que esto no es un experimento teórico. Con suficientes Macs en una red cableada, Exo convierte un conjunto de escritorios y minis en un superordenador de IA local que alcanza territorios de 200B a 671B sin tocar la nube.

Construyendo Tu Primer Clúster de IA Ragtag

Ilustración: Construyendo Tu Primer Clúster AI Ragtag

¿Así que quieres tu propio clúster de IA improvisado en un fin de semana? Comienza pequeño y con cable. La configuración ideal inicial utiliza dos máquinas razonablemente potentes por Ethernet: por ejemplo, un MacBook Pro M2 Pro o M3 como el nodo principal, además de un PC de escritorio o un segundo Mac en gigabit o 2.5 GbE. El Wi-Fi funciona para pruebas, pero las conexiones cableadas mantienen la latencia predecible una vez que escales más allá de los prompts de juguete.

La instalación se mantiene refrescante y aburrida. Instala Exo desde GitHub o desde el sitio oficial en ambas máquinas, ejecuta el daemon de Exo y espera unos segundos. Los dispositivos se descubren automáticamente en tu LAN, benchmarkean el ancho de banda y la memoria, y llegan a un acuerdo silencioso sobre cómo dividir los Modelos de IA.

Comienza con un modelo cuantizado grande, pero no un monstruo de frontera. Un sólido primer objetivo: una IA de 70 mil millones de parámetros a una cuantización de 4 bits, que se ajusta cómodamente en dos máquinas modernas con un total de 64–128 GB de RAM o memoria unificada. Aprendes el flujo de trabajo: descarga los pesos, inicia Exo, accede al endpoint local compatible con OpenAI, antes de perseguir experimentos de 200B+.

Una vez que eso funcione, comienza a mezclar hardware. Trata tu Mac o PC con Linux más rápida como el "cerebro" y añade todo lo que tengas: laptops Intel de repuesto, un mini-PC, tal vez un Raspberry Pi 5. El planificador consciente de la topología de Exo sesgará los fragmentos de tensor más pesados hacia el nodo fuerte y descargará capas más ligeras o trabajos amigables con la CPU al equipo más antiguo.

Puedes llevar esto más lejos con una estrategia simple:

1Coloca los pesos de los modelos de IA más grandes en la máquina con más RAM/VRAM.
2Mantenga todos los nodos del clúster en Ethernet por cable o Thunderbolt siempre que sea posible.
3Utiliza Wi‑Fi solo para asistentes de bajo impacto como Raspberry Pi o teléfonos Android.

En los nuevos procesadores de Apple, Thunderbolt 5 se convierte en un multiplicador de fuerzas. Exo puede utilizar RDMA sobre Thunderbolt 5 para transferencias de memoria de GPU a GPU, reduciendo la latencia para que múltiples Macs empiecen a comportarse como una única y robusta caja unificada. Así es como las configuraciones comunitarias logran cifras como Qwen 3 235B a ~32 tokens/segundo en cuatro Mac Studios M3 Ultra—sin GPUs en la nube, solo cableado cuidadoso y cuantificación.

Los intercambios ocultos y las limitaciones

Las facturas de IA en la nube parecen una estafa, pero la IA local tiene su propia letra pequeña. Exo traslada los costos de tokens a hardware y electricidad, y la mayor limitación ya no es la VRAM, sino el ancho de banda de red. Cuando distribuyes un modelo de IA de 235B o 671B de parámetros entre máquinas, cada token se convierte en un problema de sistemas distribuidos.

La velocidad y la latencia de la red lo dominan todo. Un enlace por cable de 10 Gbps o Thunderbolt 5 puede mantener los tensores fluyendo; un enrutador Wi-Fi 5 congestionado absolutamente no puede. Exo seguirá funcionando en Wi-Fi, pero cambiarás la fantasía de “supercomputadora de IA” por algo más cercano a un chatbot educadamente lento.

La topología es tan importante como la potencia de cálculo en bruto. Exo envía constantemente activaciones entre nodos, por lo que un solo salto con retraso puede paralizar toda la tubería. Una alta latencia entre incluso dos máquinas—por ejemplo, un Mac mini en la oficina y un Raspberry Pi a través de Ethernet por línea eléctrica—puede hacer caer drásticamente los tokens por segundo.

Los hardware mixtos suenan románticos hasta que el problema del "nodo más lento" aparece. Si encadenas un MacBook Pro M4 Max a un Raspberry Pi 4 y a un viejo Intel NUC, Exo debe ajustarse al dispositivo que termine su tarea en último lugar. Puedes mitigar esto al: - Mantener capas pequeñas o amigables con la CPU en nodos más débiles - Excluir dispositivos verdaderamente poco potentes de grandes modelos de IA - Usar Ethernet por cable para cualquier cosa que participe en el camino crítico

RDMA sobre Thunderbolt 5 ayuda, pero solo en configuraciones específicas de Apple. Los benchmarks de Jeff Geerling en 15 TB de VRAM en Mac Studio: RDMA sobre Thunderbolt 5 muestran cómo las transferencias de baja latencia de GPU a GPU convierten cuatro Mac Studios M3 Ultra en algo que se comporta como una gran GPU. La mayoría de las personas no alcanzarán esos números en un montón aleatorio de portátiles.

Una frontera más dura: Exo solo hace inferencia. Entrenar modelos de IA, incluso el ajuste fino, requiere patrones de memoria diferentes, estado del optimizador y sincronización de gradientes que Exo simplemente no implementa hoy.

El Amanecer de la IA Descentralizada

La IA en la nube alguna vez parecía inevitable: un puñado de hiperescaladores alquilando inteligencia por demanda. Exo insinúa una trayectoria diferente, donde Modelos de IA funcionan en una red de computadoras portátiles, Minis y placas de hobby que ya posees. En lugar de enviar solicitudes a una granja de GPU lejana, mantienes la computación, el costo y el control dentro de tus propias paredes.

La IA prioritaria en privacidad, descentralizada y local, deja de ser un nicho para aficionados cuando un MacBook, una torre Linux y una Raspberry Pi pueden servir colectivamente un modelo de 235 mil millones de parámetros. El punto de conexión de Exo compatible con OpenAI significa que cualquier aplicación que se comunique con api.openai.com puede, en su lugar, comunicarse con http://localhost y nunca notar la diferencia. Ese intercambio elimina por completo la fijación de precios por token de la ecuación.

Para los desarrolladores, esto se siente como obtener un laboratorio de investigación sin necesidad de un presupuesto de investigación. ¿Quieres experimentar con Deepseek V3 671B cuantizado en 8 Mac minis M4 y 512 GB de memoria agrupada? Ya no necesitas un rack de A100 en AWS ni una línea de crédito de seis cifras; solo necesitas algunas máquinas decentes y un poco de paciencia. Ese cambio es más importante que cualquier gráfico de referencia individual.

Los aficionados de repente se encuentran mucho más cerca de la frontera. Un estudiante con dos Mac minis usados y un PC de juegos heredado puede ejecutar agentes, llamadas de herramientas y pipelines RAG en modelos de IA que solían estar solo detrás de NDAs empresariales. Cuando puedes bifurcar Exo de GitHub, conectar un puñado de cajas y obtener más de 30 tokens/seg en un modelo de 235B parámetros, la línea entre "laboratorio en casa" e "infraestructura de startup" se difumina.

La ventaja de las grandes tecnológicas siempre ha sido la escala: centros de datos, aceleradores propietarios y pesos de modelos privados. Herramientas como Exo atacan ese foso de abajo hacia arriba al hacer de la escala un problema de software, no de capital. Si unos pocos cables Thunderbolt 5 y RDMA pueden hacer que cuatro escritorios de la serie M se comporten como una sola GPU potente, el argumento para alquilar esa GPU por milisegundo se debilita.

La IA descentralizada no reemplazará por completo a la IA en la nube; los hiperescaladores aún controlan el entrenamiento y la distribución global. Pero la inferencia está en juego. A medida que Exo y proyectos similares maduran, ejecutar modelos de IA serios localmente se sentirá menos como un truco y más como la opción predeterminada.

Preguntas Frecuentes

¿Qué es Exo?

Exo es una herramienta de código abierto que te permite combinar múltiples dispositivos en tu red local, como Macs, PCs con Linux y Raspberry Pis, en un único clúster distribuido para ejecutar grandes modelos de IA para inferencias sin utilizar la nube.

¿Qué hardware soporta Exo?

Exo admite una mezcla de hardware heterogéneo, incluyendo macOS (Apple Silicon), Linux y dispositivos Android. Esto permite a los usuarios agrupar recursos de laptops, computadoras de escritorio, teléfonos y computadoras de placa única como la Raspberry Pi.

¿Cómo maneja Exo diferentes tipos de hardware en un mismo clúster?

Exo descubre automáticamente los dispositivos, mide su memoria disponible y su rendimiento de red, y luego divide inteligentemente el modelo de IA entre ellos utilizando paralelismo de tensores y de tuberías. Utiliza el marco MLX de Apple en Macs y puede recurrir a las CPU en sistemas Linux.

¿Puedo usar Exo para entrenar modelos de IA?

No, Exo está diseñado específicamente para la inferencia de modelos de IA, que es el proceso de ejecutar un modelo preentrenado. No está optimizado para la tarea computacionalmente intensa de entrenar modelos desde cero.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Preguntas frecuentes

¿Qué es Exo?

¿Qué hardware soporta Exo?

Exo admite una mezcla de hardware heterogéneo, incluyendo macOS , Linux y dispositivos Android. Esto permite a los usuarios agrupar recursos de laptops, computadoras de escritorio, teléfonos y computadoras de placa única como la Raspberry Pi.

¿Cómo maneja Exo diferentes tipos de hardware en un mismo clúster?

¿Puedo usar Exo para entrenar modelos de IA?

Tu viejo hardware ahora es un superordenador de IA.

Resumen / Puntos clave

El Impuesto de IA en la Nube Está Drenando Tu Billetera

Conoce a Exo: Tu Clúster Beowulf AI Personal

La magia del clustering sin configuración.

Cómo Exo Divide un Gran Cerebro de IA

Una API privada compatible con OpenAI en tu portátil

El arma secreta Thunderbolt 5

Referencias del Mundo Real: De la Teoría a Tokens/Sec

Construyendo Tu Primer Clúster de IA Ragtag

Los intercambios ocultos y las limitaciones

El Amanecer de la IA Descentralizada

Preguntas Frecuentes

¿Qué es Exo?

¿Qué hardware soporta Exo?

¿Cómo maneja Exo diferentes tipos de hardware en un mismo clúster?

¿Puedo usar Exo para entrenar modelos de IA?

One weekly email of tools worth shipping. No drip funnel.

Preguntas frecuentes

Leer a continuación

El Firewall de IA de Deno Termina con el Caos de los Agentes

Este Agente de IA Construye Negocios Para Ti

La prueba de realidad de la IA: El benchmark que rompió los LLMs

Mantente a la vanguardia de la IA