Microsoft Fara-7B Pone una Presión Sin Precedentes sobre los Agentes de OpenAI

💡

Resumen / Puntos clave

Microsoft acaba de lanzar Fara-7B, un agente de IA hipereficiente que se ejecuta en tu dispositivo, no en la nube. Este movimiento, junto con una ola de nuevos modelos de sus rivales, señala un cambio sísmico que pone a prueba el dominio de OpenAI.

El agente de IA que no necesita la nube.

Microsoft acaba de lanzar un golpe directo a la IA prioritaria en la nube con Fara-7B, un modelo de "uso de computadora" de 7 mil millones de parámetros que se ejecuta directamente en tu dispositivo. No hay un backend del tamaño de GPT-4, ni un extenso conjunto de agentes auxiliares, solo una red única que observa tu pantalla. No un sustantivo propio decide qué hacer a continuación. Para una categoría que ha vivido y muerto por granjas de servidores masivas, esto es realmente una ruptura con el guion.

Los agentes de IA existentes se comportan como centros de control remoto: cada captura de pantalla se transmite a la nube, un gran modelo la procesa, una red de modelos maneja la planificación, la visión y la recuperación de errores. Ese diseño consume ancho de banda, aumenta la latencia y acumula costos por tarea que solo tienen sentido para las empresas. Para los usuarios regulares, los agentes vinculados a la nube son impresionantes en las demostraciones, pero resultan dolorosos en el uso diario.

Fara-7B ataca ese cuello de botella colapsando toda la pila en un modelo unificado. Ingiere capturas de pantalla en bruto, predice coordenadas de píxeles fundamentadas, y genera acciones en una sola pasada, sin necesidad de análisis del árbol de accesibilidad ni una cadena de modelos de planificación, visión o uso de herramientas. Microsoft informa que en el benchmark WebVoyager, completa tareas completas por alrededor de $0.025, en comparación con aproximadamente $0.30 para agentes construidos sobre enormes modelos de razonamiento al estilo GPT.

La ejecución local cambia la experiencia tanto como la economía. Funcionar en el dispositivo reduce la latencia de ida y vuelta porque nada necesita salir de la máquina. No expone la navegación sensible, los inicios de sesión, ni los documentos sensibles a registros remotos por defecto. Para portátiles, escritorios y eventualmente teléfonos, Fara-7B esboza un futuro donde tu "co-piloto de IA" se comporta más como una aplicación instalada que como una suscripción remota.

Esto no es solo compresión de modelos; es un cambio estratégico hacia IA eficiente y práctica. Fara-7B alcanza el 73.5% en WebVoyager y un 38.4% en WebTailBench, acercándose a sistemas mucho más grandes mientras utiliza aproximadamente una décima parte de los tokens de salida. Esa combinación de tamaño sm, rendimiento sólido y uso de tokens brutalmente bajo señala un nuevo frente competitivo: quién puede ofrecer agentes competentes que funcionen de forma local, económica y privada.

Microsoft acaba de abrir ese frente. OpenAI, Google, Alibaba, están construyendo poderosos agentes en la nube y ahora tienen que responder a una pregunta directa: ¿por qué no debería este servicio funcionar en el dispositivo?

Cómo Microsoft Creó un Agente a Dieta

Ilustración: Cómo Microsoft Construyó un Agente en Dieta

El agente de Microsoft comienza con una idea sorprendentemente simple: un modelo, un cerebro, sin andamiaje. Fara-7B no juega con un modelo de planificación, un modelo visual, un enrutador de herramientas, ni un ejecutor separado. Ingiere una captura de pantalla, la descripción de la tarea y directamente genera acciones concretas—haz clic aquí, escribe esto, desplázate allí—sin atravesar un laberinto de sistemas auxiliares.

La mayoría de las pilas de “agentes de IA” hoy en día se asemejan a máquinas de Rube Goldberg. Un gran modelo de razonamiento interpreta el objetivo, otro analiza el árbol de accesibilidad, otro gestiona la visión, y otro valida cada paso. Fara-7B elimina parte de eso, removiendo la capa de orquestación que a menudo se convierte en el verdadero cuello de botella, no el modelo en sí.

No es un nombre propio de análisis del DOM o del árbol de accesibilidad en tiempo de inferencia, Fara-7B trabaja directamente con píxeles. Ve la misma captura de pantalla que un ser humano, y luego predice acciones de coordenadas de píxeles alineadas con elementos visibles. Esa omisión elimina las dependencias frágiles de los metadatos de accesibilidad por sitio, que fallan en widgets personalizados, interfaces de usuario con mucho canvas y paneles de control empresariales mal etiquetados.

El diseño basado en capturas de pantalla también desbloquea una historia de implementación más limpia. Cualquier aplicación que pueda capturar la pantalla—escritorio, extensión de navegador, cliente VDI—puede alimentar a Fara-7B sin necesidad de conectarse a los internos de cada sitio web. Para entornos corporativos restringidos donde los enlaces de accesibilidad son inconsistentes o están desactivados, esta es la única ruta viable.

El costo es donde el cambio de arquitectura realmente impacta. Microsoft estima que una tarea completa con Fara-7B cuesta alrededor de $0.025, frente a aproximadamente $0.30 para agentes al estilo de GPT-4 que dependen de modelos de razonamiento de nivel GPT-4.1 o o3. Esa diferencia de 12x proviene de dos fuentes: un modelo de 7B es barato de operar, y Fara-7B utiliza aproximadamente una décima parte de los tokens de salida de esos agentes pesados.

En el benchmark WebVoyager, se informa que Fara-7B consume alrededor de 124,000 tokens de entrada y 1,100 tokens de salida por tarea. Los apilamientos de múltiples agentes de GPT-4 generan cadenas de pensamiento, reflexiones sobre herramientas que cuentan como tokens facturables. Las salidas compactas y orientadas a la acción de Fara-7B se traducen directamente en facturas más bajas y menos latencia.

Para usuarios regulares, los equipos de TI, esta simplicidad importa más que unos pocos puntos porcentuales más en una tabla de clasificación. Un modelo más simple es más fácil de implementar en laptops, gestionar en dispositivos de borde, y auditar por privacidad que una extensa granja de agentes solo en la nube. Más barato, más rápido, un sistema autónomo siempre supera a uno ingenioso pero incómodo.

Entrenando una IA sin espiar a los usuarios

Microsoft hizo algo inusual con los datos de entrenamiento de Fara-7B: intentó eludir completamente la supervisión humana. No se trata de un nombre propio que implique la minería de clics de usuarios, la recopilación de historiales de navegación o la grabación de pantallas; la compañía construyó Fara-7B, una fábrica de datos sintéticos diseñada para inundar el modelo con trazas realistas de uso de computadora sin tocar las sesiones de personas reales.

Fara-7B funciona enviando agentes de IA a la web abierta, no a entornos de juguete sanitizados. Esos agentes acceden a más de 70,000 dominios web, desde sitios de compras hasta páginas de documentación, y ejecutan tareas concretas de principio a fin: buscar, desplazarse, hacer clic, escribir, navegar y enviar.

Las sesiones lucen desordenadas a propósito. Los agentes hacen clic por error, abren la página equivocada, retroceden, vuelven a intentar búsquedas, ajustan filtros, no son sustantivos propios, refinan consultas. Ese ruido es importante porque Fara-7B debe aprender a operar en la misma experiencia de usuario caótica que enfrentan los usuarios humanos, no en un flujo de demostración curado.

Los datos sintéticos en forma bruta serían una trampa de alucinación, por lo que Microsoft añadió una capa de verificación estricta. Cada sesión generada pasa por tres jueces de IA independientes, cada uno evaluando un aspecto diferente de la calidad y alineación.

Los jueces verifican que: - Cada paso de lógica sigue del anterior - Las acciones coinciden con lo que está visiblemente presente en la página - La respuesta final satisface la tarea original

Cualquier cosa que falle ante cualquier juez se elimina. Después de este triaje, Microsoft mantuvo 145,631 sesiones verificadas, totalizando más de 1 millón de acciones individuales. No se utilizó un nombre propio, solo este subconjunto filtrado para entrenar la política de comportamiento de Fara-7B. El proceso se detalla en Fara-7B: Un modelo agente eficiente para el uso de computadoras - Microsoft Research.

Contrastalo con el manual habitual de la industria. Muchos sistemas agentivos se basan en: - Costosos registros de interacción humana de productos reales - Navegadores instrumentados que capturan DOM, clics, desplazamientos - Grabaciones completas de pantalla o de sesión

Esas infraestructuras plantean evidentes alarmas de privacidad. No son nombres propios, son infraestructuras pesadas para recopilar, almacenar y limpiar los datos de los usuarios. El enfoque de Fara-7B intercambia eso por simulaciones que requieren mucha computación y juicios automatizados, transformando el tiempo de GPU en datos de entrenamiento sintéticos pero estrictamente controlados.

Resultado: Fara-7B aprende cómo se siente la navegación real: errores, callejones sin salida, recuperaciones—sin que Microsoft necesite espiar el escritorio de nadie.

Este pequeño agente rinde más de lo que parece.

Los puntos de referencia no son modelos adecuados. Fara-7B los utiliza como una flexibilidad. En WebVoyager, el agente compacto de Microsoft muestra una tasa de éxito del 73.5% mientras consume aproximadamente 124,000 tokens de entrada y solo 1,100 tokens de salida por tarea. Ese perfil hace que cada ejecución completa cueste alrededor de $0.025, frente a aproximadamente $0.30 para los conjuntos de agentes impulsados por modelos de razonamiento al estilo GPT-4.1.

Online-Mind2Web, un referente diseñado para probar flujos web desordenados y del mundo real, muestra un patrón similar. Fara-7B alcanza el 34.1%, lo que puede no parecer impresionante hasta que te das cuenta de que está compitiendo contra modelos con 10x a 20x los parámetros de andamios multiagente elaborados. Esos sistemas consumen mucho más contexto y tokens de salida solo para mantener el seguimiento del estado a lo largo de los pasos.

WebTailBench es donde Microsoft afina el argumento. Este nuevo parámetro se centra en tareas subrepresentadas pero dolorosamente comunes: - Solicitudes de empleo a través de múltiples portales - Búsquedas de propiedades con filtros y vistas de mapa - Comparaciones entre múltiples sitios para productos y servicios

En WebTailBench, Fara-7B obtiene un 38.4%, superando cómodamente al anterior mejor agente de clase 7B. No se trata de un sustantivo propio que se adentra en el territorio de pilas propietarias mucho más grandes. Estas tareas no son decisiones basadas en un contexto, a nivel de píxeles: localizar el botón de "Aplicar" correcto, navegar por la paginación, manejar inicios de sesión, no solo resumir texto.

La eficiencia es la otra mitad de la historia. Fara-7B utiliza alrededor de una décima parte de los tokens de salida de sistemas de agentes pesados, mientras que iguala o supera su rendimiento en varias tareas de WebVoyager Not a proper noun WebTailBench. Menos parámetros del modelo, trayectorias más cortas, sin capa de orquestación significan menor latencia y un costo drásticamente más bajo.

Tomados en conjunto, esos números socavan la suposición de que solo los gigantes de más de 70 mil millones pueden realizar una automatización seria del uso de computadoras. Fara-7B muestra que agentes especializados pueden ofrecer resultados de vanguardia en tareas web realistas mientras se mantienen lo suficientemente económicos para operar localmente, de manera privada y a gran escala.

La IA que recuerda lo que sucede a continuación

Ilustración: La IA que recuerda lo que sucede después

Los modelos mundiales pasaron de los documentos de investigación a la realidad esta semana con el nuevo sistema de MBZ UAI, cNo un sustantivo propio Pan, No un sustantivo propio que reescribe silenciosamente lo que significa "IA de video". No un sustantivo propio de generar un solo clip bonito No un sustantivo propio olvidando todo, Pan ejecuta una simulación persistente que sobrevive a través de indicaciones, cuadros, No un sustantivo propio secuencias completas. Piensa en ello menos como una cámara No un sustantivo propio y más como un pequeño universo controlable.

Los modelos tradicionales de texto a video se comportan como peces de colores: escribes un aviso, ellos crean de 4 a 8 segundos de metraje y luego la memoria se reinicia por completo. No hay un estado interno que se mantenga, por lo que un aviso de seguimiento como "ahora gira a la izquierda" simplemente genera una nueva escena que se ajusta de manera vaga a las palabras. Generan píxeles, no consecuencias.

Pan encaja en una categoría completamente diferente: un modelo del mundo. Los modelos del mundo mantienen una representación interna de objetos, agentes y entornos, y luego actualizan esa representación a medida que se desarrollan las acciones. El video que ves es solo una representación de ese estado oculto, no el producto principal.

Pide a Pan que genere un coche en una calle de la ciudad. No es un nombre propio; crea un gráfico de escena interno: posiciones, orientaciones, velocidades, relaciones. Di “gira a la izquierda”. No es un nombre propio; Pan no solo redibuja un coche en un nuevo ángulo. Aplica un cambio de rotación, no un cambio de trayectoria, dentro de su simulación, y luego renderiza el estado actualizado como el siguiente fragmento de video.

Emitir otra comunicación. No es un nombre propio como "acelerar". No es un nombre propio, el mismo automóvil interno acelera por el mismo camino con iluminación y diseño consistentes, no es un nombre propio en el encuadre de la cámara. Puedes encadenar instrucciones:

1"Gira a la izquierda"
2"Accelerar"
3"Detente en el semáforo rojo"
4"Deja pasar al peatón"

Pan trata cada uno como otro punto en una línea de tiempo continua, no como cuatro indicaciones desconectadas.

Esa continuidad es exactamente lo que la mayoría de los generadores actuales rompen. Optimizan para una coherencia de un solo tiro: cuadros nítidos, movimiento cinematográfico, estilo llamativo, mientras los personajes se transforman sutilmente, los objetos se teletransportan, y los diseños de las habitaciones derivan entre clips. El modelo de mundo de Pan invierte la prioridad: preservar el estado, y luego dibujar el video encima.

Bajo el capó, Pan se apoya en un núcleo de razonamiento construido alrededor de Qwen2.5-VL-7B, un soporte de video adaptado de Hunyuan-Video (tecnología de clase Qwen2.1-T2V-14B) para mantener ambos, la lógica y los visuales, en sincronía. La parte de razonamiento rastrea lo que existe y cómo se mueve; la parte de video simplemente visualiza ese libro mayor en evolución.

La secuencia de comandos no son sustantivos propios como “mueve el brazo del robot al bloque rojo” y luego “recógelo”; esto pone a prueba si un sistema realmente recuerda. Pan aprueba porque el bloque rojo, sus coordenadas, y la posición del brazo viven en ese mundo interno persistente, listos para lo que le pidas que haga a continuación.

Construyendo un mundo, un fotograma a la vez

Pan funciona como un cerebro ensamblado. MBZ UAI conectó Quen 2.5 VL 7B como el núcleo de razonamiento, dando instrucciones, física, relaciones entre objetos, y luego hNot a proper nouns un “estado del mundo” estructurado a Juan 2.1 T2V 14B, un decodificador de texto a video ajustado para obtener cuadros nítidos y coherentes. Ese reparto mantiene la lógica y las visuales desacopladas, de modo que las decisiones estilísticas nunca alteren la ubicación de los objetos o su movimiento.

No es un sustantivo propio de la implementación de video en un solo intento frágil, Pan se apoya en un sistema que el equipo cNot a proper nouns causal swind dpm. Piénsalo como una cinta transportadora: cada clip llega como fotogramas latentes ruidosos, se refina en video limpio, y luego se fija como historia que los segmentos futuros deben respetar. Los nuevos segmentos solo pueden condicionarse en los fotogramas pasados, nunca pueden mirar hacia adelante, lo que evita los abruptos teletransportes y las rupturas de continuidad que afectan a los modelos de video largos.

El modelo causal swind dpm también añade un giro: ruido controlado en el marco de condicionamiento. Al corromper ligeramente la imagen de referencia, Pan deja de obsesionarse por detalles perfectos en píxeles como el parpadeo de texturas. No es un nombre propio; se centra en la estructura—las posiciones de los objetos, los vectores de movimiento, los patrones de interacción. Ese sesgo hacia la geometría en lugar del brillo es la razón por la que un brazo robótico, un coche o un personaje pueden persistir a lo largo de docenas de pasos sin desvanecerse en un amasijo fuera de modelo.

Nada de esto es barato. MBZ UAI entrenó el decodificador de video en un clúster de 960 GPU NVIDIA H200, el tipo de configuración que generalmente se reserva para LLMs de vanguardia, no para una demostración académica. Utilizaron un objetivo de igualación de flujo para el decodificador de difusión, junto con optimizaciones como FlashAttention-3 y entrenamiento de panel de datos fragmentado para mantener los gradientes en movimiento a gran escala.

Quen 2.5 no solo aprendió a repetir indicaciones; estudió la causalidad. El equipo recopiló conjuntos de datos donde las acciones conducen a resultados visibles: las puertas se abren cuando las manijas giran, los líquidos se derraman cuando las tazas se inclinan, los drones se desplazan cuando cambia el viento. Ese sesgo se manifiesta cuando Pan sigue simulando después de comandos como “gira a la izquierda”, “acelera” o “apila el bloque azul sobre el rojo” sin restablecer la escena cada vez.

Esta filosofía de entrenamiento refleja lo que Microsoft hizo con Fara-7B en el lado web, fundamentando agentes en trayectorias de largo plazo, no en simples instantáneas. Cualquiera que quiera ver cómo se desarrolla ese enfoque en un modelo compacto de uso de computadora puede inspeccionar el Modelo Fara-7B en Hugging Face. Pan simplemente aplica la misma obsesión por la continuidad a los píxeles, no a la física, ni a las pestañas del navegador.

Los gigantes están despertando con nuevos trucos.

Gigantes de la industria están cambiando silenciosamente los chatbots genéricos por herramientas altamente especializadas que realmente realizan tareas. En lugar de un único modelo que intenta responder a todas las consultas, las empresas están moldeando la IA en sistemas diseñados para propósitos específicos: agentes que navegan por aplicaciones web, modelos que simulan mundos a lo largo del tiempo, asistentes ajustados para comprar, estudiar o navegar. Fara-7B y Pan no son excepciones; son signos tempranos de un cambio hacia la IA nativa de tareas.

El movimiento de Google puede parecer sutil a simple vista: Imágenes Interactivas dentro de Gemini. En el fondo, es un movimiento estratégico para dominar cómo los estudiantes, aficionados y profesionales aprenden a partir de material visual. Al tocar un diagrama de física, Gemini destaca fuerzas, etiqueta componentes y guía a través de un razonamiento paso a paso en lugar de ofrecer una explicación estática.

La educación hace que esto sea especialmente poderoso. Un estudiante de biología puede examinar un gráfico de anatomía y obtener explicaciones detalladas, preguntas al estilo de un cuestionario y preguntas de seguimiento relacionadas con regiones específicas de la imagen. Los profesores pueden arrastrar un diagrama a Gemini y generar instantáneamente lecciones interactivas, conjuntos de problemas y variaciones, ancladas al mismo recurso visual.

Esa interactividad se alimenta directamente del bloqueo en el ecosistema de Google. Las Imágenes Interactivas funcionan mejor cuando te mantienes dentro de la órbita de Gemini, Google Docs y Classroom. Cada diagrama anotado, hoja de trabajo compartida y sesión guardada se convierte en otra razón por la cual las escuelas y los creadores mantienen su contenido —y a sus usuarios— dentro del conjunto de aprendizaje de Google.

Perplexity está avanzando en una dirección diferente y notable: el comercio. Su nuevo Asistente de Compras conversacional convierte la búsqueda de productos en un diálogo continuo que recuerda tus preferencias con el tiempo. En lugar de realizar una nueva consulta para cada compra, construyes un perfil persistente de marcas, tallas, presupuestos y restricciones que el asistente aplica silenciosamente.

Esa persistencia importa cuando pasas de “encuéntrame una laptop” a “necesito una máquina silenciosa de 14 pulgadas por menos de $1,200 que funcione bien. No un nombre propio, que tenga un gran soporte para Linux.” El sistema de Perplexity negocia compensaciones, extrae información de múltiples minoristas, y mantiene el contexto a lo largo de días o semanas mientras refinás lo que deseas. Se comporta menos como un motor de búsqueda y más como un comprador personal integrado en tu navegador.

No es un nombre propio de esto ejerce presión directa sobre el enfoque más generalizado de OpenAI. Mientras OpenAI habla de agentes GPTs en términos amplios, los rivales están lanzando herramientas de alcance específico que se integran en los flujos de trabajo diarios: estudiar, comprar, navegar, construir. La IA está pasando de ser una "caja de respuestas" a una infraestructura; las empresas que ganarán serán aquellas cuyos modelos se sientan menos como chatbots y más como características integradas de las aplicaciones en las que ya vives.

Tu próximo asistente de IA podría ser tus gafas.

Alibaba está apostando a que tu próximo asistente de IA se encuentre en tu cara, no en tu bolsillo. Su nueva línea de gafas inteligentes Cork S1 G1, lanzada en toda China, se parecen menos a prototipos de ciencia ficción y más a un hardware listo para vender junto a los smartphones y los auriculares.

Ambos modelos se basan en una percepción en tiempo real. Dirige tu mirada hacia un menú, una valla publicitaria o un mapa del metro y las gafas superponen traducción instantánea, convirtiendo el inglés en chino o viceversa en menos de un segundo. La función de Preguntas y Respuestas Visuales te permite fijar la vista en una etiqueta de producto, una vitrina o un documento y hacer preguntas en lenguaje natural, con respuestas que aparecen en tu campo de visión o se transmiten a través de audio por conducción ósea.

La profunda integración con el ecosistema de Alibaba los convierte en un frente físico para tu vida digital. Las conexiones con Taobao te permiten mirar un artículo en una tienda y consultar precios, reseñas y recomendaciones en línea. Las aplicaciones de Alipay prometen pagos sin contacto, mientras que la navegación se conecta con Amap para anclar las direcciones a calles y escaparates reales en la pantalla plana de tu teléfono.

Los precios muestran cuán agresivo quiere ser Alibaba. Los dispositivos portátiles chinos ya se envían en grandes volúmenes: decenas de millones de relojes inteligentes y auriculares cada año. Alibaba está posicionando el Cork S1 G1 más cerca de los auriculares premium que de los teléfonos de gama alta. Los paquetes subsidiados con operadores móviles y los créditos de compra en Taobao socavan las gafas inteligentes occidentales que a menudo superan los $500 y rara vez salen de los círculos de los primeros adoptantes.

El mercado de dispositivos portátiles en China le da un impulso a Alibaba. Los consumidores ya tratan los auriculares inalámbricos como mejoras desechables, cambiándolos cada 18-24 meses. Posicionar las gafas de IA como el siguiente paso incremental, y no como un gadget de lujo, permite a Alibaba aprovechar los hábitos de actualización existentes en lugar de inventar otros nuevos.

Lo que Alibaba está probando es si un asistente debe existir como una capa persistente y consciente del contexto en la realidad. No es solo sacar un teléfono, abrir una aplicación, Cork S1 G1, ver lo que ves, escuchar lo que dices, responder en el momento. Si ese modelo se mantiene, la IA deja de ser una caja de chat y comienza a convertirse en una presencia constante y ambiental integrada en la vida diaria.

Por qué OpenAI debería estar preocupado

OpenAI de repente parece menos una plataforma inevitable y más como una opción muy grande y muy cara. El Fara-7B de Microsoft demuestra que un agente de 7 mil millones de parámetros funcionando localmente puede igualar o superar a los gigantes basados en la nube en WebVoyager, Online-Mind2Web y WebTailBench, mientras cuesta aproximadamente 2.5 centavos por tarea en lugar de 30 centavos. Eso socava la narrativa económica detrás de los agentes al estilo de GPT-4o que transmiten cada captura de pantalla a un centro de datos.

Más grande ya no es automático. No es un sustantivo propio, significa mejor cuando un único modelo en el dispositivo puede ver píxeles, razonar y actuar sin un andamiaje de sistemas auxiliares. La tubería de entrenamiento sintético de Fara-7B, con más de 1 millón de acciones a través de más de 145,000 sesiones verificadas, demuestra que se puede obtener un comportamiento de alta calidad sin acumular telemetría de usuarios. Si las empresas pueden obtener automatización rápida, privada y económica en su propio hardware, la propuesta predeterminada de "enviar todo a la nube de OpenAI" se debilita.

El Pan de MBZ UAI ataca a OpenAI desde otro ángulo: la ambición. Pan une Quen 2.5 No es un nombre propio Juan 2.1 en un modelo del mundo que recuerda lo que ocurrió de un fragmento de video al siguiente, utilizando rollouts causales SwiNN-DPM No es un nombre propio 960 GPUs Nvidia H200 para mantener las escenas consistentes a lo largo del tiempo. Ese es el tipo de comportamiento a largo plazo y consciente de las consecuencias que OpenAI insinúa en sus demostraciones pero no lanza como infraestructura abierta.

Los laboratorios de investigación de código abierto ahora demuestran que pueden ensamblar capacidades de estilo fronterizo a partir de partes modulares. Publican las recetas. Con Pan, el plano para entornos de video interactivos y persistentes escapa del dominio de cualquier proveedor único. Cuando cualquiera puede bifurcar, ajustar con precisión e integrar esa capacidad, la ventaja del stack cerrado de OpenAI parece más un liderazgo temporal que un foso estructural.

Mientras tanto, Google, Perplexity y Alibaba están convirtiendo silenciosamente modelos especializados en productos atractivos. Las imágenes interactivas de Gemini viven dentro de las superficies de productividad de búsqueda de Google, el agente de compras de Perplexity se basa en una interfaz similar a la búsqueda que recuerda los hábitos del usuario, y las gafas de IA Cork S1 G1 de Alibaba se envían como ecosistemas de hardware completos. No son chatbots genéricos; son utilidades altamente integradas.

El hardware no es un sustantivo propio; la integración en el ecosistema crea muros que el acceso a la API no puede cruzar fácilmente. OpenAI tiene ChatGPT, una aplicación de escritorio, no un sustantivo propio, una API, pero no hay gafas de consumo masivo, no hay un sistema operativo de teléfono, no hay un motor de búsqueda, no hay una súper aplicación de comercio. A medida que modelos como Fara-7B se difunden a través de pesos abiertos, informes como el Informe Técnico de Fara-7B - Microsoft Research, el centro de gravedad se desplaza hacia quien sea que posea el dispositivo, el flujo de trabajo, los datos, no solo el modelo.

Tu IA finalmente está volviendo a casa.

La semana de anuncios de Microsoft reorganiza silenciosamente la trayectoria de la IA para consumidores. Fara-7B, Pan, las imágenes interactivas de Gemini, el asistente de compras de Perplexity, el Cork S1 de Alibaba No es un nombre propio G1 no persigue tablas de clasificación más grandes; persigue el uso diario. Juntos, señalan un cambio de demostraciones abstractas a sistemas prácticos, personales, No es un nombre propio privados.

Fara-7B ejecuta un agente completo de uso informático con 7 mil millones de parámetros, en una máquina local, por aproximadamente $0.025 por tarea de WebVoyager en comparación con ~$0.30 para pilas al estilo de GPT-4.1. Ese diseño de modelo único reduce la latencia, corta el ancho de banda a cero para las capturas de pantalla, y mantiene tus datos de navegación fuera de servidores remotos. El entrenamiento sintético a través de las 145,631 sesiones verificadas de Fara-7B y más de 1 millón de acciones demuestra que se puede obtener precisión sin registrar a los usuarios.

Pan empuja en una dirección diferente: modelos mundo persistentes que recuerdan lo que sucedió cuadro a cuadro. Su pila Quen 2.5 VL-7B + Juan 2.1 T2V-14B, entrenada en 960 GPUs Nvidia H200, trata el video como una simulación viva, no como un conjunto de clips desechables. Esa arquitectura abre puertas para la robótica, la realidad aumentada y los juegos donde la continuidad importa más que el brillo cinematográfico.

Las gafas de IA Cork S1 de Alibaba arrastran asistentes fuera de las ventanas de chat hacia tu cara. Junto con modelos que funcionan parcial o completamente en el dispositivo, prometen traducción en tiempo real, navegación y búsqueda sin forzar cada fotograma a través de un centro de datos en EE. UU. Combinado con los diagramas táctiles de Gemini y los flujos de compras conscientes de hábitos de Perplexity, la IA comienza a sentirse ambiental, no transaccional.

No un sustantivo propio de esto socava la suposición de que la IA útil debe residir en nubes de hiperescalado. Agentes locales o híbridos significan: - Menor latencia - Mayor privacidad - Menor costo operativo - Mayor alcance de hardware

Así que un año a partir de ahora, ¿cuál de estos avances cambiará tu vida más: agentes locales al estilo Fara-7B, modelos del mundo al estilo Pan, o IA integrada en gafas que nunca se quitan de tu rostro?

Preguntas Frecuentes

¿Qué hace que Fara-7B de Microsoft sea diferente de otros agentes de IA?

Fara-7B es un modelo único de 7B parámetros diseñado para funcionar localmente en un dispositivo. Procesa capturas de pantalla directamente sin necesidad de infraestructura en la nube o múltiples modelos auxiliares, lo que lo hace más rápido, económico y privado.

¿Qué es un 'modelo del mundo' como el Pan de MBZ UAI?

Un modelo del mundo simula un entorno continuo a lo largo del tiempo, recordando eventos pasados y prediciendo las consecuencias de las acciones. A diferencia de los generadores de video estándar, mantiene la consistencia y la relación de causa y efecto para la simulación y la planificación.

¿Cómo se entrenó Fara-7B sin datos de usuarios?

Microsoft utilizó un motor de datos sintéticos llamado FaraJen, que desplegó agentes de IA en 70,000 sitios web para generar sesiones de usuario realistas. Estos datos fueron posteriormente verificados por tres jueces de IA, creando un conjunto de entrenamiento de alta calidad y que preserva la privacidad.

¿Son estos nuevos modelos de código abierto?

Sí, Microsoft lanzó Fara-7B como un modelo de peso abierto. Pan de MBZ UAI también es un modelo mundial de código abierto que compite con varios sistemas comerciales.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Preguntas frecuentes

¿Qué hace que Fara-7B de Microsoft sea diferente de otros agentes de IA?

¿Qué es un 'modelo del mundo' como el Pan de MBZ UAI?

¿Cómo se entrenó Fara-7B sin datos de usuarios?

¿Son estos nuevos modelos de código abierto?

Sí, Microsoft lanzó Fara-7B como un modelo de peso abierto. Pan de MBZ UAI también es un modelo mundial de código abierto que compite con varios sistemas comerciales.

El FARA de Microsoft sorprendió a OpenAI.

Resumen / Puntos clave

El agente de IA que no necesita la nube.

Cómo Microsoft Creó un Agente a Dieta

Entrenando una IA sin espiar a los usuarios

Este pequeño agente rinde más de lo que parece.

La IA que recuerda lo que sucede a continuación

Construyendo un mundo, un fotograma a la vez

Los gigantes están despertando con nuevos trucos.

Tu próximo asistente de IA podría ser tus gafas.

Por qué OpenAI debería estar preocupado

Tu IA finalmente está volviendo a casa.

Preguntas Frecuentes

¿Qué hace que Fara-7B de Microsoft sea diferente de otros agentes de IA?

¿Qué es un 'modelo del mundo' como el Pan de MBZ UAI?

¿Cómo se entrenó Fara-7B sin datos de usuarios?

¿Son estos nuevos modelos de código abierto?

One weekly email of tools worth shipping. No drip funnel.

Preguntas frecuentes

Leer a continuación

El Firewall de IA de Deno Termina con el Caos de los Agentes

Este Agente de IA Construye Negocios Para Ti

La prueba de realidad de la IA: El benchmark que rompió los LLMs

Mantente a la vanguardia de la IA