Microsoft Fara-7B оказывает беспрецедентное давление на агентов OpenAI

Кратко / Главное

Microsoft только что выпустил Fara-7B, гиперэффективного ИИ-агента, работающего на вашем устройстве, а не в облаке. Этот шаг, наряду с волной новых моделей от конкурентов, сигнализирует о сейсмическом сдвиге, который ставит под сомнение доминирование OpenAI.

Искусственный интеллект, которому не нужно облако

Microsoft только что пронзил облачная технологии ИИ с Fara-7B, моделью «использования компьютеров» с 7 миллиардами параметров, которая работает напрямую на вашем устройстве. Никаких бэкендов размера GPT-4, никаких разросшихся кластеров вспомогательных агентов, только одна сеть, которая обращает внимание на ваш экран, а не собственное имя, решает, что делать дальше. Для категории, которая существовала и исчезала из-за гигантских серверных ферм, это настоящее отклонение от привычного сценария.

Существующие ИИ-агенты ведут себя как центры дистанционного управления: каждый скриншот передается в облако, где его обрабатывает большая модель. Это не надлежащий собственное имя - сеть малых и нестабильных моделей планирования, видения и восстановления после ошибок. Такой дизайн сжигает пропускную способность, увеличивает задержку и накапливает затраты на выполнение задач, которые имеют смысл только для предприятий. Для обычных пользователей облачные агенты ощущаются впечатляющими на демонстрациях, но становятся мучительными в повседневном использовании.

Fara-7B устраняет эту узкую ссылку, сводя всю структуру к одному унифицированному моделированию. Он обрабатывает необработанные снимки экрана, предсказывает привязанные координаты пикселей и выводит действия за один проход, без разбора дерева доступности или цепочки планирования, визуализации и моделей использования инструментов. Microsoft сообщает, что на бенчмарке WebVoyager он завершает полные задачи примерно за $0.025, тогда как для агентов, построенных на основе больших моделей рассуждений типа GPT, эта сумма составляет около $0.30.

Локальное выполнение изменяет опыт не менее чем экономику. Запуск на устройстве сокращает задержку передачи, потому что ничего не покидает машину. Это по умолчанию сохраняет конфиденциальные данные при просмотре, логины и документы в удаленных журналах. Для ноутбуков, настольных ПК и телефонов Fara-7B рисует будущее, где ваш «AI сопilot» ведет себя больше как встроенное приложение, чем как удаленная подписка.

Это не просто сжатие модели; это стратегический переход к эффективному, практичному ИИ. Fara-7B достигает 73,5% на WebVoyager и 38,4% на WebTailBench, при этом приближается к гораздо более крупным системам, используя примерно одну десятую от объема токенов. Эта комбинация небольшого объема, высокой производительности и низкого потребления токенов сигнализирует о новом конкурентном фронте: кто может предоставить компетентных агентов, которые работают локально, недорого и конфиденциально.

Microsoft только что открыл этот фронт. OpenAI, Google, Alibaba, несущественные названия, сейчас занимаются созданием мощных облачных агентов и должны ответить на прямой вопрос: почему этот несущественный объект не должен работать на устройстве несущественное название?

Как Microsoft создала агента на диете

Агент Microsoft начинается с совершенно простой идеи: одна модель, один мозг, никакого каркаса. Fara-7B не использует модель планирования, модель восприятия, маршрутизатор инструментов или отдельного исполнителя. Он поглощает скриншот, описание задачи и сразу же выводит конкретные действия — нажми здесь, введи это, прокрути туда — не проходя через лабиринт вспомогательных систем.

Большинство стеков «AI-агентов» сегодня напоминают машину Руба Голдберга. Большая модель рассуждений интерпретирует цель, другая анализирует дерево доступности, еще одна отвечает за визуальность, а еще одна проверяет каждый шаг. Fara-7B отказывается от этого, убирая уровень оркестрации, который часто становится настоящим узким местом, а не сама модель.

Не являясь собственным именем для парсинга DOM или дерева доступности в момент вывода, Fara-7B работает непосредственно с пикселями. Она видит тот же самый скриншот, что и человек, и затем предсказывает действия с пиксельными координатами, соответствующие видимым элементам. Это обходное решение исключает хрупкие зависимости от метаданных доступности для каждого сайта, которые ломаются на кастомных виджетах, интерфейсах с большим количеством холстов и плохо размеченных дашбордах предприятий.

Дизайн, основанный на скриншотах, также открывает более упорядоченную историю развертывания. Любое приложение, способное захватывать экран — настольное, расширение браузера, VDI-клиент — может передавать данные в Fara-7B без необходимости интеграции с внутренними системами каждого сайта. Для закрытых корпоративных сред, где доступные хуки непостоянны или отключены, это единственный жизнеспособный путь.

Стоимость - это тот момент, где происходит изменение архитектуры. Microsoft оценивает, что полная задача с Fara-7B обходится примерно в $0.025, против примерно $0.30 для агентов стиля GPT-4, которые полагаются на модели рассуждений уровня GPT-4.1 или o3. Этот разрыв в 12 раз обусловлен двумя факторами: модель 7B стоит дешево в эксплуатации, и Fara-7B использует примерно одну десятую выходных токенов по сравнению с этими тяжеловесными агентами.

На бенчмарке WebVoyager сообщается, что Fara-7B потребляет около 124,000 входных токенов и всего 1,100 выходных токенов на задачу. Мультиагентные стеки GPT-4 производят объемные цепочки рассуждений и саморефлексии, которые считаются оплачиваемыми токенами. Компактные, ориентированные на действие выходные данные Fara-7B напрямую приводят к снижению расходов и меньшей задержке.

Для обычных пользователей команды ИТ, эта простота важнее, чем еще несколько процентных пунктов в таблице лидеров. Одна модель проще отправлять на ноутбуки, управлять на устройствах на краю сети, проводить аудит на предмет конфиденциальности, чем громоздкая ферма агентов только в облаке. Более дешевый, быстрый и самодостаточный всегда превосходит умные, но неповоротливые решения.

Обучение ИИ без шпионажа за пользователями

Microsoft сделала нечто необычное с тренировочными данными Fara-7B: она попыталась полностью обойти человеческий надзор. Не используя такие методы, как сбор пользовательских кликов, сканирование истории браузера или запись экранов, компания создала Fara-7B, фабрику синтетических данных, предназначенную для насыщения модели реалистичными следами компьютерного использования без вмешательства в сессии реальных пользователей.

Fara-7B работает, отправляя ИИ-агентов в открытую сеть, а не в очищенные игрушечные среды. Эти агенты охватывают более 70,000 веб-доменов, от сайтов покупок до страниц документации, выполняя конкретные задачи от начала до конца: поиск, прокрутка, клик, ввод текста, навигация и отправка.

Сессии выглядят беспорядочно намеренно. Агенты ошибаются, открывают неправильные страницы, возвращаются назад, повторяют поиски, настраивают фильтры, уточняют запросы. Этот хаос важен, потому что Fara-7B должен научиться работать в той же хаотичной пользовательской среде, с которой сталкиваются обычные пользователи, а не в отобранной демонстрационной последовательности.

Сырые синтетические данные сами по себе могли бы стать ловушкой для галлюцинаций, поэтому Microsoft добавила строгий уровень проверки. Каждая сгенерированная сессия проходит через трех отдельных судей ИИ, каждый из которых оценивает различный аспект качества.

Судьи проверяют, чтобы: - Каждое логическое утверждение вытекало из предыдущего - Действия соответствовали тому, что явно представлено на странице - Окончательный ответ соответствовал первоначальной задаче

Любое, что не соответствует требованиям судей, исключается. После этой сортировки Microsoft сохранила 145,631 проверенных сессий, что в сумме составляет более 1 миллиона отдельных действий. Эта отфильтрованная подгруппа была использована для обучения политики поведения Fara-7B. Процесс подробно описан в Fara-7B: Эффективная агентная модель для использования компьютера - Исследования Microsoft.

Сравните это с обычными методами в отрасли. Многие агентные системы полагаются на: - Дорогие журналы взаимодействия человека с реальными продуктами - Инструментированные браузеры, которые фиксируют DOM, клики, скроллы - Полные записи экрана или сессий

Эти трубопроводы вызывают очевидные опасения по поводу конфиденциальности. Неправильное собственное имя, неуправляемая тяжелая инфраструктура для сбора, хранения и очистки пользовательских данных. Подход Fara-7B предлагает взамен ресурсоемкое моделирование с автоматизированным оцениванием, превращая время работы GPU в синтетические, но строго контролируемые данные для обучения.

Результат: Fara-7B учится, каково это — действительно просматривать веб — ошибки, тупики, восстановления — без необходимости Microsoft подглядывать за рабочим столом кого-либо.

Этот маленький агент бьёт выше своего веса.

Бенчмарки обычно не раскрывают модели. Fara-7B использует их как гибкий инструмент. На WebVoyager компактный агент Microsoft демонстрирует уровень успешности 73,5% при потреблении примерно 124,000 входных токенов и всего 1,100 выходных токенов на задачу. Этот профиль делает каждую полную сессию примерно за $0.025, в то время как стоимость агентов на основе моделей аргументации GPT-4.1 составляет около $0.30.

Online-Mind2Web, эталон, созданный для тестирования запутанных реальных веб-потоков, демонстрирует аналогичную закономерность. Fara-7B достигает 34.1%, что не выглядит впечатляюще, пока вы не осознаете, что он соперничает с моделями, имеющими в 10-20 раз больше параметров. Эти системы потребляют значительно больше контекста и токенов вывода, просто чтобы отслеживать состояние на различных этапах.

WebTailBench — это место, где Microsoft уточняет аргументы. Этот новый бенчмарк сосредоточен на недопредставленных, но болезненно распространенных задачах: - Подача заявлений на работу через множество порталов - Поиск недвижимости с фильтрами и картографическими представлениями - Сравнение продуктов и услуг по нескольким сайтам

На WebTailBench модель Fara-7B набрала 38,4%, уверенно обойдя предыдущий лучший агент 7B-класса. Эти задачи не сводятся к простому резюмированию текста, а требуют детализированных, пиксельных решений — нахождения нужной кнопки «Подать заявку», навигации по страницам, управления входами.

Эффективность - это другая сторона истории. Fara-7B использует примерно одну десятую от выходных токенов тяжелых агентских систем, при этом сопоставляя или превосходя их в нескольких задачах WebVoyager Not a proper noun WebTailBench. Меньшее количество моделей, более короткие траектории и отсутствие слоя оркестрации означают более низкую задержку и значительно более низкие затраты.

В совокупности эти цифры подрывают предположение о том, что лишь гиганты с бюджетом свыше 70 миллиардов могут осуществлять серьезную автоматизацию компьютерного использования. Fara-7B показывает, что специализированные агенты могут предоставлять современные решения для реальных веб-задач, оставаясь достаточно экономичными для локального, частного и масштабируемого использования.

Искусственный интеллект, который запоминает, что происходит дальше

Иллюстрация: ИИ, который помнит, что происходит дальше

Мировые модели на этой неделе перестали быть предметом исследований и стали реальностью с новым проектом MBZ UAI, неофициально названным Pan. Он тихо переопределяет, что значит «видеоискусственный интеллект». Вместо того чтобы генерировать лишь один красивый клип и забывать всё подряд, Pan выполняет постоянную симуляцию, которая сохраняется между запросами, кадрами и полными последовательностями. Подумайте о нём скорее как о маленькой, управляемой вселенной, чем как о камере.

Традиционные модели текст-в-видео ведут себя как золотофиски: вы вводите запрос, они генерируют 4–8 секунд видео, затем память сбрасывается. Никакое внутреннее состояние не сохраняется, поэтому последующий запрос, например "теперь поверни налево", просто создает новую сцену, которая лишь отдаленно соответствует словам. Они генерируют пиксели, а не последствия.

Пан попадает в совершенно другую категорию: модель мира. Модели мира поддерживают внутреннее представление объектов, агентов и окружающей среды, затем обновляют это представление по мере развития действий. Видео, которое вы видите, — это всего лишь визуализация этого скрытого состояния, а не основной продукт.

Попросите Пан создать автомобиль на городском улице. Скажите «поверните налево». Пан не просто перерисовывает автомобиль под новым углом. Он применяет изменение траектории внутри своей симуляции, а затем отображает обновленное состояние как следующий видеокадр.

Выдайте еще одно сообщение. Не используйте собственные имена, такие как "ускориться". Не используйте собственные имена, внутренний автомобиль ускоряется по той же дороге с постоянным освещением, компоновкой и кадрированием камеры. Вы можете связывать инструкции.

1«Поверните налево»
2"Ускорить"
3"Остановитесь на красный свет"
4«Дайте пешеходу пройти»

Пан рассматривает каждое из них как очередной момент в одной непрерывной временной линии, а не как четыре отдельных запроса.

Эта непрерывность как раз то, что нарушают большинство современных генераторов. Они оптимизируют для однократной согласованности — четкие кадры, кинематографичное движение, эффектный стиль — в то время как персонажи незаметно изменяются, предметы телепортируются, а компоновка комнат дрейфует между клипами. Мировая модель Pan меняет приоритеты: сначала сохранить состояние, затем наложить видео.

Под капотом Pan опирается на ядро рассуждений, построенное вокруг Qwen2.5-VL-7B, видеоплатформы, адаптированной из Hunyuan-Video (технология класса Qwen2.1-T2V-14B), чтобы поддерживать синхронность логики и визуальных данных. Сторона рассуждений отслеживает, что существует и как это движется; видео-секция просто визуализирует этот развивающийся регистр.

Последовательная коммутируeемость. Не такие собственные имена, как «перемести robotic arm к красному блоку», а затем «подними его», проверяют, действительно ли система запоминает. Пан проходит, потому что красный блок, его координаты, поза руки живут в этом постоянном внутреннем мире, готовые к тому, что бы вы ни попросили её сделать дальше.

Создавая мир, кадр за кадром

Пан работает как склеенный мозг. MBZ UAI подключил Quen 2.5 VL 7B в качестве ядра рассуждений, hNot a proper nounling инструкции, физику, Not a proper noun объектные отношения, затем hNot a proper nouns структурированное "состояние мира" к Juan 2.1 T2V 14B, декодеру текста в видео, настроенному на чёткие и связные кадры. Такое разделение позволяет логике и визуалам оставаться независимыми, так что решения по стилю никогда не путают, где находятся объекты или как они движутся.

Enjoying this? Get one like it in your inbox each morning.

one email a day · unsubscribe in two clicks · no third-party tracking

Не являясь собственным названием, внедрение видео в один хрупкий проход, Пан опирается на систему, которую команда cNot a proper nouns causal swind dpm. Представьте это как конвейер: каждый клип поступает в виде шумных латентных кадров, затем очищается до качественного видео, а затем фиксируется в истории, которую будущие куски должны уважать. Новые сегменты могут опираться только на прошлые кадры, никогда не заглядывая вперед, что предотвращает резкие телепортации и разрывы непрерывности, которые беспокоят долгие видео модели.

Causal swind dpm также добавляет элемент: контролируемый шум в условной рамке. Усложняя эталонное изображение, Пан перестает зацикливаться на идеальной детальности, такой как мерцание текстуры, и вместо этого сосредотачивается на структуре — позициях объектов, векторе движения и схемах взаимодействия. Эта ориентация на геометрию, а не на блеск объясняет, почему роботизированная рука, машина или персонаж могут сохраняться на протяжении десятков шагов, не превращаясь в бессмысленное размытие.

Ничто из этого не обошлось дешево. MBZ UAI обучила видеодекодер на кластере из 960 GPU NVIDIA H200, что является типичной конфигурацией, зарезервированной для передовых LLM, а не для академических демонстраций. Они использовали цель сопоставления потоков для диффузионного декодера, в сочетании с оптимизациями, такими как FlashAttention-3, и распределенным обучением данных, чтобы поддерживать движение градиентов в масштабах.

Quen 2.5 не просто научился повторять команды; он изучал причинно-следственные связи. Команда собрала наборы данных, в которых действия приводят к видимым результатам: двери открываются, когда ручки поворачиваются, жидкости проливаются, когда чашки наклоняются, дроны дрейфуют, когда меняется ветер. Этот уклон проявляется, когда Pan продолжает симулировать после команд, таких как «поверните налево», «ускорьтесь» или «положите синий блок на красный», вместо того чтобы каждый раз сбрасывать сцену.

Эта философия обучения отражает то, что Microsoft сделала с Fara-7B в вебе, основывая агенты на долгосрочных траекториях, а не на единичных снимках. Каждый, кто хочет увидеть, как этот подход проявляется в компактной модели использования компьютера, может ознакомиться с моделью Fara-7B на Hugging Face. Пан просто применяет ту же одержимость непрерывностью к пикселям, а не к физике или вкладкам браузера.

Гиганты пробуждаются с новыми трюками

Гиганты отрасли тихо заменяют универсальные чат-боты на высокоспециализированные инструменты, которые выполняют конкретные задачи. Вместо одной модели, пытающейся ответить на все запросы, компании создают ИИ, ориентированный на конкретные цели: агенты, которые взаимодействуют с веб-приложениями, модели, которые моделируют миры с течением времени, помощники, настроенные для покупок, учебы или серфинга. Fara-7B и Pan не являются исключениями; они являются ранними признаками сдвига к задачно-ориентированному ИИ.

Действия Google могут показаться тонкими на первый взгляд: Интерактивные изображения в Gemini. Однако за этим стоит стратегический ход, чтобы контролировать, как студенты, увлеченные люди и профессионалы учатся на визуальных материалах. Нажмите на диаграмму по физике, и Gemini выделит силы, подпишет компоненты и проведет вас через пошаговое рассуждение, а не просто выдаст статичное объяснение.

Образование делает это особенно мощным. Студент биологии может обращаться к анатомическим схемам и получать многослойные объяснения, подсказки в стиле вопросов и ответов, а также дополнительные вопросы, связанные с конкретными регионами изображения. Учителя могут перетаскивать диаграмму в Gemini и мгновенно создавать интерактивные уроки, задачи и вариации, привязанные к одному и тому же визуальному элементу.

Эта межактивность напрямую способствует закреплению экосистемы Google. Интерактивные изображения работают лучше всего, когда вы находитесь в орбите Gemini, Google Документов, не как собственное имя Класса. Каждый аннотированный диаграмма, общий лист работы, не как собственное имя сохраненная сессия становится еще одной причиной, по которой школы, не как собственное имя создатели, держат свой контент — не как собственное имя своих пользователей — внутри обучающего стека Google.

Perplexity движется в другом, более целенаправленном направлении: коммерция. Его новый разговорный Помощник по покупкам превращает поиск товаров в непрерывный диалог, который запоминает ваши предпочтения со временем. Вместо того чтобы каждый раз заново запрашивать информацию для каждой покупки, вы создаёте постоянный профиль с брендами, размерами, бюджетами и принципиальными моментами, которые помощник тихо учитывает.

Упорство имеет значение, когда вы переходите от запроса «найди мне ноутбук» к запросу «мне нужен тихий 14-дюймовый ноутбук за менее чем 1200 долларов, который работает холодно и имеет отличную поддержку Linux». Система Perplexity согласует компромиссы, обращаясь к нескольким розничным продавцам и сохраняя контекст на протяжении дней или недель, пока вы уточняете, что именно хотите. Она ведет себя не как поисковая система, а скорее как персональный покупатель, встроенный в ваш браузер.

Не собственное имя этого оказывает прямое давление на более обобщенный подход OpenAI. В то время как OpenAI говорит об агентах Не собственное имя GPT в широких чертах, конкуренты поставляют узкоспециальные инструменты, которые вписываются в повседневные рабочие процессы: учебу, покупки, серфинг, создание. Искусственный интеллект переходит от «коробки с ответами» к инфраструктуре, Не собственное имя компании, которые одержат победу, будут теми, чьи модели будут восприниматься не как чат-боты Не собственное имя, а скорее как интегрированные функции приложений, которые вы уже используете.

Вашим следующим ИИ помощником могут стать ваши очки.

Иллюстрация: Вашим следующим AI-помощником могут стать ваши очки.

Alibaba ставит на то, что ваш следующий AI-ассистент будет находиться у вас на лице, а не в кармане. Его новая линейка умных очков Cork S1 Not a proper noun G1, запущенная по всему Китаю, выглядит меньше как научно-фантастические прототипы Not a proper noun и более как аппаратное обеспечение, готовое к продаже рядом соスマートфонами Not a proper noun и наушниками.

Обе модели сильно зависят от восприятия в реальном времени. Когда вы направляете взгляд на меню, рекламный щит или карту метро, очки мгновенно накладывают перевод, преобразуя английский в китайский или наоборот за считанные секунды. Визуальный Q&A позволяет вам смотреть на этикетку продукта, витрину или документ и задавать вопросы на естественном языке, ответы на которые появляются в вашем поле зрения или передаются через костную проводимость звука.

Глубокая интеграция с экосистемой Alibaba превращает их в физический интерфейс для вашей цифровой жизни. Связи с Taobao позволяют вам взглянуть на товар в магазине и узнать онлайн-цены, отзывы и рекомендации. Взаимодействие с Alipay обещает безналичные платежи, в то время как навигация использует Amap, чтобы привязать маршруты к реальным улицам и магазинам на плоском экране телефона.

Цены четко показывают, насколько агрессивной хочет быть компания Alibaba. Китайские носимые устройства уже поставляются в огромных объемах — десятки миллионов смарт-часов ежегодно. Alibaba позиционирует Cork S1 и G1 ближе к премиум-наушникам, чем к флагманским телефонам. Субсидированные наборы с мобильными операторами и кредитами на покупки на Taobao подрывают позиции западных смарт-очков, которые часто стоят выше $500 и редко покидают круги ранних adopters.

Рынок носимых устройств в Китае дает Alibaba дополнительный импульс. Потребители уже рассматривают умные часы и беспроводные наушники как сменные обновления, меняя их каждые 18-24 месяца. Позиционирование AI-очков как следующего шага в эволюции, а не как роскошного гаджета, позволяет Alibaba использовать существующие привычки обновления, а не изобретать новые.

Что Alibaba тестирует, так это то, должна ли помощник существовать как постоянный, осведомленный о контексте слой реальности. Не просто вытаскивание телефона или открытие приложения, а наблюдение за тем, что вы видите, слушание того, что вы говорите, и реакция в данный момент. Если эта модель будет работать, ИИ перестанет быть просто чатом и станет постоянным, окружением, интегрированным в повседневную жизнь.

Почему OpenAI следует беспокоиться

OpenAI внезапно выглядит менее как неотразимая платформа. Не как собственное имя, а скорее как очень большой, очень дорогой выбор. Модель Microsoft Fara-7B показывает, что агент с 7 миллиардами параметров, работающий локально, может сопоставляться или превосходить облачных гигантов на WebVoyager, Online-Mind2Web, WebTailBench, в то время как стоимость выполнения составляет примерно 2,5 цента за задачу вместо 30 центов. Это подрывает экономическую основу, лежащую в основе агентов стиля GPT-4o, которые передают каждый скриншот в дата-центр.

Больше не автоматически. Не собственное имя означает лучше, когда одна модель на устройстве может видеть пиксели, размышлять и действовать без помощи вспомогательных систем. Синтетическая тренировка Fara-7B, состоящая из более чем 1 миллиона действий в 145,000+ проверенных сессиях, доказывает, что можно получить качественное поведение без накопления пользовательской телеметрии. Если предприятия могут получать быструю, приватную и недорогую автоматизацию на своем оборудовании, стандартное предложение "отправить все в облако OpenAI" слабеет.

MBZ UAI’s Pan подходит к OpenAI с другой стороны: амбиции. Pan соединяет Quen 2.5 и Juan 2.1 в модель мира, которая запоминает, что происходило от одного видеокуска к другому, используя причинные SwiNN-DPM расклады на 960 GPU Nvidia H200 для поддержания согласованности сцен со временем. Это именно тот тип долгосрочного, осознающего последствия поведения, который OpenAI демонстрирует на показах, но не выпускает в виде открытой инфраструктуры.

Открытые исследовательские лаборатории теперь демонстрируют, что могут собирать передовые возможности из модульных компонентов и публикуют рецепты. С Пан, план для интерактивных, персистентных видеосред, выходит за рамки любого отдельного поставщика. Когда кто угодно может разветвлять, дорабатывать и внедрять эту возможность, закрытое преимущество OpenAI выглядит скорее как временное преимущество, чем как структурный укреплённый рубеж.

Тем временем Google, Perplexity и Alibaba незаметно превращают специализированные модели в привлекательные продукты. Интерактивные изображения Gemini находятся внутри поисковых интерфейсов Google, торговый агент Perplexity работает на поисковой платформе, которая запоминает привычки пользователей, а Cork S1 и G1 от Alibaba поставляются как полноценные аппаратные экосистемы. Это не универсальные чат-боты; это тесно интегрированные утилиты.

Аппаратное обеспечение Не собственное название интеграция экосистемы создает рвы, которые доступ к API не может легко пересечь. OpenAI имеет ChatGPT, настольное приложение, Не собственное название API, но нет массово доступных очков, нет ОС для телефонов, нет поисковой системы, нет супераппа для ритейла. По мере распространения моделей, таких как Fara-7B, через открытые веса Не собственное название отчеты, такие как Технический отчет Fara-7B - Исследования Microsoft, центр притяжения смещается к тому, кто владеет устройством, рабочим процессом, Не собственное название данными — не только моделью.

Ваш ИИ наконец возвращается домой

Неделя объявлений Microsoft незаметно переопределяет направление потребительского ИИ. Fara-7B, Pan, интерактивные изображения Gemini, шопинг-ассистент Perplexity, Cork S1 от Alibaba — G1 не гонятся за большими рейтингами; они стремятся к повседневному использованию. Вместе они сигнализируют о переходе от абстрактных демонстраций к практическим, персональным, Не собственное имя частным системам.

Fara-7B работает как полноценный агент для использования компьютера с 7 миллиардами параметров на локальном устройстве, примерно за $0,025 за задачу WebVoyager по сравнению с ~$0,30 за стеки в стиле GPT-4.1. Этот односторонний дизайн сокращает задержку, снижает пропускную способность до нуля для скриншотов, и сохраняет ваши данные о просмотре на удаленных серверах. Синтетическое обучение через 145,631 проверенных сеансов Fara-7B и 1+ миллион действий показывает, что можно достичь точности без регистрации пользователей.

Pan движется в другом направлении: постоянные мировые модели, которые запоминают, что произошло от кадра к кадру. Его стек Quen 2.5 VL-7B + Juan 2.1 T2V-14B, обученный на 960 графических процессорах Nvidia H200, рассматривает видео как живую симуляцию, а не как набор одноразовых клипов. Эта архитектура открывает двери для робототехники, дополненной реальности, и игр, где непрерывность имеет большее значение, чем киношная отделка.

Солнечные очки Alibaba Cork S1 вытащат помощников из окон чата на ваше лицо. В паре с моделями, работающими на базе Parti или полностью на устройстве, они обещают перевод на лету, навигацию и поиск без необходимости передавать каждый кадр через американский центр обработки данных. В сочетании с нажимаемыми диаграммами Gemini и привычными алгоритмами покупок от Perplexity, искусственный интеллект начинает ощущаться как нечто окружающее, а не исключительно транзакционное.

Не имея собственных имен, это подрывает предположение о том, что полезный ИИ должен существовать в гипермасштабных облаках. Локальные или гибридные агенты означают: - Более низкую задержку - Более высокую степень конфиденциальности - Более низкие операционные затраты - Более широкий доступ к аппаратному обеспечению

Итак, через год, какое прорывное изменение кардинально изменит вашу жизнь больше: локальные агенты в стиле Fara-7B, мироподобные модели в духе Пана или ИИ, встроенный в очки, которые никогда не покидают ваше лицо?

Часто задаваемые вопросы

Что отличает Fara-7B от других ИИ-агентов Microsoft?

Fara-7B — это единая модель с 7 миллиардами параметров, разработанная для локального запуска на устройстве. Она обрабатывает скриншоты напрямую, без необходимости в облачной инфраструктуре или дополнительных вспомогательных моделях, что делает её быстрее, дешевле и более приватной.

Что такое «модель мира», как, например, Pan от MBZ UAI?

Модель мира симулирует непрерывную среду во времени, запоминая прошлые события и предсказывая последствия действий. В отличие от стандартных генераторов видео, она сохраняет согласованность и причинно-следственные связи для симуляции и планирования.

Как Fara-7B был обучен без пользовательских данных?

Microsoft использовал движок синтетических данных под названием FaraJen, который развернул ИИ-агентов на 70 000 веб-сайтах для генерации реалистичных пользовательских сессий. Эти данные были затем проверены тремя ИИ-судьями, создав высококачественный обучающий набор с сохранением конфиденциальности.

Эти новые модели являются открытым исходным кодом?

Да, Microsoft выпустила Fara-7B как модель с открытыми весами. Пан из MBZ UAI также является ведущей моделью с открытым исходным кодом, которая конкурирует с несколькими коммерческими системами.

Found this useful? Share it.

AI Reputation Report

What AI knows about you.

ChatGPT, Perplexity, Gemini, Claude & Grok are already answering questions in your category. Type your site, see who they name — you, or your competitor. Free preview.

Check my sitefree preview

One short daily email of tools worth shipping. No drip funnel.