Microsoft Fara-7B: Местный ИИ-агент, бросающий вызов облачному доминированию

Гонка вооружений в сфере ИИ стала личной

Прошедшие несколько дней в области ИИ выглядели не как цикл продуктов, а больше как детонация. Microsoft тихо выпустила компактную модель использования компьютера под названием Fara-7B, агент с 7 миллиардами параметров, который читает скриншоты, управляет вашей мышью и печатает за вас без опоры на огромный облачный стек. AI MBU ответила Pan, "моделью мира", которая запоминает, что произошло от одного видеосегмента к другому, эффективно симулируя маленькую, постоянно существующую вселенную.

Google внедрил интерактивные изображения в Gemini, превращая статичные диаграммы и изображения в объекты, которые можно щелкать, увеличивать и задавать им вопросы в реальном времени. Perplexity добавил помощника по покупкам, который отслеживает ваши привычки и сохраняет рекомендации в едином, непрерывном разговоре, вместо того чтобы отправлять вас на синие ссылки. Тем временем Alibaba начала распространять управляемые ИИ очки по всему Китаю, которые выглядят готовыми к массовому использованию с первого дня, а не просто как лабораторный демонстрационный образец.

В совокупности эти запуски сигнализируют не просто о волне обновлений функций. Они указывают на сдвиг от монолитных, универсальных моделей к специализированным системам, которые являются эффективными, тесно интегрированными и глубоко вписаны в конкретные контексты: ваш рабочий стол, ваш браузер, ваша камера, ваша корзина для покупок. Отрасль тихо меняет «одну модель, чтобы править всеми» на сеть целевых агентов.

Fara-7B от Microsoft ярко иллюстрирует этот переход. Вместо пяти облачных моделей, склеенных вместе хрупкими инструментами, он работает как единая модель, которая смотрит на скриншот и решает, на что нажать, что ввести или прокрутить. Обучение проводилось на основе Faraj Gen, синтетического движка, который обработал ИИ более чем в 70 000 доменах, сократив их до 145 603 проверенных сессий и более 1 миллиона действий, все из которых основывались на пиксельных координатах.

Этот дизайн устанавливает центральный конфликт следующей эры ИИ. С одной стороны: массивные, облачные интеллекты, такие как системы масштаба GPT, которые превосходят в глубоком разумении, но требуют больших затрат на ресурсы и пропускную способность. С другой стороны: легкие агентные системы, такие как Fara-7B, стоимость выполнения полного задания которых составляет около 0.025 доллара по сравнению с примерно 0.30 доллара для тяжеловесных Steelagenten, которые работают быстрее и сохраняют данные локально.

Гонки вооружений в области искусственного интеллекта переместились от дата-центров к вашему ноутбуку, телефону и очкам. Теперь вопрос не в том, у кого самая большая модель, а в том, кто сможет обеспечить наиболее умную модель ближе всех к вам, не перегревая ваше оборудование и не нарушая вашу конфиденциальность.

Познакомьтесь с Fara-7B: Маленьким Титаном от Microsoft

Иллюстрация: Познакомьтесь с Fara-7B: крошечным титаном от Microsoft

Новая Fara-7B от Microsoft не просто наблюдает за вашим экраном; она живет в нем. Эта компактная модель использования компьютера обрабатывает необработанный скриншот, решает, что нужно сделать следующим шагом, а затем управляет мышью, печатает, нажимает и перемещается по приложениям или веб-сайтам как опытный пользователь, который не моргает.

Вместо того чтобы рассматривать управление интерфейсом как дополнительную функцию для болтливого чат-бота, Microsoft разработала Fara-7B с самого начала как нативного оператора для экрана. Она понимает макеты, кнопки, полосы прокрутки, всплывающие окна и неаккуратные веб-формы непосредственно из пикселей, а затем выполняет многошаговые задачи от начала до конца.

Удивляет размер. Fara-7B объединяет это поведение в 7-миллиардной модели, которая может работать на стандартном ноутбуке, не издавая звук реактивного двигателя. Ни GPU-кластера, ни дата-центра, ни потоковой передачи каждого кадра на удалённый сервер, просто чтобы выяснить, где находится кнопка «Отправить».

Предыдущие "агентные" системы выглядели впечатляюще на бумаге, но существовали и исчезали в облаке. Они объединяли в себе: - Огромную языковую модель для планирования - Отдельные модели компьютерного зрения для разбора экранов - Скраперы доступности и краулеры DOM - Цепочки вспомогательных агентов и оркестрационные фреймворки

Каждый клик или прокрутка проходили через эту конструкцию в стиле Руба Голдберга, добавляя задержки, затраты и возможные сбои. Многие из них требовали массивных серверов класса GPT, множества подсистем и кастомных фреймворков просто для того, чтобы пережить один поток входа в систему.

Fara-7B разбивает эту сложность. Он работает как единственная модель: один проход вперед по снимку экрана, одно решение о том, что делать дальше. Никакого изучения дерева доступности во время вывода, никакой эстафеты из пяти моделей за кулисами, никакой хрупкой конструкции, которая ломается, когда веб-сайт немного изменяет свой макет.

Эта простота везде ощущается. Более компактный стек означает более дешевую инференцию, меньшую задержку и гораздо более простое развертывание на потребительском оборудовании или в корпоративных парках. Microsoft оценивает стоимость полного выполнения задач в несколько центов, а не в ~30 центов, как в случае с тяжелыми настройками, использующими модели GPT-5 или O3 для рассуждений.

Что более важно, Fara-7B выносит компьютерный ИИ за пределы гипермасштабного пузыря. Локальная работа позволяет избежать хранения снимков экрана на удаленных серверах, снижает требования к пропускной способности и превращает «ИИ, который использует ваш ПК для вас» из облачной роскоши в нечто, что становится доступным для повседневных ноутбуков.

Секретный ингредиент: Как Fara-Gen победил большие данные

Microsoft не просто уменьшила модель агентности; она переосмыслила способ её питания. Вместо того чтобы собирать пользовательские логи или нанимать армии фрилансеров для кликов по приложениям, компания разработала Fara-Gen, двигатель синтетических данных, который производит цифровое поведение в промышленном масштабе.

Fara-Gen отправляет AI-агентов по открытому вебу, назначая им задачи на более чем 70 000 различных доменах. Эти агенты не просто загружают страницу и выходят; они создают полные, многоступенчатые сессии, которые удивительно похожи на то, как на самом деле просматривают страницы люди.

Сессии включают все запутанные детали, которые создают реальные пользователи. Агенты нажимают не ту кнопку, возвращаются назад, лихорадочно прокручивают, уточняют запросы и переписывают контент, создавая траектории, которые фиксируют сомнения, исправления ошибок и исследование вместо безупречных демонстраций в лабораторных условиях.

Контроль качества становится сложной задачей, поэтому Microsoft полагается на панель из трех независимых судей ИИ для каждой синтетической сессии. Каждый судья проверяет, логично ли последовательность действий следует из того, что видно на экране, и соответствует ли окончательный ответ фактическим данным страницы.

Только сессии, прошедшие все три фильтра, остаются. После этого испытания Microsoft сохранила 145,603 подтвержденных траекторий, представляющих более 1 миллиона индивидуальных действий, которые связывают каждое нажатие и ввод с конкретными пикселями и текстом на экране.

Эти траектории напрямую интегрируются в процесс обучения Fara-7B, превращая модель в специалиста по хаотичным, реальным интерфейсам, а не по курируемым эталонам. Вместо того чтобы изучать «шаблоны кликов», Fara-7B учится сохранять фокус на задаче в ходе длинных, ветвящихся взаимодействий на непредсказуемых сайтах.

Синтетическое поколение на таком уровне имеет значение, потому что сбор данных от людей – нет. Платить людям за запись подробных сессий на компьютере медленно, дорого и почти невозможно без сбора конфиденциальной информации, от личных сообщений до банковских вкладок.

Fara-Gen избегает кошмара конфиденциальности, создавая поведение на открытых веб-сайтах, одновременно отражая реальные модели использования. В результате получается набор данных, который шире, чем телеметрия любой отдельной компании, и гораздо менее навязчив, чем ведение журнала нажатий клавиш реальных клиентов.

Этот конвейер также масштабируется в зависимости от аппаратного обеспечения, а не от числа сотрудников. Microsoft может развертывать больше агентов, нацеливать их на новые домены и постоянно обновлять обучающий корпус, процесс, подробно описанный в Fara-7B: Эффективная агентная модель для использования компьютера - Исследования Microsoft.

Экономический шок: снижение затрат на ИИ на 90%

Экономика облачных вычислений столкнулась с преградой. Fara-7B от Microsoft выполняет полные компьютерные задачи за примерно $0.025 за задачу, в то время как сравнимые агенты, построенные на моделях класса GPT-4, все еще находятся примерно на уровне $0.30. Этот ~90% дискаунт не связан с более дешевыми графическими процессорами; он обусловлен моделью, которой требуется значительно меньше токенов для выполнения работы.

На бенчмарке Web Voyager Microsoft сообщает о примерно 124 000 входных токенов и всего 1 100 выходных токенов на каждую задачу от начала до конца. Конкурирующие «стальные агенты», подключенные к массивным моделям GPT-4, GPT-4.1 или O3-стиля рассуждений, регулярно генерируют в 10 раз больше выходных токенов, рассказывая о каждом клике, прокрутке и мысли. Fara-7B остается лаконичным, действует вместо чрезмерного объяснения и напрямую переводит экономию в более низкие счета.

Эти показатели подтверждают эффективность. Fara-7B набирает 73,5% на Web Voyager, 34,1% на Online Mind2Web, 26,2% на Deepshop и 38,4% на новом Reptail Bench. Эти числа находятся неприятно близко к показателям или даже превосходят гораздо более крупные системы, эксплуатационные расходы на которые на порядок выше.

Reptail Bench важен, потому что он проверяет крайние случаи, которые часто опускаются в большинстве демонстраций. Он сосредоточен на задачах, таких как подача заявлений на работу, поиск жилья и сравнение объектов на разных сайтах — именно в этих рабочих процессах существующие агенты часто застревают в модальных диалогах, куки-баннерах или пагинации. Fara-7B, обученный на основанных пиксельных координатах и проверенных траекториях, проходит мимо этих ловушек, не опираясь на громоздкие облачные конструкции.

Кривые затрат меняются кардинально, когда полная автоматизация сводится к ценовому диапазону в низкие цент. Команда поддержки может позволить агенту заполнять формы, классифицировать заявки и управлять внутренними панелями сотни раз в день, не вызывая тревогу у финансового директора. В масштабе это способствует превращению ИИ из "премиального дополнения" в основополагающуюoperational инфраструктуру.

Для потребителей изменения выглядят еще более радикально. Модель использования компьютера, которая работает локально на ноутбуке или мини-ПК, может выполнять задачи в браузере, заполнять государственные формы или сравнивать цены без передачи каждого пикселя в дата-центр. Пользователи получают более низкую задержку, больше конфиденциальности и отсутствие неожиданных переплат за облачные услуги.

Компании, которые строили свои дорожные карты по внедрению ИИ вокруг арендуемых облачных агентов, теперь сталкиваются с прямым вопросом: зачем арендовать то, что можно запустить самостоятельно? Поскольку модели, такие как Fara-7B, сжимают возможности в 7 миллиардов параметров и используют токены экономно, центры тяжести смещаются от гипермасштабных облаков обратно к устройствам, локальным серверам и недорогим крайним устройствам.

За пределами кликов: Искусственный интеллект Pan помнит мир

Иллюстрация: За пределами кликов: ИИ Пан помнит мир

Pan от MBU AI не просто генерирует видео; он управляет миром модели. Вместо того чтобы рассматривать каждый запрос как новую историю, Pan поддерживает постоянное внутреннее состояние, миниатюрную симуляцию, которая сохраняется от одной команды к другой. Это делает его ближе к игровому движку с интеллектом, чем к традиционному текстовому инструменту для создания видео.

Большинство современных систем, от демонстраций в стиле Sora до генераторов уровня TikTok, функционируют как амнезиаки. Вы вводите подсказку, они создают 10–20 секунд великолепного видео, а затем стирают все воспоминания. Никакой памяти, никакой непрерывности, никакого ощущения, что действия в первом кадре должны ограничивать то, что происходит в 300-м.

Пан меняет подход, поддерживая непрерывное внутреннее представление своей среды. Если выдается команда "повернуть налево", Пан не просто создает новый кадр, который случайно смотрит в другую сторону. Он обновляет свои внутренние координаты, поворачивает смоделированную камеру или агента, а затем отображает новый вид из этого обновленного состояния мира.

Это постоянное состояние позволяет Pan связывать команды, как в управляющем цикле, а не в слайд-шоу. Скажите ему: «двигайся вперед на 5 метров, затем поверни налево, затем остановись у синего автомобиля», и каждый шаг зависит от предыдущего. Объекты сохраняют свои позиции, освещение остается стабильным, а синий автомобиль остается тем же самым автомобилем, а не новым реквизитом, появляющимся каждые несколько секунд.

Исследователи называют это Weltmodell, потому что Pan предсказывает последствия, а не просто пиксели. Переместите блок, и следующие кадры будут учитывать это новое местоположение; уроните стопку, и обломки не соберутся обратно магическим образом в следующем кадре. Причинно-следственная связь становится частью внутреннего учета модели, а не мыслью на потом.

Под капотом Pan разделяет мышление и рисование. Ядро рассуждений, основанное на модели языка и визуализации масштаба 7B, аналогичной Qwen2.5-VL-7B, отслеживает объекты, позиции и цели в чистом латентном пространстве. Отдельный генератор видео, адаптированный от системы T2V с 14B параметрами, такой как Wan2.1-T2V-14B, превращает это эволюционное состояние в реальные кадры.

Долгие последовательности обычно портят видео модели: цвета смещаются, персонажи трансформируются, сцены слегка искажаются. Pan борется с этим с помощью Causal Swin DPM пайплайна, который уточняет видео кусочек за кусочком, сохраняя единое общее состояние мира. Каждый новый сегмент наследует точную конфигурацию предыдущего, так что непрерывность становится особенностью, а не случайностью.

Моделирование реальности: почему мировые модели — это будущее

Симулированные миры звучат абстрактно, пока вы не увидите, как Пан тихо решает одну из самых сложных задач видеоигрового ИИ: время. Построенный как модель мира, Пан не просто создает красивые клипы; он поддерживает внутреннее состояние, которое сохраняется между командами, так что «поверни налево», «ускорься» и «возьми красный блок» все обновляют одну и ту же текущую вселенную, а не перезапускают новую сцену каждый раз.

MBU AI утверждает эту непрерывность в системе, называемой Causal Swin DPM. Вместо заглядывания в будущее, Pan условно ориентируется только на прошедшие кадры, что обеспечивает строгое причинно-следственное направление, при котором каждый новый сегмент вытекает из того, что действительно произошло ранее, а не из неопределенного предположения модели о том, что "должно" быть следующим.

Causal Swin DPM также меняет процесс генерации. Pan создает длинные видео по частям, обрабатывая один сегмент в окончательный результат, в то время как следующий сегмент все еще находится в более гибком, латентном пространстве, что сокращает дрейф, искажение персонажей и сбои фона, которые преследуют только диффузионные пайплайны.

Под капотом Pan использует мощные технологии: 960 графических процессоров NVIDIA H200, что говорит о серьезном масштабе и высокой пропускной способности обучения. Этот бюджет на оборудование позволяет MBU AI обучаться на долгосрочных горизонтах, а не только на 4-секундных новинках, продвигаясь к последовательностям, где причинно-следственные связи охватывают десятки или сотни шагов.

Нравится статья? Получайте такие каждое утро на почту.

одно письмо в день · отписка в два клика · без сторонних трекеров

Набор данных соответствует этой амбиции. Вместо того чтобы собирать случайные интернет-видео, MBU AI куратирует клипы, насыщенные действием, движением и взаимодействием объектов, акцентируя внимание на причинности — толкни коробку, она скользит; заденешь стол, предметы падают; поверни колесо, машина действительно поворачивает. Pan учится не только тому, как выглядит сцена, но и как силы распространяются в ней.

Эталонные показатели уже демонстрируют отдачу. В внутренних оценках долгосрочных запусков действий Pan сохраняет объектную идентичность и пространственную компоновку гораздо дольше, чем большинство генераторов видео с открытым исходным кодом, где цвета изменяются, конечности расплываются, а реквизит телепортируется спустя несколько секунд.

Исследователи сообщают, что долгосрочная стабильность Pan сопоставима или превосходит некоторые коммерческие закрытые системы, которые полагаются на гораздо более крупные собственные наборы данных. В то время как типичные модели деградируют после 16–32 кадров, Pan сохраняет согласованность траекторий на гораздо большем числе шагов, что делает его полезным для робототехники, авто模拟ирования и симуляции взаимодействия пользовательского интерфейса.

В качестве инструмента планирования Pan становится визуальной песочницей, которой другие агенты никогда не имели. Языковая модель может предложить последовательность действий — «переместить роботизированную руку, повернуть на 30 градусов, закрыть захват» — а Pan может смоделировать результат до того, как какое-либо реальное оборудование начнет движение.

Это превращает Pan в универсальный движок симуляции для более обширных стеков агентов. Вы можете представить себе будущий рабочий процесс, где локальная модель использования компьютера, такая как Fara-7B от Microsoft, обрабатывает реальные клики, пока подключенная мировая модель, такая как Pan, предваряет рискованные действия, отражая то, как разработчики уже тестируют код на этапе подготовки перед выпуском.

Каждый, кто создает такие стеки, уже может экспериментировать с легкими компонентами; собственная модель Microsoft Fara-7B на Hugging Face демонстрирует, как компактные агенты могут сочетаться с более мощными планировщиками. В этой экосистеме модели мира становятся «физическим слоем» для ИИ, позволяя системам задавать вопрос «что произойдет, если я сделаю это?» и получать ответ высокой точности, прежде чем реальность заплатит цену.

Тихая революция в вашем кармане

Современный ИИ больше не является просто исследовательской демонстрацией или облачным API; он незаметно внедряется в повседневные приложения. Вместо громких обещаний "АГИ" компании теперь запускают небольшие, целевые системы, которые изменяют ваш способ обучения, покупок и поиска, даже если вы не называете модель, стоящую за ними.

Интерактивные изображения Google в Gemini показывают, насколько глубока эта трансформация. Статичные изображения и диаграммы внутри документов или веб-страниц теперь наполняются интерактивными точками, слоями аннотаций и пошаговыми анимациями, которые реагируют на ваши вопросы. Например, нажмите на схему электрической цепи, и Gemini сможет выделить поток тока, увеличить отдельный компонент и объяснить математические аспекты на понятном языке, всё в одном представлении.

Это превращает каждый насыщенный график, рабочий процесс или анатомическую схему в миниатюрный центр обучения. Вместо того чтобы переключаться между вкладками и PDF-документами, вы задаете вопросы к единому изображению: "Какова функция этой части?", "Покажите мне режим отказа", "Сравните это с солнечным инвертором." Система объединяет текст, визуализацию и предыдущий контекст в пошаговую интуитивную инструкцию, которая ощущается ближе к наставнику, чем к результату поиска.

Perplexity выводит ту же идею в ваш кошелек с помощью своего нового Искусственного Интеллекта для Покупок. Ассистент учитывает вашу историю бесед на протяжении сессий, поэтому фраза «мне нужна новая сумка для ноутбука» автоматически учитывает, что вы ранее запрашивали информацию о велопутешествиях, 14-дюймовом устройстве и ограниченном бюджете. Вы уточняете своим обычным языком—«без логотипов», «водонепроницаемая», «влезает под сиденье самолета»—и он обновляет рекомендации в реальном времени.

Под капотом Perplexity объединяет извлечение информации, ранжирование и моделирование долгосрочных предпочтений, а не просто выдаёт партнерские ссылки. Это делает ассистента менее похожим на рекламный блок и больше на осведомлённого друга, который помнит, что вам не понравилось в вашей последней покупке.

Эти улучшения «качества жизни» запирают пользователей гораздо эффективнее любых контрактов на привязку. Как только ваш учебный процесс оказывается в изображениях Gemini, а ваш шопинг-ум — в истории Perplexity, переход между экосистемами означает, что вам нужно начинать вашу цифровую память с нуля.

Мастер-план Microsoft: локальные умы, мощь облака

Иллюстрация: Мастер-план Microsoft: локальные мозги, облачная мощь

Игра Microsoft в области ИИ внезапно выглядит не как просто набор демонстраций, а скорее как согласованная двухуровневая структура. С одной стороны находится Fara-7B, вычислительная модель с 7 миллиардами параметров, которая работает на вашем устройстве. С другой стороны располагаются мощные инструменты нового поколения от OpenAI, интегрированные в Copilot и доступные через Copilot Studio.

Fara-7B выполняет рутинную работу. Он читает скриншоты, перемещает курсор, печатает и отправляет формы, всё локально, без передачи вашего рабочего стола в центр обработки данных. Такая локальная архитектура снижает задержки, сохраняет данные на вашем устройстве и снижает затраты на выполнение задач до примерно 2.5 цента по сравнению с ~30 центами для облачных агентов типа GPT-4 или O3.

Microsoft хочет, чтобы Fara-7B стал стандартным слоем автоматизации для рутинной умственной работы. Речь идет о распределении входящих сообщений, отчетах по расходам, рабочих процессах в браузере и панелях управления SaaS, всё это организовано моделью, достаточно легкой, чтобы не перегревать ноутбук. Конфиденциальность становится не просто примечанием, а функцией, потому что снимок экрана никогда не покидает ваш GPU.

Сложные, рискованные размышления все еще остаются на верхних уровнях. Copilot Studio уже перенаправляет более сложные задачи — многоэтапное планирование, принятие решений на основе политики, аналитика на уровне компании — к массивным моделям, таким как GPT‑5 и будущие системы рассуждений. Эти модели не просто нажимают кнопки; они разрабатывают процессы, составляют стратегии и создают руководства, которые потом выполняет Fara-7B.

Этот раздел превращает историю AI Microsoft в конвейер, а не в монолит. Высокоуровневые агенты в Copilot Studio могут решать: «Очистить все просроченные счета по этим пяти SaaS инструментам», в то время как Fara-7B становится слоем роботизированной автоматизации процессов, который фактически управляет действиями. Один мозг планирует; другой мозг управляет мышью.

Под всем этим Microsoft тихо создает корпоративную нервную систему с помощью Work IQ, Fabric IQ и Foundry IQ. Это не просто названия брендов; это связующее звено. Они делают данные компании, метрики и рабочие процессы доступными в форме, читаемой машинами, чтобы агенты могли действовать без ненадежных одноразовых интеграций.

Work IQ нацеливается на повседневную продуктивность, такие как Outlook, Teams и документы Office. Fabric IQ использует аналитику, дата-озера и панели бизнес-аналитики. Foundry IQ ориентирован на разработчиков приложений, позволяя им создавать специализированных агентов, которые знают схемы, API и ограничения компании с первого дня.

Собрав все вместе, план Microsoft однозначен: местные умы для каждого экрана, облачные вычисления для каждого сложного решения и уникальная платформа, объединяющая это в нечто, что предприятия действительно могут внедрить.

Глобальное поле битвы: от ПО до умных очков

Облачные войны тихо проникают в уличный аппаратный уровень. Пока Microsoft вводит Fara-7B на локальных ПК, китайские гиганты стремятся напрямую интегрировать ИИ в ваши лица, запястья и панели приборов, превращая "использование компьютера" в нечто, что вы больше не начинаете и не прекращаете осознанно.

Alibaba только что запустила свои очки Quark AI S1 и G1 в Китае — полный набор оборудования, построенный вокруг ассистента Quark. Модель S1 нацелена на повседневное использование и отличается легким каркасом и камерой, в то время как модель G1 ориентирована на более спортивный дизайн с поддержкой дополненной реальности, способный выдержать поездку на работу, работу на заводе или маршрут доставки.

Эти очки не ведут себя как зеркало уведомлений телефона. Они используют локальные модели для перевода, описания сцен и навигации, а затем подключаются к облаку Alibaba для более тяжелых мультимодальных запросов, покупок и поиска. Эта структура отражает стратегию Microsoft «локальные мозги, облачная мощь», но Alibaba объединяет это в одном носимом устройстве, которое всегда включено.

Очки Quark AI в реальном времени обрабатывают субтитры для разговоров, читают текст с вывесок и документов, а также распознают объекты для таких задач, как сбор товаров на складе. Для курьера это означает, что навигация, проверка посылок и информация о клиентах отображаются прямо в поле зрения, без необходимости juggling с телефоном. Для студента лекции становятся живыми субтитрами и мгновенными справочными данными из экосистемы Alibaba.

Важно не просто создать еще одну категорию гаджетов, а обеспечить канал распределения для самого ИИ. Телефоны заставляли вас вынимать прямоугольник из кармана; очки находятся в вашем поле зрения целый день, готовые наложить инструкции, переводы и результаты поиска в тот момент, когда вы на что-то смотрите.

АналогиAmbient-ассистентов распространяются быстрее, когда они существуют в нескольких форматах одновременно: - Телефоны и ноутбуки с агентами Computernutzungsmodell, такими как Fara-7B - Очки, такие как Quark S1/G1, для работы без рук и в режиме навигации - Домашние устройства, автомобили и промышленное оборудование, связывающее все это вместе

Чтобы понять, как быстро эта технология развивается за пределами экранов, новости на TechCrunch - Технологические новости уже рассматривают ИИ-носимую технологию как серьезную платформу, а не как новинку.

Ваш новый цифровой коллега уже здесь

Ваш следующий коллега не будет сидеть в вкладке браузера. Он будет находиться внутри вашего ноутбука, наблюдая за пикселями, нажимая на клавиши и тихо закрывая заявки, пока вы спите. Fara-7B — это прототип: модель вычислений на основе 7 миллиардов параметров, которая уже выполняет задачи за примерно 2,5 цента, в то время как облачным агентам это стоило около 30 центов.

Теперь у Microsoft есть все причины интегрировать Fara непосредственно в Windows. С точки зрения временных рамок, компания уже предоставляет Recall, Copilot и системные хуки в Windows 11 и 12; добавление резидентного агента в стиле Fara для автоматизации интерфейса пользователя кажется игрой на 12–24 месяца, сначала для продвинутых пользователей и предприятий, а затем для всех. После этого операционная система перестанет быть пассивной оболочкой и превратится в слой планирования для множества агентов.

Представьте себе правила Outlook на максимуме. Вы выделяете запутанную электронную переписку, и местный агент Fara открывает Jira, фиксирует проблемы, обновляет дорожную карту в Notion и drafts отвечает, все это делая, действительно кликая по приложениям. Никаких API, никаких Zapier, только пиксели и намерение, работающие на устройстве, так что ваша HR панель или медицинская документация никогда не покидают ваш SSD.

Теперь добавьте в этот стек мировую модель, такую как Pan. Вместо таблиц и презентаций стратегические совещания проходят в постоянных симуляциях: Pan тестирует макеты складов, рекламные кампании или траектории роботов по сотням ветвей «что если», запоминая каждый предыдущий шаг. Fara превращает эти решения в конкретные действия на SaaS-дошках, в то время как облачные модели обрабатывают контракты, резюме и отчеты.

Удобные интерфейсы, такие как Gemini от Google, помощник по покупкам от Perplexity или интерактивные изображения и диаграммы от Gemini, служат в качестве человеческого интерфейса. Вы говорите, рисуете или нажимаете на график; они переводят это в цели. Локальные агенты выполняют задачи, мировые модели симулируют, а тяжелые облачные модели подключаются только для сложных рассуждений или контекста между организациями.

Монолитный, ориентированный на чат ИИ все больше напоминает этап тренировочных колес. Следующая эпоха принадлежит сети специализированных, недорогих, узконаправленных агентов: некоторые в вашем кармане, некоторые на вашем ПК, некоторые в удаленных дата-центрах. Работа и жизнь начинают казаться менее «попросить чат-бота» и больше напоминать организацию цифровой команды, которая никогда не отключается.

Часто задаваемые вопросы

Что такое Microsoft Fara-7B?

Fara-7B — это компактная модель искусственного интеллекта с 7 миллиардами параметров, предназначенная для автономного управления компьютером путем анализа снимков экрана и использования мыши и клавиатуры. Она работает локально на устройстве, а не в облаке.

Как Fara-7B отличается от моделей, таких как GPT-4?

Хотя GPT-4 является мощной языковой моделью для рассуждений и генерации в облаке, Fara-7B — это небольшая, специализированная «агентная» модель для выполнения задач непосредственно на вашем компьютере. Она акцентирует внимание на действиях (кликание, ввод текста), а не просто на разговоре.

Что такое 'мировая модель', как Pan от MBU AI?

Мировая модель — это ИИ, который симулирует последовательную и непрерывную среду во времени. В отличие от стандартных видеогенераторов, она запоминает, что происходило раньше, и предсказывает, как действия изменят мир, отслеживая причинно-следственные связи.

Почему запуск ИИ локально на вашем устройстве имеет большое значение?

Местное выполнение значительно снижает задержку, резко сокращает эксплуатационные расходы (в некоторых случаях до 90%) и повышает конфиденциальность данных, так как конфиденциальную информацию не нужно отправлять на облачный сервер.

Found this useful? Share it.

For builders

Want Stork to write one of these about your product?

Send us a URL. We use the product, form a view, and publish what we actually think — in 8 languages, labeled Sponsored, with no copy approval on your side. That last part is what makes it worth quoting.

See how it works$500 · AI tools & software only

Новый ИИ от Microsoft уничтожает облако