Кратко / Главное
Новый веб-протокол под названием WebMCP учит AI agents использовать веб-сайты напрямую, без необходимости screen-scraping. Но хотя новые developer tools делают его вдвое лучше, это все еще лишь половина решения.
Конец хрупкой автоматизации?
AI agents, перемещающиеся по сети, часто сталкиваются с хрупкой, основанной на визуальных данных автоматизацией. Screen-scraping и UI automation, зависящие от позиций пикселей и структуры DOM, ломаются при каждом незначительном обновлении веб-сайта. Этот хрупкий подход ограничивает надежность и масштабируемость агентов, препятствуя их потенциалу по-настоящему взаимодействовать с цифровыми сервисами.
Представляем WebMCP, Web Model Context Protocol, зарождающийся стандарт браузера, разработанный для революционизации агентского веб-серфинга. Этот протокол выходит за рамки визуального парсинга, позволяя веб-сайтам предоставлять свои функциональные возможности в виде структурированных «инструментов» напрямую AI agents. Он переводит взаимодействие от угадывания к явному, API-подобному общению.
Веб-сайты реализуют WebMCP, регистрируя эти инструменты через объект document.modelContext. Разработчики могут определять функции JavaScript с четкими описаниями и типизированными схемами ввода/вывода, создавая надежный, машиночитаемый интерфейс. Это позволяет AI agent семантически понимать и вызывать действия, такие как «добавить товар в корзину» или «забронировать столик в ресторане».
Это не маргинальный эксперимент; Google и Microsoft активно продвигают WebMCP в рамках W3C. В настоящее время находящийся на стадии origin trials для Chrome 146+, он представляет собой серьезное, согласованное усилие по созданию фундаментального слоя для будущих AI-driven веб-взаимодействий. WebMCP обещает открыть новую эру интеллектуальной, надежной интеграции агентов по всему интернету.
Два пути к агентскому вебу
WebMCP предлагает разработчикам два различных пути для подготовки веб-приложений к работе с агентами. Этот двойной подход учитывает разнообразные потребности веба, от простых форм до сложных, stateful систем. Оба метода предоставляют структурированные инструменты для потребления ИИ, но они ориентированы на разные парадигмы разработки.
Оригинальный imperative API предоставляет разработчикам возможности JavaScript. Используя `document.modelContext.registerTool()`, приложения программно регистрируют инструменты, обеспечивая точный контроль над именами, описаниями и параметрами инструментов. Этот метод превосходен в высокодинамичных средах, таких как система заказа ресторана «Philly's Finest» или сложное OpenSCAD CAD modeling, где доступные действия могут меняться в зависимости от взаимодействия с пользователем или состояния приложения.
Мощный новый declarative API предлагает альтернативу с низким уровнем кода (low-code). Разработчики теперь могут сделать стандартные HTML формы читаемыми для ИИ, просто встраивая определенные атрибуты непосредственно в свою разметку. Это устраняет необходимость в JavaScript, значительно упрощая процесс.
Атрибуты, такие как `tool name`, `tool description` и `tool param description`, определяют назначение инструмента и его входные параметры. Затем браузер автоматически преобразует эти аннотации в структурированную схему, мгновенно делая формы, такие как простой список дел, доступными для AI agents без написания какого-либо пользовательского кода.
Эта двойная стратегия обеспечивает огромную гибкость. Будь то создание простой формы ввода данных или сложного инженерного приложения, WebMCP гарантирует, что веб-взаимодействия могут быть точно поняты и выполнены AI agents. Она устраняет разрыв между ориентированным на человека UI и машиноориентированными интерфейсами.
Отладка ИИ с помощью новых DevTools
Chrome devtools теперь поставляется с поддержкой WebMCP, превращая этот зарождающийся стандарт из концептуальной основы в ощутимую, отлаживаемую реальность. Это важнейшее дополнение знаменует собой точку зрелости, позволяя разработчикам точно проверять и совершенствовать то, как их веб-сайты предоставляют возможности интеллектуальным агентам. Оно воплощает обещание агентского веба в практические, готовые к использованию рабочие процессы разработки, обеспечивая тонкий контроль над взаимодействиями с AI.
На панели 'Application' новая вкладка WebMCP обеспечивает беспрецедентную видимость интерфейса сайта, ориентированного на агентов. Теперь разработчики могут: - Просматривать все зарегистрированные инструменты, независимо от того, определены ли они императивно или декларативно. - Проверять их точные схемы, включая имя, описание и параметры, обеспечивая точную связь с AI. - Просматривать полную историю вызовов инструментов, понимая взаимодействия агентов и их последовательность. Этот уровень детализации критически важен для диагностики неожиданного поведения агентов.
Эта глубокая интроспекция бесценна для отладки сложного поведения агентов и проверки точности предоставляемых функций. Более того, панель позволяет разработчикам вручную запускать инструменты напрямую, имитируя вызов AI с определенными параметрами. Эта возможность обеспечивает быструю проверку, гарантируя, что инструменты функционируют должным образом и что их предоставляемые схемы точно представляют предполагаемые взаимодействия сайта для агентов, ускоряя цикл обратной связи. Для получения дополнительной информации о программной регистрации инструментов см. WebMCP Imperative API - Chrome Developers.
Проблема '50% идеальности'
Несмотря на все свои недавние успехи, WebMCP воплощает классическую проблему '50% идеальности'. Как сформулировал Джек Херрингтон, недавние достижения, включая новые devtools и упрощенный декларативный API, фактически сделали протокол вдвое лучше. Тем не менее, он остается лишь половиной полного решения для создания агентского веба.
Ключевая недостающая половина включает нативную интеграцию в AI-помощники, встроенные непосредственно в браузеры. Без модели, такой как Google's Gemini или Microsoft's Copilot, активно обнаруживающей и использующей эти предоставляемые инструменты WebMCP, протокол лишен какого-либо значимого применения для конечного пользователя. Разработчики теперь могут регистрировать инструменты и отлаживать их, но ни один браузерный AI в настоящее время не оснащен для использования их в реальных задачах.
Это поднимает критический вопрос для экосистемы: почему такие компании, как Google, разрабатывают браузерный API и сложные devtools для WebMCP, но при этом не связывают эти возможности со своими флагманскими продуктами AI? Запуск технологии, которая обещает переопределить взаимодействие браузера и AI, но предоставляет лишь половину необходимой инфраструктуры, оставляет ракету на стартовой площадке.
Часто задаваемые вопросы
Что такое WebMCP (Web Model Context Protocol)?
WebMCP — это развивающийся веб-стандарт, который позволяет веб-сайтам предоставлять свою функциональность в виде структурированных инструментов. Это позволяет AI-агентам надежно взаимодействовать с сайтом, подобно вызову API, вместо того чтобы полагаться на ненадежный парсинг экрана.
В чем разница между императивным и декларативным API для WebMCP?
Императивный API использует JavaScript (`document.modelContext.registerTool()`) для динамической регистрации инструментов в сложных приложениях. Более новый декларативный API использует простые атрибуты HTML, чтобы сделать существующие формы совместимыми с AI без использования JavaScript.
Почему в видео WebMCP называют '50% идеальным'?
Хотя технология для веб-сайтов по предоставлению инструментов быстро улучшается (первые 50%), другая половина отсутствует. Крупные AI-помощники, такие как Gemini и Copilot, еще не интегрировали WebMCP, что означает, что пользователи пока не могут извлечь из этого реальной пользы.
Как разработчики могут начать тестирование WebMCP?
Разработчики могут включить поддержку WebMCP в Chrome Flags (`chrome://flags`). Это активирует новую панель в DevTools, где можно проверять, отлаживать и вручную запускать инструменты, которые предоставил веб-сайт.
