WebMCP erklärt: Wie AI-Agenten mit Websites interagieren werden

Q: Was ist der Unterschied zwischen der Imperative und Declarative API für WebMCP?

Die Imperative API verwendet JavaScript `) für die dynamische Tool-Registrierung in komplexen Anwendungen. Die neuere Declarative API verwendet einfache HTML-Attribute, um bestehende Formulare ohne JavaScript KI-kompatibel zu machen.

Q: Wie können Entwickler mit dem Testen von WebMCP beginnen?

Entwickler können die WebMCP-Unterstützung in Chrome Flags aktivieren. Dies aktiviert ein neues Panel in den DevTools, wo Sie die von einer Website bereitgestellten Tools überprüfen, debuggen und manuell ausführen können.

Zusammenfassung / Kernpunkte

Ein neues Webprotokoll namens WebMCP bringt KI-Agenten bei, Websites direkt zu nutzen, ohne Screen-Scraping.
Doch obwohl neue Entwicklertools es doppelt so gut machen, ist es immer noch nur die halbe Lösung.

Das Ende der spröden Automatisierung?

KI-Agenten, die im Web navigieren, kämpfen oft mit fragiler, visueller Automatisierung. Screen-Scraping und UI-Automatisierung, die von Pixelpositionen und der DOM-Struktur abhängen, brechen bei jedem kleineren Website-Update. Dieser spröde Ansatz begrenzt die Zuverlässigkeit und Skalierbarkeit der Agenten und behindert ihr Potenzial, wirklich mit digitalen Diensten zu interagieren.

Hier kommt WebMCP, das Web Model Context Protocol, ein aufkommender Browserstandard, der das agentenbasierte Web-Browsing revolutionieren soll. Dieses Protokoll geht über visuelles Parsen hinaus und ermöglicht es Websites, ihre Funktionalitäten als strukturierte 'Tools' direkt für KI-Agenten bereitzustellen. Es verlagert die Interaktion vom Raten zu expliziter, API-ähnlicher Kommunikation.

Websites implementieren WebMCP, indem sie diese Tools über das Objekt document.modelContext registrieren. Entwickler können JavaScript-Funktionen mit klaren Beschreibungen und typisierten Eingabe-/Ausgabe-Schemas definieren, wodurch eine robuste, maschinenlesbare Schnittstelle entsteht. Dies ermöglicht es einem KI-Agenten, Aktionen wie „Artikel in den Warenkorb legen“ oder „eine Restaurantreservierung buchen“ semantisch zu verstehen und aufzurufen.

Dies ist kein Randexperiment; Google und Microsoft setzen sich aktiv für WebMCP innerhalb des W3C ein. Derzeit in Origin Trials für Chrome 146+, stellt es eine ernsthafte, konzertierte Anstrengung dar, die grundlegende Schicht für zukünftige KI-gesteuerte Web-Interaktionen aufzubauen. WebMCP verspricht, eine neue Ära der intelligenten, zuverlässigen Agentenintegration im gesamten Internet einzuleiten.

Zwei Wege zu einem agentenbasierten Web

WebMCP bietet Entwicklern zwei unterschiedliche Wege, um Webanwendungen agentenbereit zu machen. Dieser duale Ansatz berücksichtigt die vielfältigen Bedürfnisse des Webs, von einfachen Formularen bis hin zu komplexen, zustandsbehafteten Systemen. Beide Methoden stellen strukturierte Tools für die KI-Nutzung bereit, bedienen aber unterschiedliche Entwicklungsparadigmen.

Die ursprüngliche imperative API befähigt Entwickler mit JavaScript. Mit `document.modelContext.registerTool()` registrieren Anwendungen Tools programmatisch und bieten eine feingranulare Kontrolle über Tool-Namen, Beschreibungen und Parameter. Diese Methode eignet sich hervorragend für hochdynamische Umgebungen, wie das Restaurant-Bestellsystem „Philly's Finest“ oder die komplexe OpenSCAD CAD-Modellierung, wo verfügbare Aktionen sich mit Benutzerinteraktion oder Anwendungszustand ändern können.

Eine leistungsstarke neue deklarative API bietet eine Low-Code-Alternative. Entwickler können jetzt Standard-HTML-Formulare KI-lesbar machen, indem sie einfach spezifische Attribute direkt in ihr Markup einbetten. Dies eliminiert die Notwendigkeit von JavaScript und optimiert den Prozess erheblich.

Attribute wie `tool name`, `tool description` und `tool param description` definieren den Zweck des Tools und seine Eingabeparameter. Der Browser übersetzt diese Anmerkungen dann automatisch in ein strukturiertes Schema, wodurch Formulare wie eine einfache To-Do-Liste sofort für KI-Agenten zugänglich werden, ohne dass benutzerdefinierter Code geschrieben werden muss.

Diese duale Strategie bietet immense Flexibilität. Ob beim Erstellen eines einfachen Dateneingabeformulars oder einer anspruchsvollen technischen Anwendung, WebMCP stellt sicher, dass Web-Interaktionen von KI-Agenten präzise verstanden und ausgeführt werden können. Es überbrückt die Lücke zwischen menschenzentrierter UI und maschinenverwertbaren Schnittstellen.

KI debuggen mit neuen DevTools

Chrome devtools wird jetzt mit WebMCP support ausgeliefert und verwandelt diesen jungen Standard von einem konzeptionellen Rahmen in eine greifbare, debugbare Realität. Diese entscheidende Ergänzung signalisiert einen Reifepunkt, der es Entwicklern ermöglicht, genau zu überprüfen und zu verfeinern, wie ihre Websites Fähigkeiten für intelligente Agenten bereitstellen. Es verankert das Versprechen eines agentischen Webs in praktischen, ausgelieferten Entwicklungs-Workflows und ermöglicht eine feingranulare Kontrolle über KI-Interaktionen.

Im Bereich 'Application' bietet ein neuer WebMCP tab eine beispiellose Einsicht in die agentenseitige Schnittstelle einer Website. Entwickler können jetzt: - Alle registrierten Tools sehen, unabhängig davon, ob sie imperativ oder deklarativ definiert wurden. - Ihre präzisen Schemata, einschließlich Name, Beschreibung und Parameter, überprüfen, um eine genaue Kommunikation mit der KI sicherzustellen. - Eine umfassende Historie der Tool-Aufrufe einsehen, um Agenteninteraktionen und deren Reihenfolge zu verstehen. Dieses Detailniveau ist entscheidend für die Diagnose unerwarteten Agentenverhaltens.

Diese tiefe Introspektion ist von unschätzbarem Wert für das Debugging komplexer Agentenverhaltensweisen und die Validierung der Genauigkeit exponierter Funktionen. Darüber hinaus ermöglicht das Panel Entwicklern, Tools direkt manuell auszuführen und so den Aufruf einer KI mit spezifischen Parametern zu simulieren. Diese Funktion bietet eine schnelle Validierung, stellt sicher, dass Tools wie erwartet funktionieren und dass ihre exponierten Schemata die beabsichtigten Interaktionen der Website für Agenten genau darstellen, wodurch die Feedback-Schleife beschleunigt wird. Weitere Informationen zur programmatischen Tool-Registrierung finden Sie unter WebMCP Imperative API - Chrome Developers.

Das '50% Perfekt'-Problem

Trotz all seiner jüngsten Fortschritte verkörpert WebMCP ein klassisches „50% perfekt“-Problem. Wie Jack Herrington formulierte, haben jüngste Fortschritte, einschließlich der neuen devtools und der vereinfachten deklarativen API, das Protokoll effektiv doppelt so gut gemacht. Dennoch bleibt es nur die Hälfte einer vollständigen solution zur Ermöglichung eines agentischen Webs.

Die entscheidende fehlende Hälfte betrifft die native Integration in die direkt in Browser integrierten KI-Assistenten. Ohne ein Modell wie Googles Gemini oder Microsofts Copilot, das diese exponierten WebMCP-Tools aktiv entdeckt und nutzt, fehlt dem Protokoll jede sinnvolle Endbenutzeranwendung. Entwickler können jetzt Tools registrieren und debuggen, aber keine Browser-KI ist derzeit in der Lage, sie für reale Aufgaben zu nutzen.

Dies wirft eine kritische Frage für das Ökosystem auf: Warum entwickeln Unternehmen wie Google die browserseitige API und ausgeklügelte devtools für WebMCP, versäumen es aber gleichzeitig, diese Funktionen mit ihren eigenen Flaggschiff-KI-Produkten zu verbinden? Eine Technologie einzuführen, die verspricht, die Browser-KI-Interaktion neu zu definieren, aber nur die Hälfte der notwendigen Infrastruktur zu liefern, lässt die Rakete auf der Startrampe stehen.

Häufig gestellte Fragen

Was ist WebMCP (Web Model Context Protocol)?

WebMCP ist ein aufkommender Webstandard, der es Websites ermöglicht, ihre Funktionalität als strukturierte Tools bereitzustellen. Dies ermöglicht es KI-Agenten, zuverlässig mit einer Website zu interagieren, ähnlich wie beim Aufruf einer API, anstatt sich auf anfälliges Screen-Scraping zu verlassen.

Was ist der Unterschied zwischen der Imperative und Declarative API für WebMCP?

Die Imperative API verwendet JavaScript (`document.modelContext.registerTool()`) für die dynamische Tool-Registrierung in komplexen Anwendungen. Die neuere Declarative API verwendet einfache HTML-Attribute, um bestehende Formulare ohne JavaScript KI-kompatibel zu machen.

Warum nennt das Video WebMCP '50% Perfekt'?

Während sich die Technologie für Websites zur Bereitstellung von Tools schnell verbessert (die ersten 50%), fehlt die andere Hälfte. Große KI-Assistenten wie Gemini und Copilot haben WebMCP noch nicht integriert, was bedeutet, dass Nutzer derzeit nicht wirklich davon profitieren können.

Wie können Entwickler mit dem Testen von WebMCP beginnen?

Entwickler können die WebMCP-Unterstützung in Chrome Flags (`chrome://flags`) aktivieren. Dies aktiviert ein neues Panel in den DevTools, wo Sie die von einer Website bereitgestellten Tools überprüfen, debuggen und manuell ausführen können.

Found this useful? Share it.

One short daily email of tools worth shipping. No drip funnel.

one email a day · unsubscribe in two clicks · no third-party tracking

KI lernt, Ihre Website zu nutzen

Das Ende der spröden Automatisierung?

Zwei Wege zu einem agentenbasierten Web

KI debuggen mit neuen DevTools

Das '50% Perfekt'-Problem

Häufig gestellte Fragen

Was ist WebMCP (Web Model Context Protocol)?

Was ist der Unterschied zwischen der Imperative und Declarative API für WebMCP?

Warum nennt das Video WebMCP '50% Perfekt'?

Wie können Entwickler mit dem Testen von WebMCP beginnen?

Als Nächstes lesen

Der Preisschock der KI steht bevor

KI hat diese App gebaut. Sie hat in 7 Wochen 50.000 $ verdient.

Reacts neuer Modal Killer ist da

Bleiben Sie der KI voraus