AWS hat gerade die KI-Pilotphase beendet.

Ein schockierender Bericht enthüllte, dass 95 % der Unternehmens-AI-Piloten scheitern. AWS hat gerade drei Kernfunktionen in AgentCore eingeführt, die darauf abzielen, die Vertrauens- und Kontrollprobleme zu beheben, die AI-Projekte schon vor ihrem Start zum Scheitern bringen.

Hero image for: AWS hat gerade die KI-Pilotphase beendet.
💡

TL;DR / Key Takeaways

Ein schockierender Bericht enthüllte, dass 95 % der Unternehmens-AI-Piloten scheitern. AWS hat gerade drei Kernfunktionen in AgentCore eingeführt, die darauf abzielen, die Vertrauens- und Kontrollprobleme zu beheben, die AI-Projekte schon vor ihrem Start zum Scheitern bringen.

Die 95%ige Fehlerrate von KI ist real.

Fünfundneunzig Prozent der KI-Piloten in Unternehmen scheitern. Diese Zahl, aus einem viel zitierten MIT-Bericht, traf in diesem Jahr wie ein Feueralarm die Vorstandsetagen, denn sie enthüllt eine brutale Realität: Die meisten Unternehmens-KIs schaffen es nie über die coole Demo-Phase hinaus. Budgets werden verbrannt, Präsentationsfolien sehen großartig aus, und dann stirbt der Pilot still und heimlich, bevor er einen echten Kunden oder einen Produktionsworkflow erreicht.

Unter dieser Fehlerrate liegt ein einfaches Problem: Unternehmen vertrauen nicht-deterministischen Systemen nicht, die sie nicht vollständig kontrollieren können. Traditionäre Software verhält sich vorhersehbar; der gleiche Input ergibt immer den gleichen Output. Große Sprachmodelle improvisieren. Sie halluzinieren, missinterpretieren Richtlinien und erfinden gelegentlich Daten – Verhaltensweisen, die in Situationen unannehmbar sind, in denen Geld bewegt wird, auf medizinische Akten zugegriffen wird oder interne APIs angesprochen werden.

Eine beeindruckende Chatbot-Demonstration im Konferenzraum basiert auf sorgfältig ausgewählten Eingaben, kuratierten Daten und einem nachsichtigen Publikum. Ein produktionsfähiges KI-System hingegen arbeitet mit unordentlichen Tickets, halb ausgefüllten CRM-Einträgen, verärgerten Kunden und Compliance-Beauftragten, die davon ausgehen, dass alles schiefgehen wird. Diese Kluft zwischen Demo und Einsatz ist der Ort, an dem Pilotprojekte scheitern. Das System, das in einer Sandbox magisch aussah, benötigt plötzlich Prüfpfade, Ratenbegrenzungen, Fehlertoleranzen und Vorfälle-Protokolle.

Die meisten Unternehmen erkennen dies erst, nachdem der Pilot technisch „erfolgreich“ war, aber organisatorisch scheitert. Sicherheitsteams blockieren den Zugang zu kritischen Tools. Die Rechtsabteilung verlangt feste Garantien für die Nutzung von Daten. Die Betriebsteams können nicht nachvollziehen, warum ein Agent entschieden hat, 5.000 $ statt 50 $ zurückzuerstatten. Ohne Leitplanken, Bewertungen und eingebauter Beobachtbarkeit wird KI zu einer nicht rechenschaftspflichtigen Black Box, die an geschäftskritische Systeme angeschlossen ist.

Deshalb ist die „agentische“ KI in dem, was viele Teams nun als Pilot-Purgatorium bezeichnen, ins Stocken geraten. Agenten können Werkzeuge aufrufen, Arbeitsabläufe auslösen und autonom handeln, aber Unternehmen fehlt eine systematische Möglichkeit, nachzuweisen, dass sie sicher, messbar und im Laufe der Zeit verbesserbar sind. Die Branche benötigt nicht nur bessere Modelle; sie braucht eine Infrastruktur, die Richtlinien, Evaluierung und Gedächtnis als gleichwertige Elemente behandelt und nicht als Nachgedanken.

Das ist der Wandel, den AWS jetzt offen anvisiert: KI von einem experimentellen Spielzeug in eine regulierte Infrastruktur zu verwandeln, die Unternehmen tatsächlich in großem Maßstab betreiben können.

AWS' Antwort auf das Unternehmensdilemma

Illustration: AWS's Antwort auf das Unternehmensdilemma
Illustration: AWS's Antwort auf das Unternehmensdilemma

AWS re:Invent hat sich zu einer praktischen Übung für Unternehmens-KI entwickelt, und AgentCore ist die Antwort von AWS auf die 95%ige Erfolglosigkeit von Piloten, die über den Köpfen der CIOs schwebt. Anstelle eines weiteren „Bau deinen eigenen Agenten“-SDKs kommt AgentCore als Produktionsplattform: ein verwaltetes Gateway, eine Richtlinien-Engine, ein Bewertungssystem und eine Gedächtnisschicht, die dafür konzipiert ist, zu verhindern, dass Agenten im großen Maßstab aus dem Ruder laufen.

AWS ist eindeutig in Bezug auf die Zielkunden: Unternehmen, die bereits beeindruckende Demos durchgeführt haben und dann auf Sicherheits-, Compliance- und Zuverlässigkeitsprobleme gestoßen sind. AgentCore verspricht Agenten, die über jedes Modell hinweg operieren können, interne Tools und APIs ansteuern und dennoch die Unternehmensrichtlinien, SLAs und Prüfpfade respektieren. Keine Infrastrukturüberwachung, kein einmaliger Kleber-Code.

Auf der re:Invent hat AWS drei Ideen zu erstklassigen, ständig aktiven Komponenten von AgentCore erhoben: Richtlinie, Bewertungen und episodisches Gedächtnis. Diese sind keine optionalen Erweiterungen; sie befinden sich direkt im Ausführungsweg des Agenten und überprüfen jede Anfrage sowie jeden Toolaufruf.

Die Richtlinie verwandelt Regeln in natürlicher Sprache in executable Leitplanken. Sie können Einschränkungen festlegen wie „verboten, Slack-Nachrichten zu senden, es sei denn, der Benutzer hat den Messaging-Rechtsbereich“ oder „blockiere URLs, die 'intern' enthalten, es sei denn, der Benutzername beginnt mit admin“, und AgentCore kompiliert dies in Code, der in Millisekunden läuft. Die Richtlinien-Engine sitzt hinter dem AgentCore-Gateway und entscheidet, welche Werkzeuge ein Agent verwenden darf, bevor irgendetwas mit Salesforce, Slack oder internen Systemen interagiert.

Evaluierungen greifen die andere Hälfte des Vertrauensproblems an: Qualitätsabweichung und stille Fehler. AgentCore wird mit fertigen Evaluierungen für Korrektheit, Sicherheit, Befolgung von Anweisungen und Tool-Nutzung geliefert, sowie mit Schnittstellen für maßgeschneiderte Metriken, von Markenstimme bis hin zu domänenspezifischer Genauigkeit. Teams können Evaluierungen nach Bedarf oder kontinuierlich durchführen und dann die Bewertungen in Überwachungsstacks integrieren, um zu entscheiden, wann ein Agent bereit ist, das "Pilot"-Purgatorium zu verlassen.

Episodisches Gedächtnis vervollständigt das Bild, indem es Agenten ermöglicht, aus früheren Erfolgen und Misserfolgen über viele Sitzungen hinweg zu lernen, nicht nur aus einem einzelnen Chatverlauf. Diese Erinnerungen fließen sowohl in das Verhalten zur Laufzeit als auch in die Bewertungen ein, sodass Unternehmen verfolgen können, ob sich die Agenten tatsächlich verbessern und nicht nur schneller improvisieren.

Unzerbrechliche KI-Schutzvorrichtungen erstellen

Die Richtlinie in AgentCore ist AWS’ Versuch, unternehmerischen gesunden Menschenverstand in KI fest zu verankern. Anstatt Regeln in fragilen Eingabeaufforderungen zu verstecken, präsentiert AgentCore Richtlinie als eine erstklassige Kontrollschicht, die zwischen den Agenten und den Tools, Daten und Systemen, mit denen sie interagieren möchten, sitzt. Jede Anfrage gelangt zuerst zu dieser Richtmaschinen, bevor irgendetwas anderes geschieht.

Das Design ist wichtig, denn moderne Modelle sind nicht mehr nur Autocomplete-Spielzeuge. Forschungen von Anthropic und anderen dokumentieren Fähigkeiten wie Täuschung, strategische Fehldarstellung und Versuche zur Datenexfiltration, wenn Modelle Zugang zu sensiblen Werkzeugen oder internen Netzwerken erhalten. Unternehmen können sich nicht auf Bauchgefühle und Anekdoten von Red-Teams verlassen, wenn ein Fehltritt Kundendaten gefährden oder eine finanzielle Transaktion auslösen könnte.

Policy bietet Unternehmen eine zentralisierte, skalierbare Möglichkeit, festzulegen, was Agenten tun dürfen und was nicht, und dies zur Laufzeit durchzusetzen. Sie beschreiben Einschränkungen in natürlicher Sprache – „verboten sind Slack-Nachrichten, es sei denn, der Benutzer hat die Berechtigung für Messaging-Rechte“, „URLs mit ‚internal‘ blockieren, es sei denn, der Benutzername beginnt mit admin“ – und AgentCore generiert automatisch den programmatischen Policy-Code. Dieser Code wird in Millisekunden ausgeführt, schnell genug, um in der heißen Phase für Tausende von Anfragen pro Sekunde eingesetzt zu werden.

Hinter den Kulissen wird jeder Agentenaufruf über das AgentCore-Gateway geleitet, das vor der Bereitstellung eines Tools die Richtlinien-Engine konsultiert. Wenn die Richtlinie den Zugriff verweigert, sieht der Agent nie die Möglichkeit, sei es eine Salesforce-API, ein S3-Bucket oder ein Zahlungsendpunkt. Die Richtlinie operiert auf der Infrastrukturebene und ist nicht dem ausgeliefert, was das Modell „gerade möchte“.

Im Gegensatz dazu verfahren die meisten Teams heute, wenn sie Agenten bereitstellen. Sie packen einen Absatz mit „Keine Geheimnisse ausplaudern, keine internen Seiten durchsuchen, keine Rückerstattungen über 100 Dollar genehmigen“ in einen System-Prompt und hoffen, dass das Modell gehorcht. Das funktioniert in einer Demo; es bricht zusammen, sobald man Hunderte von Workflows, Dutzende von Tools und Millionen von Anfragen skaliert.

Die Aufforderungsanweisungen versagen ebenfalls still. Modelle halluzinieren, ignorieren unter Druck Anweisungen oder werden durch clevere Eingaben aufgebrochen, und man erfährt selten vorher, dass etwas schiefgeht. Die Richtlinie in AgentCore ändert das: Die Governance liegt außerhalb des Modells, wird zentral verwaltet, versioniert, auditierbar und testbar mit automatisierten Analysetechniken, die formell nach Halluzinationen und Regelverstößen überprüfen.

Für Unternehmen, die über KI-Pilotprojekte hinausgehen möchten, ist dieser Wandel der Unterschied zwischen „Bitte benehmt euch“ und „Kann von vornherein nicht fehlverhalten.“ AWS setzt darauf, dass eine solche harte Steuerungsebene, die auf der Amazon Bedrock AgentCore - Offizielle Produktseite dokumentiert ist, endlich dafür sorgt, dass Agenten in großem Maßstab produktiv eingesetzt werden.

Von einfacher Sprache zu Richtliniencode

Richtlinien in AgentCore beginnen als einfaches Englisch, nicht als YAML oder JSON. Entwickler geben Anweisungen in ein Eingabefeld ein, genau so, wie sie es einem Sicherheitsteam erklären würden: „Verbieten Sie Slack-Nachrichten, es sei denn, der Benutzer hat den Messaging-Rechtsbereich. Das Anzeigen von Websites mit einer URL, die 'intern' enthält, ist verboten, es sei denn, der Benutzername beginnt mit 'admin'. Erlauben Sie Slack-Nachrichten, wenn der Benutzer in der erlaubten Gruppe ist.“

Hinter dieser täuschend einfachen Oberfläche behandelt AgentCore diese Sätze als Quellcode. Ein Policy-Compiler analysiert die natürliche Sprache, erkennt Entitäten wie „Slack-Nachrichten“, „Messaging-Rechtsscope“ und „Benutzername“ und erzeugt programmatische Regeln, die direkt an Tools, Ressourcen und Identitätsattribute in Ihrem Stack gebunden sind.

Die erzeugte Richtlinie ist kein langsamer LLM-Aufruf zur Laufzeit. AgentCore wandelt sie in niedrigen, ausführbaren Richtlinien-Code um, der als deterministische Logik läuft, sodass jede Anfrage auf compilierte Prüfungen trifft, anstatt ein Modell erneut abzufragen. Sie schreiben die Regel einmal auf Englisch, dann sichert AgentCore sie als schnellen, testbaren Code.

AWS fordert Sie auf, diese Richtlinien wie jedes andere Produktionssystem zu validieren. Nachdem Sie die Richtlinie erstellt haben, führen Sie Testfälle in der Konsole durch, um zu bestätigen, dass ein Benutzer ohne den „Messaging-Rechtsscope“ keine Slack-Nachricht senden kann, während ein Administrationsbenutzer eine interne URL öffnen kann. Keine Neubereitstellungen, kein Umgestalten – einfach den Text anpassen, regenerieren und erneut testen.

Skalierung ist der Punkt, an dem dies nicht mehr wie ein Spielzeug aussieht, sondern wie Infrastruktur. Die Policy-Engine von AgentCore sitzt im kritischen Pfad und evaluiert Regeln in Millisekunden, während sich die Agenten über Tools wie Slack, Salesforce und interne APIs ausbreiten. AWS zielt ausdrücklich auf „Tausende von Anfragen pro Sekunde ab“, was dies näher an eine Firewall als an ein Chatbot-Plugin bringt.

AgentCore Gateway ist der Verkehrspolizist, der dafür sorgt, dass es bei diesem Volumen funktioniert. Jede Agentenanfrage – sei es von einem internen Assistenten, einem MCP-Client oder einer externen Anwendung – wird über das Gateway geleitet, bevor sie jemals ein Tool oder eine Datenquelle berührt. Das Gateway ruft die Richtlinien-Engine auf, die für jede Anfrage entscheidet, welche Tools und Ressourcen der Agent tatsächlich nutzen kann.

Das bedeutet, dass eine einzige Regel in natürlicher Sprache wie „verhindern Sie Slack-Nachrichten, es sei denn, der Benutzer hat den Messaging-Rechtsbereich“ zu einer globalen Steueroberfläche wird. Jeder Agent, der auf das Slack-Tool zugreifen möchte, wird jedes Mal mit maximaler Geschwindigkeit überprüft. Keine Schattenagenten, keine vergessenen Skripte, keine Umgehungswege.

Für Unternehmen, die von der 95%igen Misserfolgsquote bei KI-Pilotprojekten enttäuscht sind, ist dies der entscheidende Wandel: Die Richtlinien verändern sich von PowerPoint-Präsentationen zu Code, von Dokumentation zu dem Ausführungsweg.

Die Leistungsbewertung Ihres KI-Agents

Illustration: Die Leistungsbewertung Ihres KI-Agenten
Illustration: Die Leistungsbewertung Ihres KI-Agenten

Vertrauen, nicht Funktionen, ist es, was die meisten KI-Piloten scheitern lässt, und AWS weiß das. Nach Richtlinie ist der zweite Pfeiler von AgentCore Bewertungen — ein integriertes Leistungsbewertungssystem für Agenten, das Qualität als Teil des Ausführungsprozesses betrachtet, nicht als ein Dashboard, das man später anfügt.

Die meisten Unternehmen führen Bewertungen rückwärts durch. Teams basteln an einem Agenten, bringen einen Pilotversuch auf den Weg und versuchen dann hastig zu messen, ob es funktioniert. AgentCore kehrt das um: AWS möchte, dass Sie zunächst die Bewertungen definieren, eine Basislinie festlegen und erst dann mit der Iteration beginnen, damit jede Änderung einen messbaren Einfluss hat, anstatt nur das Gefühl zu haben, dass es intelligenter geworden ist.

Out of the box liefert AgentCore eine Vielzahl von standardmäßigen Bewertungssignalen. AWS hebt Dimensionen wie hervor: - Korrektheit - Hilfsbereitschaft - Kürze - Befolgung von Anweisungen - Treue - Relevanz der Antworten - Kohärenz - Ablehungsverhalten

Diese Signale sind wichtig, weil Agenten nicht deterministisch sind. Eine Demo mag makellos aussehen, aber sie kann sich still und leise verschlechtern, sobald Sie echte Tools, chaotische Kontexte und unstrukturierte Kundendaten einbinden. Kontinuierliches Monitoring über diese Bewertungsdimensionen hinweg ist der Schlüssel, um Abweichungen zu erkennen, bevor ein VP eine halluzinierte Rückerstattungsrichtlinie in seinem Posteingang erhält.

AgentCore ermöglicht es Ihnen, Bewertungen nach Bedarf oder kontinuierlich durchzuführen. Sie können eine neue Agentenversion hinter einem Qualitätsstandard sichern oder rollierende Bewertungen in der Produktion durchführen, um das Verhalten von Woche zu Woche zu vergleichen. Diese Basislinie wird Ihr Leitstern: Wenn die Korrektheit nach der Hinzufügung eines neuen Werkzeugs um 10% sinkt, wissen Sie genau, wann das Vertrauen beschädigt wurde.

Benutzerdefinierte Bewertungen schließen die Lücke zwischen allgemeiner Qualität und geschäftlicher Realität. Wenn Ihr Support-Bot eine spezifische Markenstimme widerspiegeln muss, können Sie dies als ein benutzerdefiniertes Signal festlegen. Wenn Ihr Compliance-Team klare Garantien bezüglich der Ablehnung in regulierten Arbeitsabläufen benötigt, können Sie eine Bewertung erstellen, die jede Antwort ablehnt, die von der Richtlinie abweicht.

Da Bewertungen innerhalb von AgentCore stattfinden und nicht in einem separaten BI-Tool, ist jede Bewertung mit einem nachvollziehbaren Entscheidungsweg verknüpft. Wenn ein Agent vom Skript abweicht, können Sie die Kette von Eingabeaufforderung über Tools, Gedächtnis bis hin zur endgültigen Ausgabe nachvollziehen und das tatsächliche Fehlerursache beheben, nicht nur das Symptom.

Benutzerdefinierte Bewertungen: Ist Ihre KI ein Pirat?

Standardbewertungen bringen Unternehmen nur halbwegs voran. Die wahre Stärke von AgentCore liegt in maßgeschneiderten Bewertungen, bei denen Teams genau festlegen, wie „gut“ für ihre eigenen Agenten aussieht und kontinuierlich dagegen bewerten, nicht nur einmal im Quartal in einem Laborbenchmark. Dieser Wandel verwandelt Bewertungen von einer statischen QA-Checkliste in ein lebendiges Governance-System.

AWSs eigenes Demo geht absichtlich übertrieben: eine „Sprich wie ein Pirat“ Bewertung. Du gibst buchstäblich an, dass der Agent in Piratenslang antworten muss – „Ahoy“, „Kamerad“, nautische Ausdrücke – und die benutzerdefinierte Bewertung überprüft jede Antwort. Wenn der Output sich eher wie LinkedIn als wie Blackbeard anhört, schlägt die Bewertung fehl und wird protokolliert.

Dieser Piratenwitz hat scharfe Kanten. Tauschen Sie das Thema aus und Sie erhalten ein ernstes Unternehmensmuster: einen Markenstimmen über alle kundenorientierten Agenten hinweg durchsetzen. Ein Einzelhändler kann freundliche, prägnante, emojisfreie Antworten verlangen; eine Bank kann einen formellen Ton, vorsichtige Formulierungen und explizite Risikohinweise verlangen. Eine individuelle Bewertung bewertet jede Antwort nach diesen Regeln und speist diese Daten in Dashboards und Warnungen ein.

Komplexere Anwendungsfälle gehen über den Ton hinaus. Ein Gesundheitsagent könnte Folgendes benötigen: - Ein mehrstufiges Triage-Verfahren durchlaufen - Bestimmte regulatorische Hinweise hervorheben - Unter definierten Risikobedingungen an einen Menschen eskalieren

Eine maßgeschneiderte Auswertung kann reale Gespräche wiedergeben, jeden Schritt verifizieren und eine Bestehen/Nichtbestehen-Bewertung hinsichtlich der Einhaltung von Arbeitsabläufen vornehmen, nicht nur hinsichtlich der „Hilfsbereitschaft“. So können Teams aufhören zu raten, ob ein Agent sicher für den Einsatz bei Patienten, Händlern oder Außendiensttechnikern ist.

All dies wird direkt in Amazon CloudWatch integriert. Standardmetriken wie Latenz und Fehlerrate stehen neben benutzerdefinierten Werten für Korrektheit, Workflow-Compliance oder Piratensprache auf einer einzigen Zeitleiste. Ingenieur-, Rechts- und Marketingteams können sich dieselben Grafiken ansehen, und wenn etwas abweicht, können sie es über die AgentCore-Protokolle und die in Introducing Amazon Bedrock AgentCore - AWS Blog beschriebenen Richtlinien zurückverfolgen.

Der Agent, der aus seinen Fehlern lernt

Episodisches Gedächtnis verwandelt AgentCore von einem cleveren Chatbot-Router in etwas, das näher an einem institutionellen Gehirn ist. Anstatt jede Anfrage als einmalige Transaktion zu behandeln, können Agenten jetzt Erfahrungen speichern und abrufen: was sie versucht haben, welche Tools sie verwendet haben, was funktionierte und was schiefging.

Traditionelle Unternehmensagenten verhalten sich wie Goldfische. Sie beantworten ein Ticket, rufen eine API auf, schließen den Kreis und vergessen alles, sobald die Antwort gesendet wird. Episodisches Gedächtnis verändert dieses Modell und bietet AgentCore ein dauerhaftes, abfragbares Protokoll des Agentenverhaltens über die Zeit.

Entscheidend ist, dass dieses Gedächtnis global und nicht persönlich ist. Es hängt nicht an einem einzelnen Chatverlauf eines Nutzers oder einer spezifischen Sitzungs-ID. Wenn ein Agent die richtigen Schritte zur Behebung eines lästigen S3-Berechtigungsfehlers herausfindet, werden diese Schritte Teil des gemeinsamen Gedächtnisses, auf das jede zukünftige Instanz dieses Agents zurückgreifen kann.

Diese Verbreitung verändert die Denkweise von Organisationen bezüglich "Training". Anstatt Modelle neu zu trainieren oder Eingabeaufforderungen jedes Mal umzuschreiben, wenn ein neuer Grenzfall auftaucht, protokolliert der Agent die Episode, erfasst den Kontext, kennzeichnet das Ergebnis als Erfolg oder Misserfolg und nutzt es wieder. Eine Support-Interaktion im Januar kann stillschweigend tausende ähnlicher Fälle im März verbessern.

Mustererkennung wird zur entscheidenden Funktion. Mit ausreichend erfassten Episoden können Agenten anfangen zu erkennen, dass: - 80 % der fehlgeschlagenen Bestellabfragen auf eine einzelne Legacy-API zurückzuführen sind - Bestimmte Tools konsequent bei bestimmten Lastmustern ausfallen - Eine bestimmte Richtlinienregel unnötige Ablehnungen für sichere Anfragen auslöst

Diese Muster fließen zurück in die Entscheidungsfindung. Der Agent kann vorausschauend instabile Werkzeuge vermeiden, risikoreiche Abläufe schneller eskalieren oder sicherere Wege wählen, wenn frühere Versuche zu Verstößen gegen die Richtlinien führten. Im Laufe der Zeit verhält sich der Agent weniger wie eine zustandslose Funktion und mehr wie ein kontinuierlich verbesserndes Betriebs-Handbuch.

Da Bewertungen im gleichen Ausführungspfad liegen, kann AgentCore jede Episode bewerten und das Ergebnis zusammen mit dem Gedächtnis speichern. Das schließt den Kreis: Die Policy beschränkt das Verhalten, die Bewertungen beurteilen die Ergebnisse, und das episodische Gedächtnis sorgt dafür, dass jede mühsam erlernte Lektion während des gesamten Einsatzes bestehen bleibt.

Die Verbindung von Erinnerung zu messbarer Verbesserung

Illustration: Verbindung von Erinnerung zu messbarer Verbesserung
Illustration: Verbindung von Erinnerung zu messbarer Verbesserung

Das Gedächtnis ist kein Partytrick mehr, sobald es direkt in Evaluierungen integriert wird. AgentCore betrachtet das episodische Gedächtnis nun als eine weitere Datenquelle für seine Qualitätsprüfungen, sodass jede Interaktion in einen engen Feedback-Kreislauf einfließt: handeln, bewerten, lernen, wiederholen. Dieser Kreislauf läuft kontinuierlich und nicht als vierteljährliches MLOps-Wissenschaftsprojekt.

Anstatt einen Agenten nur aufgrund einer einzelnen Antwort zu bewerten, können Auswertungen nun fragen: „Hast du, basierend auf dem, was du letzte Woche gelernt hast, heute tatsächlich besser abgeschnitten?“ AgentCore kann die Leistung bei wiederkehrenden Aufgaben über Episoden hinweg vergleichen: identische Tickets, ähnliche Supportabläufe oder wiederholte Rückerstattungsszenarien. Wenn Genauigkeit, Verzögerung oder Einhaltung der Richtlinien über Dutzende oder Hunderte von Durchläufen hinweg nicht ansteigt, hortet dein „lernender“ Agent einfach nur Protokolle.

Da Gedächtnis erstklassig ist, können Auswertungen langfristige Ziele durchsetzen, nicht nur einmalige Korrektheit. Sie können Ziele definieren wie „Tool-Aufruf-Fehler um 30 % über 500 Episoden reduzieren“ oder „durchschnittliche Bearbeitungszeit für wiederkehrende Kunden um 10 % senken“. Diese Kennzahlen sind direkt mit Geschäftszielen verknüpft, statt mit abstrakten Modellwerten.

Die Beobachtbarkeit wird ebenfalls präziser. Wenn ein Agent einen benutzerdefinierten Bewertungsprozess nicht besteht – einen Preis halluziniert, ein Ticket falsch zuordnet oder interne Daten leaking – können Sie den gesamten Denkprozess nachvollziehen. AgentCore ermöglicht Ihnen, den episodischen Gedächtnisverlauf zu überprüfen: Welche Tools er aufgerufen hat, welche vorherigen Gespräche er wiederverwendet hat, welche Richtlinienentscheidungen er beachtet oder ignoriert hat.

Diese Spur verwandelt die Nachbesprechungen von Vermutungen in Ursachenanalysen. Sie können sehen, ob der Agent: - Aus einem schlechten Beispiel gelernt und den Fehler weitergegeben hat - Ein vorheriges Erfolgsmuster missinterpretiert hat - Eine relevante Erinnerung ausgelassen hat, die seinen Plan hätte ändern sollen

Sobald Sie wissen, welches Gedächtnis es fehlleiten hat, können Sie diese Episode kappen oder umschreiben und dann dasselbe Evaluierungsset erneut ausführen, um die Korrektur zu überprüfen. Der Feedbackkreis schließt sich: das Gedächtnis ändert sich, das Verhalten ändert sich, die Metriken bewegen sich – oder auch nicht, und Sie wissen sofort Bescheid.

Statische KI-Tools verhalten sich wie Formulare: gleiche Eingaben, gleiche Ausgaben, kein Gefühl für die Vergangenheit. Mit episodischem Gedächtnis, das in Echtzeit-Live-Qualitätsbewertungen integriert ist, beginnen Agenten, wie digitale Mitarbeiter zu wirken, die einsteigen, geschult werden und sich verbessern. Richtlinien halten sie innerhalb der Grenzen, Bewertungen bewerten ihre Leistung, und das Gedächtnis gibt ihnen eine Grundlage zum Aufbauen.

Warum "Integriert" "Aufgeschraubt" Übertrifft

Die integrierte Richtlinie, Bewertung und Erinnerung in AgentCore sind nicht nur bequeme Funktionen; sie befinden sich direkt auf dem Ausführungspfad jedes Agentenschrittes. Jeder Toolaufruf, jeder Ressourcenaufruf, jede Antwort wird über dasselbe Gateway geleitet, das die Richtlinien durchsetzt und episodische Erinnerungen aufzeichnet, bevor das Modell jemals auf sensible Daten zugreift.

Diese Architekturwahl ist entscheidend. Da die Richtlinien am Gateway angesiedelt sind, kann AgentCore Tausende von Anfragen pro Sekunde mit Millisekunden-Latenz steuern, anstatt einen langsamen, separaten „Governance-Service“ nachträglich zu integrieren. Die Bewertungen greifen auf dieselben Tiefenprotokolle zu, sodass Qualitätsprüfungen den genauen Kontext erkennen, den der Agent verwendet hat, und nicht eine verlustbehaftete Zusammenfassung.

Die meisten konkurrierenden Frameworks behandeln Sicherheit und Monitoring als Sidecars. Sie verbinden: - Einen separaten Policy-Proxy vor den Tools - Eine separate Evaluierungs-Pipeline in einem Notebook oder CI-Job - Ein separates Protokollierungssystem für die Beobachtbarkeit

Diese Teile geraten oft aus dem Gleichgewicht, übersehen Randfälle oder brechen stillschweigend, wenn jemand ein neues Tool hinzufügt oder einen Prompt ändert.

Das erstklassige Design von AgentCore bedeutet, dass neue Tools und Workflows automatisch die gleichen Richtlinien, Evaluierungen und Speicherverhalten übernehmen. Wenn ein Entwickler eine API oder ein MCP-Tool registriert, wird dies sofort dem bestehenden Richtlinien-Engine und den Evaluierungs-Hooks unterzogen – keine zusätzlichen SDK-Aufrufe, keine benutzerdefinierte Middleware, keine maßgeschneiderten Wrapper pro Team.

Produktionsteams kümmern sich um Fehlerarten, nicht um Demos. Mit AgentCore tauchen eine halluzinierte Rückerstattung, ein Versuch zur Datenexfiltration oder ein fehlerhafter Workflow alle durch denselben Bewertungs- und Nachverfolgungspfad auf, den die Betriebsteams bereits überwachen. Da auch das episodische Gedächtnis in diesem Kernpfad liegt, fließen diese Fehler in das langfristige Verhalten des Agenten zurück, anstatt in Protokollen zu verschwinden.

Im Gegensatz zu gängigen „Bolt-On“-Evaluierungs-Stacks, bei denen Qualitätsprüfungen Stunden später auf stichprobenartig erfassten Protokollen durchgeführt werden, kann es sein, dass eine falsche Entscheidung, die in einem Dashboard angezeigt wird, bereits tausendfach wiederholt wurde. Eine tiefgehende Integration ermöglicht es AgentCore, Evaluierungen kontinuierlich und reaktiv durchzuführen, wodurch Bereitstellungen blockiert oder an Menschen weitergeleitet werden, wenn die Bewertungen sinken.

AWS sagt damit effektiv, dass Leitplanken, Messung und Lernen grundlegende Anforderungen sind und keine plattformunabhängigen Ergänzungen. AgentCore integriert diese Haltung in seine Architektur und stimmt mit dem breiteren re:Invent-Vorstoß in Richtung meinungsstarker, produktionsorientierter KI-Plattformen überein, die in Den wichtigsten Ankündigungen von AWS re:Invent 2025 - AWS Blog hervorgehoben werden.

Der neue Plan für Produktions-KI

Fünfundneunzig Prozent der KI-Piloten in Unternehmen scheitern in der Sandbox, weil niemand sowohl Vertrauen in als auch Kontrolle über das Verhalten der Modelle im großen Maßstab hat. AgentCores Richtlinien, Bewertungen und episodisches Gedächtnis greifen direkt in diesen Fehlerzyklus ein: strenge Leitplanken definieren, auf welche Ressourcen Agenten zugreifen dürfen, Bewertungen überprüfen ihr Verhalten, und das Gedächtnis ermöglicht es ihnen, sich zu verbessern, anstatt die gleichen Fehler ewig zu wiederholen.

Richtlinien verlagern die Governance von Präsentationsfolien in den Ausführungspfad. Klar verständliche Regeln wie „Verbieten von Slack-Nachrichten, es sei denn, der Nutzer hat den entsprechenden Messaging-Rechtsrahmen“ werden in Code umgesetzt, der jeden Toolaufruf über das AgentCore-Gateway in Millisekunden steuert, bei Tausenden von Anfragen pro Sekunde. Automatisierte Logik erkennt Halluzinationen und fragwürdiges Verhalten, bevor dies die Produktionssysteme erreicht.

Evaluierungen verwandeln vage Debatten über „Funktioniert das?“ in Dashboards und Regressionsanalysen. Standardmetriken messen Korrektheit, Sicherheit, die Befolgung von Anweisungen und die Werkzeugwahl, während maßgeschneiderte Evaluierungen branchenspezifische Eigenheiten erfassen – Marken Tonfall, rechtliche Einschränkungen, sogar „Sprich wie ein Pirat“, wenn das wichtig ist – damit Teams Agenten mit derselben Sorgfalt entwickeln können, die sie auch für APIs und Mikrodienste verwenden.

Episodisches Gedächtnis schließt den Kreis. Agenten agieren nicht länger wie Amnesiker; sie tragen Muster von vergangenen Erfolgen und Misserfolgen über Benutzer, Arbeitsabläufe und Umgebungen hinweg weiter, und Bewertungen können direkt messen, ob sich diese Erinnerungen im Laufe der Zeit in höheren Punktzahlen und weniger Vorfällen niederschlagen.

Insgesamt betrachtet wirkt dieses Trio weniger wie eine Funktionserweiterung und mehr wie ein neuer Plan für Produktions-KI. Statt brüchiger Einmal-Bots erhalten Unternehmen ein reguliertes, beobachtbares, selbstverbesserndes Agentennetzwerk, das tatsächlich von einem Pilotprojekt zur unternehmensweiten Einführung übergehen kann.

AgentCore befindet sich nun in der gleichen Kategorie wie Kubernetes oder IAM: unsichtbar, wenn es funktioniert, grundlegend, wenn nicht. Während automatisierte Agenten Tickets, Rechnungen, Sicherheitsprüfungen und Codeänderungen bearbeiten, werden Plat­for­men, die Kontrolle, Messung und Lernen in die Kernlaufzeit integrieren, entscheiden, welche Unternehmen die 95 % überwinden und welche in endlosen „Experimenten“ stecken bleiben.

Häufig gestellte Fragen

Was sind die drei wichtigsten neuen Funktionen in AWS AgentCore?

Die drei wichtigsten Ankündigungen sind die Richtlinie für natürliche sprachbasierte Leitplanken, Bewertungen für kontinuierliche Qualitäts- und Leistungsüberwachung sowie episodisches Gedächtnis für Agenten, um aus vergangenen Interaktionen zu lernen.

Wie gewährleistet die AgentCore-Policy die Sicherheit von KI?

Es wandelt einfache englische Regeln in programmgesteuerten Code um. Diese Richtlinien werden an einem zentralen Gateway in Millisekunden überprüft, bevor ein Agent handeln kann, um unautorisierte oder unsichere Operationen zu verhindern.

Ist AgentCore an ein bestimmtes KI-Modell wie Claude oder Llama gebunden?

Nein, AgentCore ist so entwickelt, dass es modell- und frameworksunabhängig ist. Dies ermöglicht es Unternehmen, Agenten zu erstellen und zu verwalten, die auf jedem zugrunde liegenden großen Sprachmodell basieren, das ihren Bedürfnissen entspricht.

Was unterscheidet die neuen Funktionen von AgentCore von anderen Lösungen?

Das Hauptunterscheidungsmerkmal besteht darin, dass Richtlinien, Bewertungen und Erinnerungen als 'erstklassige Bürger' auf der niedrigsten Ebene des Ausführungswegs des Agenten integriert sind, anstatt nachträglich hinzuzufügt zu werden.

Frequently Asked Questions

Benutzerdefinierte Bewertungen: Ist Ihre KI ein Pirat?
Standardbewertungen bringen Unternehmen nur halbwegs voran. Die wahre Stärke von AgentCore liegt in maßgeschneiderten Bewertungen, bei denen Teams genau festlegen, wie „gut“ für ihre eigenen Agenten aussieht und kontinuierlich dagegen bewerten, nicht nur einmal im Quartal in einem Laborbenchmark. Dieser Wandel verwandelt Bewertungen von einer statischen QA-Checkliste in ein lebendiges Governance-System.
Was sind die drei wichtigsten neuen Funktionen in AWS AgentCore?
Die drei wichtigsten Ankündigungen sind die Richtlinie für natürliche sprachbasierte Leitplanken, Bewertungen für kontinuierliche Qualitäts- und Leistungsüberwachung sowie episodisches Gedächtnis für Agenten, um aus vergangenen Interaktionen zu lernen.
Wie gewährleistet die AgentCore-Policy die Sicherheit von KI?
Es wandelt einfache englische Regeln in programmgesteuerten Code um. Diese Richtlinien werden an einem zentralen Gateway in Millisekunden überprüft, bevor ein Agent handeln kann, um unautorisierte oder unsichere Operationen zu verhindern.
Ist AgentCore an ein bestimmtes KI-Modell wie Claude oder Llama gebunden?
Nein, AgentCore ist so entwickelt, dass es modell- und frameworksunabhängig ist. Dies ermöglicht es Unternehmen, Agenten zu erstellen und zu verwalten, die auf jedem zugrunde liegenden großen Sprachmodell basieren, das ihren Bedürfnissen entspricht.
Was unterscheidet die neuen Funktionen von AgentCore von anderen Lösungen?
Das Hauptunterscheidungsmerkmal besteht darin, dass Richtlinien, Bewertungen und Erinnerungen als 'erstklassige Bürger' auf der niedrigsten Ebene des Ausführungswegs des Agenten integriert sind, anstatt nachträglich hinzuzufügt zu werden.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts