LiveKit Agent Builder: Der No-Code-Weg zu Full-Code Voice AI

💡

TL;DR / Key Takeaways

No-Code-Sprach-KI-Plattformen versprechen Geschwindigkeit, halten Sie jedoch in einem geschlossenen System gefangen. Ein neues Tool von LiveKit bietet eine radikale Alternative: Entwickeln Sie im Browser, exportieren Sie dann den Code und besitzen Sie Ihren Stack für immer.

Die Voice AI Falle: Geschwindigkeit vs. Kontrolle

Voice-AI-Entwickler stehen vor einem klaren Dilemma: Schnell vorankommen mit No-Code-Tools wie VAPI oder Retell, oder sich mit SDKs und Infrastruktur herumschlagen, um echte Kontrolle zu haben. Browserbasierte Orchestrierungsschichten versprechen „keine Einrichtung, keine Server“, aber sie bestimmen auch über Ihre Modelle, das Routing und sogar, wie Ihr Agent denkt. Sie erhalten in einem Nachmittag eine funktionierende Demo, verbringen dann jedoch Monate damit, gegen den Rahmen zu kämpfen, in dem Sie begonnen haben.

No-Code-Sprachplattformen funktionieren als ausgeklügelte geschlossene Systeme. Sie verbinden eine Systemaufforderung, wählen eine Stimme, aktivieren vielleicht eine CRM-Integration und starten. Aber die tiefere Logik – Abwechslung im Gespräch, Überlappungsverhalten, Fehlerbehebung, Latenzausgleich zwischen LLMs und TTS – bleibt hinter dem Produktfahrplan eines anderen verschlossen.

Diese Leitplanken haben feste Grenzen. Möchten Sie Gemini Flash zum Routing mit einem internen RAG-Stack mischen oder Deepgram Nova-3 während eines Anrufs durch ein benutzerdefiniertes Sprachmodell ersetzen? Bei vielen No-Code-Stacks ist das einfach nicht möglich. Sie übernehmen ihre Standard-Pipeline, ihre Observability-Tools, ihr Abrechnungsmodell und die Einschränkungen bezüglich der Werkzeuge, der Kontextgröße und der Datenaufbewahrung.

Der Vendor-Lock-in verschärft das Problem. Das Migrieren eines ausgereiften Agenten von einer geschlossenen Plattform bedeutet, dass Prompts neu geschrieben, Werkzeuge neu aufgebaut und Telefond flows erneut implementiert werden müssen, oft unter Druck von echten Kunden. Ihre Anrufaufzeichnungen, Analysen und fein abgestimmten Verhaltensweisen leben auf der Infrastruktur eines anderen, ohne einen „In Code exportieren“-Button, wenn Sie die grafische Benutzeroberfläche hinter sich lassen.

Code-first-Frameworks kehren die Gleichung um. LiveKit’s Agents SDK bietet Ihnen direkten Zugriff auf Medienströme, Modellauswahl und benutzerdefinierte Workflows über WebRTC und Telefonie, erfordert jedoch Fachkenntnisse in Python oder Node sowie eine Toleranz für Cloud-Operationen. Sie gewinnen präzise Kontrolle über jedes Token und Paket, allerdings auf Kosten einer langsameren Iteration und einer steileren Einarbeitung.

Ein glaubwürdiger dritter Weg beginnt sich abzuzeichnen: GUIs, die ausdrücklich einen Weg zum Code darstellen, nicht ein Ziel. Der browserbasierte Agenten-Builder von LiveKit, der im Leitfaden von Jonas Massie aus dem Jahr 2026 hervorgehoben wird, ermöglicht es Ihnen, in einer panelbasierten Benutzeroberfläche zu prototypisieren – Eingabeaufforderungen, Modelle, HTTP-Tools, Telefonnummern – und dann den gesamten Agenten als echten Code zu exportieren. Schnell einführbare No-Code-Lösungen, langfristige Eigentümerschaft durch Design.

Der Dritte Weg: LiveKit's 'Agent Builder'

Voice-AI-Entwickler, die zwischen starren No-Code-Tools und schwergewichtigen SDKs feststecken, haben jetzt eine dritte Option: Agent Builder, das browserbasierte Steuerungspanel von LiveKit für echte Sprachagenten. Anstatt Server bereitzustellen oder mit WebRTC zu kämpfen, öffnest du einen Tab auf cloud.livekit.io und erstellst, testest und implementierst direkt auf LiveKit Cloud, einschließlich auf eine echte Telefonnummer. Keine lokale Entwicklungsumgebung, kein Docker, kein YAML-Chaos.

Agent Builder sieht aus wie ein bekanntes Orchestrierungs-Dashboard – denken Sie an ElevenLabs oder VAPI – aber im Hintergrund konfigurieren Sie einen erstklassigen LiveKit Agent. Ab dem ersten Testanruf läuft Ihr Bot auf der produktionsreifen Sprachpipeline von LiveKit: Streaming von STT, latenzarme TTS, Barge-in-Verarbeitung und Telefonrouting. Sie wählen Modelle für Text-zu-Sprache, LLM und Sprache-zu-Text, aber LiveKit kümmert sich um die Jitter-Puffer und Medienserver.

Jeder Agent beginnt mit einem Systemprompt, der Verhalten, Ton und Richtlinien definiert. Anschließend richten Sie den Sprachstack in wenigen Klicks ein: Wählen Sie eine 11Labs-Stimme wie „Jessica“, tauschen Sie das LLM gegen Gemini Flash für Geschwindigkeit aus und stellen Sie Deepgram Nova 3 für die Transkription ein. Das Ergebnis verhält sich wie ein seriöser Kontaktcenter-Agent und nicht wie ein Demowidget.

Tools verwandeln den Agenten von einem Redner zu einem Betreiber. Im Browser definieren Sie HTTP-Aktionen—Name, Beschreibung, Methode, URL, Header, Body—und der Agent kann externe APIs oder Automatisierungsplattformen wie n8n ansprechen. Damit sind Muster wie Kalenderbuchungen, CRM-Abfragen oder Statusüberprüfungen von Bestellungen möglich, ohne das SDK zu berühren.

Entscheidend ist, dass Agent Builder nicht vorgibt, das LiveKit Agents-Framework zu ersetzen. Es lässt erweiterte Funktionen wie Workflows, Übergaben, Aufgaben, virtuelle Avatare, Vision, Echtzeit-Modell-Plugins und Test-Suiten weg. Wenn Sie auf diese Grenzen stoßen, exportiert eine Schaltfläche „Code herunterladen“ Ihre Konfiguration als Codebasis, die Sie in Python oder Node erweitern können.

Zielgruppen befinden sich genau zwischen Bubble-Draggern und Full-Stack-Medientechnikern. Agent Builder richtet sich an Entwickler und Gründer, die aus geschlossenen „Voice SaaS“-Silos aussteigen möchten, jedoch noch nicht bereit sind, ihre eigene Signalisierungsschicht zu entwerfen. Heute erhalten Sie eine Browser-Benutzeroberfläche und morgen eine klare Vorlage für das SDK.

Warum 'Pathway to Code' ein entscheidender Wandel ist

Voice AI-Bauer zwingen normalerweise zu einer Wahl: für immer in einer glänzenden No-Code-Box bleiben oder die gesamte Arbeit wegwerfen und alles neu in Code erstellen. Agent Builder kehrt dieses Skript um. Seine Kernphilosophie ist „Weg zur Codierung“ – ein Ort, um schnell zu starten und dann zu einem vollständigen LiveKit Agents-Projekt überzugehen, ohne ein einziges Prompt oder Tool neu schreiben zu müssen.

Im Zentrum dieser Philosophie steht eine scheinbar einfache Steuerung: Download-Code. Ein Klick in der Benutzeroberfläche des Agent Builder erzeugt ein komplettes, menschenlesbares Projekt in Python oder Node.js, das mit dem Standard-LiveKit-Agents-Framework verbunden ist. Sie erhalten keinen Spielzeug-Export; Sie bekommen die gleiche Struktur, die ein erfahrener Ingenieur von Hand erstellen würde.

Das generierte Repository enthält die Agenten-Definition, Systemaufforderungen, Modelloptionen, HTTP-Tools und Telefonverdrahtung. Sie können es in VS Code öffnen, `npm install` oder `pip install` ausführen und sofort beginnen, Verhalten, Werkzeuge und Routing anzupassen. Von dort aus läuft der Agent wie jeder andere LiveKit-Agent auf LiveKit Cloud oder Ihrer eigenen Infrastruktur.

Wettbewerber wie VAPI und Retell halten die eigentliche Logik hinter ihren APIs und proprietären UIs versteckt. Sie können Eingabeaufforderungen oder Abläufe anpassen, aber die Orchestrierungs-Engine bleibt eine Black Box. Wenn Sie deren Funktionalität übersteigen, bleibt Ihnen nur die schmerzhafte Migration, bei der Sie jedes Tool neu spezifizieren, Anrufabläufe neu aufbauen und subtile Verhaltensänderungen debuggen müssen.

Der Ansatz von LiveKit ähnelt viel mehr modernen Entwickler-Tools als einer SaaS-Abhängigkeit. Sobald Sie auf Code herunterladen klicken, können Sie das Projekt in GitHub importieren, Pull-Requests einrichten und Unit- oder Integrationstests für kritische Aufrufpfade hinzufügen. CI-Pipelines können simulierte Gespräche führen, die Antworten des Tools validieren und Rückschritte erkennen, bevor ein einziger Kunde anruft.

Diese Mobilität verändert auch, wie Teams ihren Fahrplan strukturieren. Nicht-technische Produktmitarbeiter können im Agent Builder Prototypen erstellen, einen Proof-of-Concept-Agenten an eine echte Telefonnummer senden und Gesprächsaufzeichnungen sowie Analysen sammeln. Wenn die Idee sich bewährt, übernehmen die Entwickler das exportierte Projekt und fügen fortgeschrittene Workflows, maßgeschneiderte Tools und die Koordination mehrerer Agenten hinzu.

Da der Export auf das Standard-LiveKit-Agents-Framework abzielt, sind Sie auch nicht für immer an LiveKit Cloud gebunden. Sie können es vor Ort, in Ihrem eigenen Kubernetes-Cluster oder neben bestehenden Mikrodiensten bereitstellen. Die Dokumentation für den gesamten Ablauf vom Browser-Prototyp zur Code-first-Bereitstellung finden Sie in Agent Builder – LiveKit-Dokumentation, und sie liest sich eher wie ein Migrationshandbuch als eine Marketingseite.

Voice-AI-Entwickler bieten selten eine elegante Ausstiegsmöglichkeit. LiveKit integriert diesen Ausstieg bereits in den ersten Schritt.

Ihr erster Agent in 10 Minuten

Zehn Minuten im Agent Builder bringen Sie von einem leeren Bildschirm zu einem funktionierenden Sprachagenten. Sie beginnen im Hauptbereich Anleitungen, der effektiv den Systemprompt für den Agenten darstellt. Hier definieren Sie die Identität („Sie sind ein freundlicher, aber effizienter Terminkalender“), Ziele (Meetings buchen, häufige Fragen beantworten, Ausnahmen eskalieren) und feste Ausgaberegeln, einschließlich der Formatierung von Daten, der Bestätigung von Aktionen oder der Übergabe an Werkzeuge.

Diese Anweisungen verankern das Verhalten des Agents für jede Gesprächsrunde. Sie können spezifische Werkzeuge erwähnen, die Sie später hinzufügen werden („verwenden Sie die Kalender-API, um die Verfügbarkeit zu prüfen, bevor Sie bestätigen“). Auch die Richtlinien sind hier zu finden: Themen, die vermieden werden sollten, maximale Gesprächsdauer und wann man einen Anruf anständig beenden sollte, anstatt endlos in einer Schleife zu bleiben.

Als Nächstes schließen Sie den Kern Voice AI Stack im Bereich Modelle & Stimmen an. Der Agenten-Builder bietet drei Schichten, die für Echtzeitgespräche wichtig sind: - Text-to-Speech: ElevenLabs, Cartisia sowie modell-spezifische Stimmen wie Jessica - LLM: Gemini Flash für latenzarme Antworten oder GPT-Familienmodelle für reichhaltigeres Denken - Speech-to-Text: Deepgram Nova-Modelle für schnelle, genaue Transkription

Sie können Anbieter nach Belieben mischen, da LiveKit modellunabhängig bleibt. Eine gängige Konfiguration im Video: ElevenLabs für die Synthese, Gemini Flash als LLM und Deepgram Nova 3 für die Transkription, auf Geschwindigkeit optimiert, damit der Agent die Worte des Anrufers nicht überlappt.

Bevor irgendetwas mit einer Telefonnummer in Berührung kommt, führst du einen Stresstest des Agents im Browser durch. Der Agent Builder wird mit einer WebRTC-Vorschau ausgeliefert, die eine live Audio-Sitzung gegen dasselbe Produktionspipeline auf LiveKit Cloud aufsetzt. Du sprichst über dein Mikrofon mit dem Agenten, hörst die ausgewählte Stimme in Echtzeit und siehst, wie Transkriptionen und LLM-Ausgaben einströmen.

Dieser Feedback-Zyklus dauert Sekunden, nicht Deployment. Ändern Sie einen Satz im System-Prompt, tauschen Sie Gemini Flash gegen eine GPT-Variante aus oder wechseln Sie die ElevenLabs-Stimme, und rufen Sie dann sofort den Agenten erneut auf, um den Unterschied zu spüren.

Ihren Agenten mit der realen Welt verbinden

Sprachassistenten wirken nur dann intelligent, wenn sie tatsächlich etwas tun können, und im Agent Builder findet sich diese Fähigkeit unter Aktionen. Dieses Fenster verwandelt Ihr sonst gesprächiges Modell in einen Operator, der über konfigurierbare HTTP-Aufrufe auf echte APIs zugreifen kann, ohne dass SDK-Verkabelung oder Servereinrichtung erforderlich sind. Sie definieren die Werkzeuge einmal, und der Agent kann sie bei Bedarf während des Gesprächs einsetzen.

Der HTTP-Tool-Workflow von Agent Builder spiegelt einen minimalen API-Client wider. Sie geben dem Tool einen Namen und eine Beschreibung, wählen eine Methode (GET, POST usw.), fügen die URL ein und können optional Abfrageparameter, Header oder einen JSON-Körper hinzufügen. Im Hintergrund übernimmt LiveKit den Aufruf und gibt das Ergebnis an das Modell zurück.

Jonas Massies Demo nutzt dies, um den Agenten in einen n8n-Workflow einzubinden, der einen Kalender überprüft. Das Tool ruft eine n8n-Webhook-URL auf, überträgt Details wie Datum oder Anruferinformationen, und n8n erledigt die Hauptarbeit mit Google Kalender oder jedem anderen Backend, das Sie bevorzugen. Der Agent präsentiert dann die Antwort auf gesprächige Weise: „Sie sind am Donnerstag um 15 Uhr verfügbar; soll ich das für Sie buchen?“

Dieses Muster lässt sich weit über die Terminplanung hinaus skalieren. Mit ein paar weiteren HTTP-Tools kann ein einzelner Sprachagent: - Einen Kunden in HubSpot oder Salesforce anhand der Anrufer-ID suchen - Den Bestellstatus über eine benutzerdefinierte E-Commerce-API überprüfen - Jedes Gesprächsprotokoll in einem Postgres-gestützten Webhook protokollieren - Ein Support-Ticket in Zendesk oder Linear auslösen

Entscheidend ist, dass die Antworten der Werkzeuge nicht einfach roh zurückgegeben werden. LiveKit speist die HTTP-Antwort automatisch in den LLM-Kontext, sodass der Agent mehrere Aufrufe zusammenfassen, vergleichen oder verknüpfen kann. Fragen Sie nach „meinen letzten zwei Bestellungen“, und das Modell kann über strukturiertes JSON von zwei verschiedenen Endpunkten nachdenken, bevor es antwortet.

Da Tools in derselben Konfiguration wie der Systemprompt leben, können Sie genau festlegen, wann und wie sie ausgelöst werden. Sie könnten dem Agenten anweisen, die CRM-Abfrage nur einmal pro Anruf durchzuführen oder nach jedem Abschied an ein Analyse-Webhooks zu protokollieren. Dieses Verhalten wird beim Klicken auf "Code herunterladen" sauber exportiert, sodass Ihre HTTP-Tools echte Funktionen im LiveKit Agents-Framework werden.

Was als ein No-Code-Aktionenpanel beginnt, entwickelt sich zu einer Brücke zur Full-Stack-Integration. Heute prototypisieren Sie gegen n8n oder einfache Webhooks, um später diese URLs durch Produktions-Microservices zu ersetzen, ohne die Sprachschicht neu zu trainieren oder aufzubauen.

Von Browser-Test zu echtem Anruf

Von einem Browser-Tab zu einem klingelnden Handset, verwandelt LiveKit, was einst ein Wochenendprojekt war, in ein Experiment für die Kaffeepause. Der Agent Builder läuft direkt auf LiveKit Cloud, sodass die gleiche Infrastruktur, die WebRTC-Sitzungen verwaltet, auch die Telefonie, Protokollierung und Skalierung für Ihren Sprachagenten ermöglicht. Sie sprechen nicht mit einer Sandbox; Sie verbinden sich mit dem produktiven Sprach-Stack.

Die Telephonie ist im Cloud-UI zusammen mit den Agenten integriert und nicht als separate Anbieterintegration. Im Panel „Telefonnummern“ können Sie in essentially zwei Klicks eine US-Nummer kaufen: Wählen Sie ein Land und eine Region, bestätigen Sie die Preise, und die Nummer ist aktiv in Ihrem Konto. Kein Twilio-Console, kein SIP-Trunk-Suchspiel, keine Umgebungsvariablen.

Sobald eine Nummer existiert, verwandeln Dispatch-Regeln sie in einen Einstiegspunkt für jeden Agenten, den Sie im Browser erstellt haben. Eine Regel ordnet eingehende Anrufe auf dieser Telefonnummer einer bestimmten Agenten-Konfiguration im Agent Builder zu, sodass jeder Anruf sofort den richtigen LiveKit-Agenten aktiviert. Ändern Sie den zugewiesenen Agenten, und die Weiterleitung wird ohne Codeänderungen oder Neudepotierungen aktualisiert.

Die Konfiguration liest sich eher wie Verkabelung als wie Programmierung. Sie wählen aus: - Die Telefonnummer, die Sie gerade gekauft haben - Den Zielagenten aus Ihrer Agent Builder-Liste - Optionale Filter wie Anrufrichtung oder SIP-Trunk

Nach dem Speichern landet jeder eingehende Anruf an dieser Nummer auf Ihrem browserbasierten Agenten, der bereits mit seinem LLM, TTS, STT und der Aktions-Stack konfiguriert ist. Wenn Ihre Anweisungen ihm sagen, Meetings über ein n8n HTTP-Tool zu buchen, können Anrufer Minuten nachdem Sie die Eingabe abgeschlossen haben, Termine auf einer echten Leitung vereinbaren.

Der Effekt zeigt sich darin, wie schnell Teams von der Idee zur Produktion übergehen können. Ein Gründer kann ein Systemprompt entwerfen, ein Gemini Flash-Modell auswählen, eine Stimme von 11 Labs einfügen, eine Kalenderaktion hinzufügen und eine US-Nummer binden – alles noch vor dem Mittagessen. Für eine tiefere Analyse, wie dieser „Weg zum Code“ in den umfassenderen Agents-Rahmen passt, erläutert LiveKit in ihrem eigenen Blogbeitrag Agent Builder Ankündigung: Ein Weg zum Code – LiveKit Blog die Philosophie und Architektur hinter diesen Ein-Sitzungs-Deployments.

Der Zauberknopf: Entschlüsselung des exportierten Codes

Das Klicken auf Code herunterladen ist der Moment, in dem Agent Builder die No-Code-Vorstellung fallenlässt. Sie erhalten eine Zip-Datei, die ein komplettes, ausführbares Projekt enthält, das mit LiveKit Cloud verbunden ist, und kein halbgares Gerüst. Entpacken Sie es und Ihnen kommt ein Einstiegsskript, eine Umgebungs-Konfiguration und ein kleines, aber bestimmtes Layout entgegen, das jede Entscheidung widerspiegelt, die Sie im Browser getroffen haben.

Im Inneren basiert die generierte App auf dem LiveKit Agents-Framework. Sie werden eine Agentendefinition sehen, die Ihr System-Prompt, den Modellstapel und die Telefonie-Routierung einbezieht und alles dann mit dem Echtzeit-Medienpipeline von LiveKit registriert. Der gleiche Voicestack, den Sie in der Benutzeroberfläche zusammengeklickt haben — STT, LLM, TTS — existiert nun als explizite Konfiguration anstelle von versteckten Schaltern.

Aktionen aus dem Browser verwandeln sich in konkrete Tool-Definitionen. Jede HTTP-Aktion wird zu einer Funktion oder einem Schemaobjekt, das die Methode, die URL, die Header und die Parameter deklariert und dann als aufrufbares Tool in den Agenten integriert. Wenn das Modell „entscheidet“, einen Kalender zu überprüfen oder n8n zu kontaktieren, ist der exportierte Code das, was tatsächlich diese Anfrage auslöst und die Antwort verarbeitet.

Sie sind nicht an die Voreinstellungen gebunden. Das generierte Projekt dient als Startgrundlage für komplexere Workflows: mehrstufige Anrufabläufe, bedingte Verzweigungen oder Übergaben an menschliche Agenten. Sie können benutzerdefinierte Modelle einfügen, Caching-Schichten hinzufügen oder die Beobachtbarkeit mit Ihrer bevorzugten Protokollierungslösung integrieren.

Von hier an gelten die normalen Regeln der Softwareentwicklung. Fügen Sie das Repository in Ihre vorhandene CI/CD-Pipeline ein, fügen Sie Tests um kritische Werkzeuge hinzu und führen Sie Agenten in Ihrer eigenen Bereitstellungtopologie aus. Der Agent Builder bringt Sie in wenigen Minuten von der Idee zu einem funktionierenden Sprachagenten; der exportierte Code ist der Punkt, an dem sich das Prototyp in ein tatsächliches Produkt verwandelt.

Agent Builder vs. Die geschlossenen Gärten

Illustration: Agent Builder vs. Die geschlossenen Gartenanlagen

Geschlossene Sprachorchestrierungsplattformen wie VAPI, Retell und die Agenten-Tools von ElevenLabs versprechen Geschwindigkeit, belasten dich jedoch leise bei jeder Entscheidung nach dem Start. Du stellst deinen Agenten in ihrer Benutzeroberfläche zusammen, verbindest ein paar Webhooks, und plötzlich lebt die gesamte Produktlogik, Routing und Sprach-UX in einer Black Box eines Dritten. Preise, Funktionsroadmap und sogar grundlegendes Debugging hängen von einem Anbieter ab, den du ohne eine Neuprogrammierung nicht hinter dir lassen kannst.

Agent Builder verändert dieses Machtverhältnis. Sie erhalten weiterhin die vertraute Browser-Oberfläche, um einen Voice-Agenten zu erstellen – mit Systemprompt, Modellauswahl, HTTP-Tools und Telefondiensten – aber alles, was Sie konfigurieren, wird direkt auf LiveKits Open-Source-Agenten-Framework abgebildet. Wenn Sie auf „Code herunterladen“ klicken, exportieren Sie kein JSON-Schema; Sie laden ein ausführbares Projekt herunter, das Ihren Produktionsagenten widerspiegelt.

Geschlossene Plattformen sind darauf ausgelegt, Sie im geschlossenen Garten zu halten. Ihre APIs bieten nur genügend Zugriff, um Integrationen zu ermöglichen, jedoch nicht genug, um sie zu ersetzen. Wenn Sie versuchen, einen komplexen Ablauf mit benutzerdefinierten Werkzeugen und Analysen aus einer gehosteten VAPI- oder Retell-Instanz zu verschieben, stoßen Sie auf eine Mauer aus proprietären Abstraktionen, undokumentierten Verhaltensweisen und fehlender Übereinstimmung zwischen UI-Funktionen und öffentlichen APIs.

Agent Builder betrachtet die Browser-Benutzeroberfläche als eine Bootstrap-Schicht und nicht als Käfig. Der gleiche Agent, den Sie in einem Webanruf testen oder an eine Telefonnummer auf LiveKit Cloud anhängen, kann später in Ihrem eigenen Kubernetes-Cluster, auf On-Premise-Hardware oder in einer ganz anderen Cloud ausgeführt werden, und zwar mit demselben Agents SDK. Sie besitzen den Code, die Anruflogik und die Integrationspunkte ab dem ersten Tag.

Für Teams in regulierten Branchen ist der Ausstieg wichtiger als Bequemlichkeit. Das Selbst-Hosting des vollständigen LiveKit-Stacks – Medienserver, Agents-Runtime und Ihr exportierter Agent-Code – ermöglicht es Ihnen, Audio, Transkripte und Metadaten innerhalb Ihrer eigenen Compliance-Grenzen zu halten und gleichzeitig schnell im Agent Builder zu prototypisieren. Kein geschlossener Anbieter in diesem Bereich bietet einen glaubwürdigen Weg von einer No-Code-Benutzeroberfläche zu einer vollständig selbst gehosteten Parität.

Kurzfristig sehen all diese Werkzeuge ähnlich aus: ein Eingabefeld, ein Dropdown-Menü für das Modell, ein „Testaufruf“-Button. Langfristig richtet sich Agent Builder an Entwickler, die davon ausgehen, dass sie Skalierung erreichen, benutzerdefinierte Weiterleitungen benötigen oder strengen Regeln zur Datenresidenz gegenüberstehen. Anstatt darauf zu hoffen, dass ein geschlossener Systemgarten die benötigte Funktion hinzufügt, steigen Sie auf das zugrunde liegende Framework um und liefern es selbst aus.

Entwickelte Einschränkungen: Was Sie für Geschwindigkeit aufgeben

Geschwindigkeit im Agent Builder kommt mit Einschränkungen. Jonas Massie hebt eine klare Liste von Agents SDK-Funktionen hervor, die einfach nicht in der Browser-Oberfläche auftauchen: keine Workflow-Engine, keine Übergaben, keine Aufgaben, keine virtuellen Avatare, keine Sehkraft, keine Echtzeit-Modell-Plugins und keine automatisierten Tests. Außerdem sehen Sie nur eine ausgewählte Gruppe von Anbietern für Sprache, TTS und LLM, anstatt der „Bring alles mit“-Flexibilität, die Sie im Code erhalten.

Diese Auslassungen sind absichtlich. LiveKit zieht eine klare Grenze: Der Agent Builder ist für eingleisige, lineare Gespräche mit HTTP-Tools und Telefonrouting gedacht, nicht für die Choreografie mehrerer Agenten oder mehrmodale Erfahrungen. Wenn Sie einen Avatar in einem WebRTC-Stream wünschen, der auch Video-Frames verarbeitet, exportieren Sie in Code.

Mehrere fortschrittliche Funktionen sind explizit hinter diesem Export-Button angesiedelt. Komplexe Arbeitsabläufe, wie zum Beispiel: - Mehrstufige Aufgaben mit verzweigter Logik - Übergaben zwischen Bots oder an Menschen - Kanalübergreifende Weiterleitung über grundlegende Dispatch-Regeln hinaus

Alle erfordern das vollständige Agents SDK. Das gilt auch für virtuelle Avatare und Vision-Pipelines, bei denen ein Agent über Video oder Bildschirmfreigabe nachdenkt, sowie für Echtzeit-Modell-Plugins, die benutzerdefinierte RAG-Stacks, proprietäre Modelle oder anbieter-spezifische Streaming-APIs integrieren.

Automatisierte Tests sind ebenfalls nur im SDK verfügbar. Das Test-Framework von LiveKit ermöglicht es Ihnen, synthetische Anrufe zu skripten, Transkripte zu überprüfen und Änderungen vor der Bereitstellung in der Produktion einem Regressionstest zu unterziehen. Nichts davon erscheint in der Benutzeroberfläche des Agenten-Builders, die sich auf manuelle Live-Tests über den Browser und Telefonanrufe konzentriert.

Richtig formuliert sind dies keine fehlenden Funktionen; es sind gestaltete Einschränkungen. LiveKit möchte, dass der Browser schnell, leserlich und sicher bleibt für Teams, die in Eingabeaufforderungen und HTTP-Endpunkten denken, nicht in asyncio und Zustandsmaschinen. Die Benutzeroberfläche übernimmt die 80%: Eingabeaufforderung, Modelle, Werkzeuge, Telefonie und schnelle Iteration.

Die verbleibenden 20 % – die seltsame Routing-Regel, die Avatar-im-Video-Demo, die Compliance-Test-Suite, das proprietäre Modell-Plugin – hier übernimmt das SDK. Der Agent Builder bringt Sie zu einem funktionsfähigen, umsatzgenerierenden Agenten; das Agents-Framework und die Muster in Building Voice Agents – LiveKit Agents Docs zeigen, wie Sie diesen Prototyp in eine maßgeschneiderte Infrastruktur verwandeln können.

Die hybride Zukunft: Ihr KI-Stack im eigenen Besitz

Die Entwicklung von Voice AI muss nicht mehr die Wahl zwischen benutzerfreundlichem Drag-and-Drop und der Rohkraft eines SDK sein. Agent Builder weist auf eine dritte Option hin: Beginnen Sie in einer visuellen, browserbasierten Umgebung und übertragen Sie Ihre Arbeit direkt in einen Codebestand, der Ihnen tatsächlich gehört. Sie erhalten von Anfang an dasselbe zugrunde liegende LiveKit Agents-Framework und nicht einen parallelen „Spielzeug“-Stack.

Professionelle Teams wünschen sich zunehmend einen hybriden Workflow. Sie erstellen schnell Prototypen in einer verwalteten Umgebung, liefern innerhalb von Stunden und nicht in Sprints etwas Reales an die Nutzer aus und übertragen diesen genau definierten Agenten dann in ein Repository, wo er versioniert, erweitert und auditiert werden kann. Der „Code herunterladen“-Button von Agent Builder verwandelt eine No-Code-Konfiguration in ein vollständig lauffähiges Projekt, sodass der verwerfbare Prototyp zu einem Produktionsgerüst wird.

Dieser Workflow ändert die Anreize. Anstatt Agenten neu zu erstellen, wenn Sie ein SaaS-Tool übertreffen, tun Sie Folgendes: - Validieren Sie Eingabeaufforderungen, Stimmen und Anrufabläufe anhand realer Anrufer - Exportieren Sie den Agenten als Python/Node-Code mithilfe des Agents SDK - Integrieren Sie benutzerdefinierte Tools, Beobachtbarkeit und Infrastruktur, die zu Ihrem Tech-Stack passen

Der Ansatz von LiveKit greift leise das Lock-in-Modell hinter Plattformen wie VAPI und Retell an. Sie profitieren weiterhin von der Geschwindigkeit SaaS: gehostetes LiveKit Cloud, vorinstallierte Sprachpipeline, Telefonnummern, Dispatch-Regeln und Webanrufe, die in wenigen Minuten einsatzbereit sind. Doch der langfristige Gewinn ist ein offener, einsehbarer Code, der auf einem Open-Source-Framework läuft, anstatt in einer proprietären Black Box zu stecken.

Das ist wichtig, da Sprachagenten von Experimenten zu umsatzkritischen Systemen übergehen. Unternehmen müssen Datenrichtlinien durchsetzen, sich mit chaotischen internen APIs integrieren und neue Modelle oder TTS-Anbieter austauschen, ohne einen Anbieter um Platz auf der Roadmap zu bitten. Ein hybrider Stack – Agent Builder für Build, SDKs für Skalierung – ermöglicht es Teams, jetzt schnell zu agieren und gleichzeitig jede relevante Ebene selbst zu kontrollieren.

Häufig gestellte Fragen

Was ist der LiveKit Agent Builder?

Es handelt sich um eine browserbasierte Benutzeroberfläche auf LiveKit Cloud, die schnelles Prototyping und Bereitstellen von produktionsbereiten Sprach-KI-Agenten ohne Programmierung ermöglicht und als Einstieg in das vollständige LiveKit Agents SDK fungiert.

Wie unterscheidet sich der Agent Builder von VAPI oder Retell?

Während die anfängliche browserbasierte Erfahrung ähnlich ist, ist das Hauptunterscheidungsmerkmal von Agent Builder die Möglichkeit, den vollständigen Quellcode des Agents zu exportieren. Dies bietet einen 'Weg zum Code' und ermöglicht Entwicklern, der Abhängigkeit von Anbietern zu entkommen und die vollständige Kontrolle über die Logik und Infrastruktur ihres Agents zu gewinnen.

Kann ich jedes LLM oder TTS-Modell mit dem Agent Builder verwenden?

Die Benutzeroberfläche des Browsers bietet eine kuratierte Liste von erstklassigen Modellen (wie ElevenLabs, Deepgram, Gemini), die mit LiveKit Cloud integriert sind. Für vollständige Modellunabhängigkeit und um jedes benutzerdefinierte Modell zu verwenden, müssen Sie den Code exportieren und mit dem LiveKit Agents SDK modifizieren.

Brauche ich einen Server, um einen mit Agent Builder erstellten Agenten bereitzustellen?

Nein. Agenten, die im Browser erstellt und bereitgestellt werden, laufen vollständig auf der verwalteten Infrastruktur von LiveKit Cloud. Das bedeutet, dass Sie von einer Idee zu einem aktiven Agenten mit einer realen Telefonnummer ohne jegliche Servereinrichtung gelangen können.

𝕏 in ↑↗

Frequently Asked Questions

Was ist der LiveKit Agent Builder?

Wie unterscheidet sich der Agent Builder von VAPI oder Retell?

Kann ich jedes LLM oder TTS-Modell mit dem Agent Builder verwenden?

Die Benutzeroberfläche des Browsers bietet eine kuratierte Liste von erstklassigen Modellen , die mit LiveKit Cloud integriert sind. Für vollständige Modellunabhängigkeit und um jedes benutzerdefinierte Modell zu verwenden, müssen Sie den Code exportieren und mit dem LiveKit Agents SDK modifizieren.

Brauche ich einen Server, um einen mit Agent Builder erstellten Agenten bereitzustellen?

Das Voice AI-Tool verrät No-Code

TL;DR / Key Takeaways

Die Voice AI Falle: Geschwindigkeit vs. Kontrolle

Der Dritte Weg: LiveKit's 'Agent Builder'

Warum 'Pathway to Code' ein entscheidender Wandel ist

Ihr erster Agent in 10 Minuten

Ihren Agenten mit der realen Welt verbinden

Von Browser-Test zu echtem Anruf

Der Zauberknopf: Entschlüsselung des exportierten Codes

Agent Builder vs. Die geschlossenen Gärten

Entwickelte Einschränkungen: Was Sie für Geschwindigkeit aufgeben

Die hybride Zukunft: Ihr KI-Stack im eigenen Besitz

Häufig gestellte Fragen

Was ist der LiveKit Agent Builder?

Wie unterscheidet sich der Agent Builder von VAPI oder Retell?

Kann ich jedes LLM oder TTS-Modell mit dem Agent Builder verwenden?

Brauche ich einen Server, um einen mit Agent Builder erstellten Agenten bereitzustellen?

Frequently Asked Questions

Read Next

Anthropic's neuer Agent hat gerade No-Code getötet

Dieses Tool zähmt chaotische AI Agents

Die perfekte Erinnerung der KI ist da

Stay Ahead of the AI Curve