TL;DR / Key Takeaways
ボイスAIの罠:スピードとコントロール
ボイスAIビルダーは、明確なトレードオフに直面しています。「ノーコード」ツールのVAPIやRetellを使って迅速に進めるか、SDKやインフラに苦しんで真の制御を得るかです。ブラウザベースのオーケストレーション層は「セットアップなし、サーバーなし」を約束しますが、同時にあなたのモデル、ルーティング、さらにはエージェントの思考方法まで決定します。午後中に動作するデモは手に入りますが、そこから数ヶ月は最初に始めた箱と戦うことになります。
ノーコード音声プラットフォームは洗練された囲いの中の庭のように機能します。システムプロンプトを接続し、声を選び、CRM統合を有効にして出荷するだけです。しかし、より深いロジック—ターンテイキング、バージン動作、エラー回復、LLMとTTS間のレイテンシトレードオフ—は他社の製品ロードマップの背後にロックされています。
それらのガードレールには厳格な制約があります。社内のRAGスタックとのルーティングのためにGemini Flashを混ぜたり、通話中にDeepgram Nova-3をカスタム音声モデルと入れ替えたりすることはできません。多くのノーコードスタックでは、それができません。あなたは彼らのデフォルトのパイプライン、観測ツール、請求モデル、ツール、コンテキストサイズ、データ保持の制限を引き継ぐことになります。
ベンダーロックインは問題を悪化させます。成熟したエージェントを閉じたプラットフォームから移行するには、プロンプトの書き直し、ツールの再構築、テレフォニーのフローの再実装が必要となり、しばしば実際の顧客からのプレッシャーがかかります。あなたの通話録音、分析、そして微調整された振る舞いは、他者のインフラの上に存在しており、GUIの限界を越えたときに「コードにエクスポート」するボタンはありません。
コードファーストのフレームワークは、状況を逆転させます。LiveKitのAgents SDKは、WebRTCや電話通信にわたるメディアストリーム、モデルの選択、カスタムワークフローに生のアクセスを提供しますが、PythonまたはNodeの専門知識とクラウド操作への耐性を求めます。すべてのトークンとパケットを正確に制御できますが、その代償として、反復が遅くなり、オンボーディングがより大変になります。
信頼できる第三の選択肢が出現し始めています:コードへの道筋として明示されたGUIです。Jonas Massieの2026年ガイドで紹介されたLiveKitのブラウザベースのエージェントビルダーは、パネルベースのUIでプロトタイプを作成し—プロンプト、モデル、HTTPツール、電話番号—全体のエージェントを実際のコードとしてエクスポートできます。迅速なノーコードの導入と、デザインによる長期的な所有権。
第三の選択肢:LiveKitの「エージェントビルダー」
音声AIビルダーは、堅苦しいノーコードツールと重厚なSDKの間で悩んでいますが、今や第3の選択肢があります:エージェントビルダー。これは、LiveKitのブラウザベースのコントロールパネルで、実際の音声エージェントを作成することができます。サーバーを立ち上げたり、WebRTCを扱ったりする代わりに、cloud.livekit.ioでタブを開き、直接LiveKit Cloudに構築、テスト、デプロイできます。実際の電話番号への対応も可能です。ローカルの開発環境、Docker、YAMLの広がりは不要です。
エージェントビルダーは、ElevenLabsやVAPIを思わせるお馴染みのオーケストレーションダッシュボードですが、その背後では一流のLiveKitエージェントを設定しています。最初のテストコールから、あなたのボットはLiveKitの商用グレードの音声パイプラインで稼働します:ストリーミングSTT、低遅延TTS、バージイン処理、そして電話ルーティング。テキスト音声変換、LLM、音声テキスト変換のためのモデルを選択しますが、ジッターバッファやメディアサーバーはLiveKitが処理します。
すべてのエージェントは、行動、トーン、及びガードレールを定義するシステムプロンプトから始まります。その後、数回のクリックでボイススタックを接続します:例えば、「ジェシカ」といった11Labsの声を選び、速度のためにLLMをGemini Flashに変更し、トランスクリプションにはDeepgram Nova 3を設定します。その結果、デモウィジェットではなく、真剣なコンタクトセンターエージェントのように振る舞います。
ツールはエージェントを話す人からオペレーターへと変えます。ブラウザ内でHTTPアクションを定義し—名前、説明、メソッド、URL、ヘッダー、ボディ—エージェントは外部APIやn8nのような自動化プラットフォームにアクセスできます。これにより、SDKに触れることなくカレンダー予約、CRM検索、注文状況の確認といったパターンが可能になります。
重要なことは、Agent BuilderがLiveKit Agentsフレームワークの代わりになることを装っていないことです。それはワークフロー、引き継ぎ、タスク、バーチャルアバター、ビジョン、リアルタイムモデルプラグイン、テストスイートなどの高度な機能を省略しています。これらの制限に達すると、「コードをダウンロード」ボタンが表示され、設定がPythonまたはNodeで拡張できるコードベースとしてエクスポートされます。
ターゲットユーザーは、バブルドラッガーとフルスタックメディアエンジニアの間に位置しています。エージェントビルダーは、閉じた「ボイスSaaS」サイロから脱却したいが、自分自身のシグナリングレイヤーを設計する準備ができていない開発者や創業者を対象としています。今日、ブラウザUIを手に入れ、明日にはSDKへの明確な道筋を得られます。
「コードへの道」が革命的な理由
ボイスAIビルダーは通常、選択を強いられます:光沢のあるノーコードの箱に永遠に留まるか、その作業を捨ててコードで全てを再構築するか。エージェントビルダーはそのシナリオを覆します。その核となる哲学は「コードへの道筋」であり、迅速にスタートし、その後、一切のプロンプトやツールを書き直すことなく、完全なLiveKitエージェントプロジェクトに進化できる場所です。
その哲学の中心には、一見シンプルなコントロールがあります:ダウンロードコード。エージェントビルダーUIで一度クリックするだけで、標準のLiveKitエージェントフレームワークに接続された完全で人間が読み取れるプロジェクトがPythonまたはNode.jsで出力されます。これはおもちゃのエクスポートではなく、上級エンジニアが手動で構築するのと同じ構造を得ることができます。
生成されたリポジトリには、エージェント定義、システムプロンプト、モデル選択、HTTPツール、および電話回線の配線が含まれています。VS Codeで開き、`npm install`または`pip install`を実行することで、すぐに動作、ツール、およびルーティングをカスタマイズを始めることができます。そこから、エージェントはLiveKit Cloudや独自のインフラストラクチャ上の他のLiveKitエージェントと同様に動作します。
VAPIやRetellのような競合他社は、実際のロジックを彼らのAPIや独自のユーザーインターフェースの裏に隠しています。プロンプトやフローを調整することは可能ですが、オーケストレーションエンジンはブラックボックスのままです。彼らの機能セットを超えてしまった場合、唯一の選択肢は、すべてのツールを再仕様し、コールフローを再構築し、微妙な動作の変化をデバッグするという痛みを伴う移行作業です。
LiveKitのアプローチは、SaaSのロックインよりも現代の開発ツールに近い挙動を示します。コードをダウンロードをクリックすると、プロジェクトをGitHubに投入し、プルリクエストを設定し、重要な呼び出し経路のために単体テストや統合テストを追加できます。CIパイプラインはシミュレーションされた会話を実行し、ツールの応答を検証し、1人の顧客がダイヤルインする前に回帰バグを検出することができます。
そのポータビリティは、チームがロードマップを構成する方法にも変化をもたらします。テクニカルでないプロダクト担当者は、エージェントビルダーを使ってプロトタイプを作成し、実際の電話番号に概念実証エージェントを配信し、通話録音や分析を収集できます。アイデアが実証されると、開発者がエクスポートされたプロジェクトを引き継ぎ、先進的なワークフローやカスタムツール、そしてマルチエージェントの調整を重ねていきます。
エクスポートは標準のLiveKitエージェンツフレームワークを対象としているため、LiveKit Cloudに永遠に縛られることはありません。オンプレミス、自社のKubernetesクラスター、または既存のマイクロサービスと併せて展開できます。ブラウザプロトタイプからコードファーストデプロイメントまでの完全な流れに関するドキュメントはエージェントビルダー – LiveKitドキュメントにあります。これはマーケティングページというよりも、移行ガイドのように読まれます。
ボイスAIビルダーは、優雅な出口を提供することはめったにありません。LiveKitは、その出口を最初のステップに組み込んでいます。
10分であなたの最初のエージェントを取得する
エージェントビルダーで10分を使えば、真っさらな画面から稼働中の音声エージェントに到達できます。始めはメインの指示ペインからスタートし、これはエージェントのシステムプロンプトに相当します。ここでは、エージェントのアイデンティティ(「あなたはフレンドリーかつ効率的なアポイントメントスケジューラーです」)、目標(ミーティングを予約する、よくある質問に答える、複雑なケースをエスカレーションする)および厳格な出力ルール(エージェントが日付をどのようにフォーマットするか、アクションを確認する方法、ツールに引き継ぐ方法など)を定義します。
その指示は、会話の各ターンにおいてエージェントの行動を支えます。後で追加する特定のツールを参照することもできます(「確認前にカレンダーAPIを使用して空き状況を確認する」)。ここにはガードレールも含まれています:避けるべきトピック、最大通話時間、そして永遠にループする代わりに通話を優雅に終了すべきタイミングなどです。
次に、モデルと音声のパネルでコアの音声AIスタックを接続します。エージェントビルダーは、リアルタイム通話に重要な三つのレイヤーを提供します: - テキスト読み上げ:ElevenLabs、Cartisia、そしてジェシカのようなモデル固有の声 - LLM:低遅延の応答用にGemini Flash、またはより豊かな推論のためのGPTファミリーモデル - 音声認識:迅速かつ正確な文字起こしのためのDeepgram Novaモデル
プロバイダーを自由に組み合わせることができるのは、LiveKitがモデルに依存しないためです。ビデオでの一般的なセットアップは、合成にElevenLabs、LLMにGemini Flash、スピードに調整された文字起こしにDeepgram Nova 3を使用しており、エージェントが呼び出し元の言葉を邪魔しないようになっています。
電話番号に何かを近づける前に、ブラウザでエージェントのストレステストを行います。Agent Builderには、LiveKit Cloud上で稼働している同じプロダクションパイプラインに対して、ライブオーディオセッションを作成するWebRTCプレビューが付属しています。マイクを通じてエージェントと会話し、リアルタイムで選択した声を聞き、トランスクリプションやLLMの出力がストリーミングされるのを見ます。
そのフィードバックループは数秒で完了し、デプロイメントを必要としません。システムプロンプトの文を微調整したり、ジェミニフラッシュをGPTバリアントに変更したり、エレベンラボの声を変えたりして、すぐにエージェントを再度呼び出してその違いを実感してください。
エージェントを現実の世界に結びつける
音声エージェントは、実際に何かを実行できるときのみ知的に感じます。そして、Agent Builderではその機能がアクションの下にあります。このパネルは、本来おしゃべりなモデルを実際のAPIを介して構成可能なHTTPコールを通じて操作するエージェントに変えます。SDKの配線やサーバーの設定は不要です。ツールは一度定義すれば、エージェントは会話の途中でそれらを要求に応じて呼び出すことができます。
エージェントビルダーのHTTPツールフローは、ミニマルなAPIクライアントを模倣しています。ツールに名前と説明を付け、メソッド(GET、POSTなど)を選択し、URLを入力し、オプションでクエリパラメータ、ヘッダー、またはJSONボディを追加します。背後では、LiveKitが呼び出しを処理し、結果をモデルに返します。
ジョナス・マッシーのデモでは、これを使用してエージェントをカレンダーをチェックするn8nワークフローに接続します。このツールはn8nのウェブフックURLにアクセスし、日付や呼び出し者情報などの詳細を渡し、n8nがGoogleカレンダーやお好みのバックエンドに対して重い作業を行います。そしてエージェントは会話の中で答えを提示します:「木曜日の午後3時は空いていますが、それを予約しましょうか?」
その同じパターンは、スケジューリングを超えて大きく拡張できます。もう少しHTTPツールを使えば、単一のボイスエージェントが以下のことを実行できます: - 発信者IDを使用してHubSpotまたはSalesforceで顧客を検索 - カスタムeコマースAPIで注文状況を確認 - すべての通話トランスクリプトをPostgresバックのウェブフックに記録 - ZendeskまたはLinearでサポートチケットをトリガー
重要なのは、ツールの応答は生のまま読み返されるだけではないことです。LiveKitはHTTP応答を自動的にLLMコンテキストに取り込み、エージェントが要約や比較、複数の呼び出しを連携させることができるようにします。「私の最後の2つの注文について教えて」と尋ねると、モデルは異なる2つのエンドポイントからの構造化されたJSONをもとに推論して回答することができます。
ツールはシステムプロンプトと同じ設定内にあるため、トリガーのタイミングや方法を厳密にスクリプト化できます。たとえば、エージェントに対して、1回の通話でCRMルックアップを1回だけ実行するように指示したり、毎回の別れの後に分析用ウェブフックにログを記録させたりすることができます。その動作は「コードをダウンロード」をクリックすることでクリーンにエクスポートされるため、HTTPツールはLiveKitエージェントフレームワーク内の実際の関数となります。
ノーコードのアクションパネルから始まるものが、最終的にはフルスタック統合への架け橋となります。今日はn8nやシンプルなウェブフックに対してプロトタイプを作成し、後にそれらのURLを本番環境のマイクロサービスに置き換えても、音声レイヤーを再訓練したり再構築したりする必要はありません。
ブラウザテストからライブ電話通話へ
ブラウザのタブから鳴るハンドセットまで、LiveKitは週末プロジェクトだったものをコーヒーブレイクの実験に縮小します。エージェントビルダーはLiveKit Cloud上で直接動作するため、WebRTCセッションを扱うのと同じインフラがボイスエージェントの電話、ログ記録、スケーリングも支えています。あなたが話しているのはサンドボックスではなく、実稼働のボイススタックに接続しているのです。
テレフォニーは、エージェントと共にCloud UI内で動作し、別のベンダー統合として存在しません。「電話番号」パネルの下で、実質的に2回のクリックでアメリカの番号を購入できます:国と地域を選択し、価格を確認するだけで、その番号があなたのアカウントで即座に利用可能になります。Twilioコンソールも、SIPトランクの調査も、環境変数も不要です。
一度番号が存在すると、ディスパッチルールはそれをブラウザで構築した任意のエージェントへのエントリーポイントに変えます。ルールは、その電話番号への着信を特定のエージェントビルダーの設定にマッピングするため、すべての着信は瞬時に適切なLiveKitエージェントを起動します。割り当てられたエージェントを変更すると、ルーティングはコードのプッシュや再デプロイなしで更新されます。
設定はプログラミングというよりも配線に近いです。以下を選択します: - 取得したばかりの電話番号 - エージェントビルダーリストからのターゲットエージェント - 通話の方向やSIPトランクなどのオプションフィルター
保存後、その番号へのすべての着信は、すでにLLM、TTS、STT、およびアクションスタックが構成されたブラウザベースのエージェントに接続されます。指示がn8nのHTTPツールを介して会議を予約するように指示すれば、発信者はプロンプトを完了した数分後に、実際の回線でアポイントメントを設定することができます。
インパクトは、チームがアイデアからプロダクションに移行するスピードに現れます。創業者は、システムプロンプトをスケッチし、Gemini Flashモデルを選択し、11 Labsの声を接続し、カレンダーのアクションを追加し、アメリカの番号を結び付けることを、昼食前にすべて行うことができます。この「コードへの道筋」が、より広範なエージェントフレームワークにどのように適合するかについての詳細な解説は、LiveKit自身のエージェントビルダー発表: コードへの道筋 – LiveKitブログで、これらのワンセッション展開の背後にある哲学とアーキテクチャを解説しています。
魔法のボタン:エクスポートされたコードの解析
コードをダウンロードをクリックすると、Agent Builderがノーコードの仮面を脱ぎ捨てる瞬間です。あなたはLiveKit Cloudに接続された完全で実行可能なプロジェクトの入ったzipファイルを手に入れます。それは中途半端なスキャフォールドではありません。解凍すると、エントリースクリプト、環境設定、そしてブラウザで行った選択を反映した小さなですが意見のあるレイアウトが目に飛び込んできます。
内部では、生成されたアプリはLiveKitエージェントフレームワークに依存しています。システムプロンプト、モデルスタック、テレフォニーのルーティングを引き込むエージェント定義が表示され、すべてがLiveKitのリアルタイムメディアパイプラインに登録されます。UIで組み合わせた同じ音声スタック — STT、LLM、TTS — は、隠されたトグルではなく明示的な設定として存在しています。
ブラウザの操作は具体的なツール定義に変わります。各HTTP操作は、メソッド、URL、ヘッダー、およびパラメーターを宣言する関数またはスキーマオブジェクトとなり、呼び出し可能なツールとしてエージェントに接続されます。モデルがカレンダーを確認したりn8nにアクセスすることを「決定」すると、エクスポートされたコードが実際にそのリクエストを実行し、レスポンスを解析します。
デフォルトに縛られる必要はありません。生成されたプロジェクトは、より重いワークフローのための出発点として機能します:複数段階の呼び出しフロー、条件付き分岐、または人間のエージェントへの引き渡しです。カスタムモデルを入れ替えたり、キャッシングレイヤーを追加したり、お好みのログスタックを使用して可視性を組み込んだりできます。
ここからは、通常のソフトウェアエンジニアリングのルールが適用されます。リポジトリを既存のCI/CDパイプラインに追加し、重要なツール周辺にテストを追加し、自分のデプロイメントトポロジーでエージェントを実行してください。エージェントビルダーを使用すれば、アイデアから数分で実働する音声エージェントに到達できます。エクスポートされたコードが、そのプロトタイプを実際の製品に変える場所です。
エージェントビルダー対ウォールドガーデン
VAPI、Retell、および ElevenLabs のエージェントツールのようなクローズドボイスオーケストレーションプラットフォームはスピードを約束しますが、ローンチ後のあらゆる決定に静かにコストを課します。あなたは彼らのUI内でエージェントを組み立て、いくつかのWebhookを接続し、気づけばあなたの製品ロジック、ルーティング、そして音声UXが他人のブラックボックスの中に存在することになります。価格、機能ロードマップ、さらには基本的なデバッグさえも、再構築なしに成長できないベンダーに依存しています。
エージェントビルダーはその力のダイナミクスを flip します。音声エージェントの構築に必要な馴染みのあるブラウザキャンバス—システムプロンプト、モデル選択、HTTPツール、テレフォニー—はそのままに、設定した内容はすべてLiveKitのオープンソースエージェントフレームワークに直接マッピングされます。「コードをダウンロード」をクリックすると、JSONスキーマをエクスポートするのではなく、生産エージェントを反映した実行可能なプロジェクトを取得します。
クローズドプラットフォームは、ユーザーをその庭の中に留めておくよう最適化されています。彼らのAPIは統合するために十分に公開されていますが、置き換えるには不十分です。ホステッドVAPIやRetellインスタンスからカスタムツールや分析を使って複雑なコールフローを移動しようとすると、独自の抽象化、文書化されていない動作、UI機能と公開APIの間に存在するパリティの欠如という壁にぶつかります。
エージェントビルダーは、ブラウザUIをブートストラップレイヤーとして捉え、拘束するものではありません。ウェブコールでテストするエージェントや、LiveKit Cloudの電話番号に接続するエージェントは、後に自分のKubernetesクラスターやオンプレミスのハードウェア、あるいはまったく異なるクラウド上でも、同じAgents SDKを使用して実行できます。コード、コールロジック、そして統合ポイントは初日からあなたのものです。
規制された業界のチームにとって、その退出ハッチは便利さよりも重要です。フルLiveKitスタック(メディアサーバー、エージェントランタイム、およびエクスポートされたエージェントコード)を自社ホスティングすることで、音声、 transcripts、およびメタデータを自社のコンプライアンス境界内に保ちながら、エージェントビルダーで迅速にプロトタイピングを行うことができます。この分野でクローズドベンダーが提供するのは、ノーコードUIから完全な自社ホスティングの対等性への信頼できる道ではありません。
短期的には、これらのツールはすべて似たようなものに見えます:プロンプトボックス、モデルのドロップダウン、「テストコール」ボタン。長期的には、エージェントビルダーは、スケールに達することを前提としているビルダーや、カスタムルーティングが必要なビルダー、厳しいデータ居住地規則に直面しているビルダーを対象としています。必要な機能が追加されるのを待つのではなく、基盤となるフレームワークに移行し、自分自身で発送します。
設計された制約:スピードのためにあなたが手放すもの
エージェントビルダーのスピードにはガードレールがあります。ジョナス・マッシーは、ブラウザのUIには出現しない明確なエージェントSDKの機能リストを指摘しています:ワークフローエンジンなし、ハンドオフなし、タスクなし、バーチャルアバターなし、ビジョンなし、リアルタイムモデルプラグインなし、そして自動テストなしです。また、コードで得られる「何でも持ち込む」柔軟性の代わりに、音声、TTS、およびLLMプロバイダーのキュレートされたセットしか表示されません。
その omissions は意図的です。LiveKit は明確な境界を設けています: Agent Builder は 単一エージェントの線形会話 に HTTP ツールと電話ルーティングを使用するためのものであり、マルチエージェントの調和やマルチモーダル体験のためのものではありません。WebRTC ストリーム上にアバターを配置し、なおかつビデオフレームを処理する場合は、コードにエクスポートすることになります。
そのエクスポートボタンの背後には、いくつかの高度な機能があります。複雑なワークフローには次のようなものがあります: - 分岐ロジックを用いた多段階タスク - ボット間または人間へのエージェントの引き継ぎ - 基本的な配信ルールを超えたクロスチャネルルーティング
すべては完全なエージェントSDKを必要とします。バーチャルアバターやビジョンパイプラインも同様で、エージェントがビデオや画面共有を通じて推論を行い、リアルタイムモデルプラグインがカスタムRAGスタック、独自モデル、またはプロバイダ特有のストリーミングAPIを接続します。
自動テストはSDKのみで行われます。LiveKitのテストハーネスを使用すれば、合成呼び出しをスクリプト化し、トランスクリプトに対してアサートを行い、本番環境にデプロイする前に変更の回帰テストを実施できます。しかし、これらはすべて、ブラウザおよび電話呼び出しを介したライブ手動テストに焦点を当てたエージェントビルダーのUIには表示されません。
正しくフレーミングされれば、これらは欠けている機能ではなく、設計された制限です。LiveKitは、プロンプトやHTTPエンドポイントで考えるチームのために、ブラウザが迅速で読みやすく、安全であることを望んでいます。UIは80%を処理します:プロンプト、モデル、ツール、テレフォニー、そして迅速な反復です。
残りの20%—奇妙なルーティングルール、ビデオデモ内のアバター、コンプライアンステストスイート、独自モデルプラグイン—がSDKの担当部分です。エージェントビルダーは、機能する収益を生み出すエージェントを提供し、エージェントフレームワークとボイスエージェントの構築 - LiveKitエージェントドキュメントのパターンが、そのプロトタイプを深くカスタマイズされたインフラストラクチャに変える方法を示しています。
ハイブリッドな未来:あなたのAIスタックを所有する
音声AIの開発は、もはやドラッグアンドドロップの快適さと生のSDKパワーとの間で二者択一する必要はありません。エージェントビルダーは、視覚的かつブラウザベースの環境から始め、その後実際に自分が所有するコードベースに作品を移行できる第三の選択肢を提示します。初日から同じ基盤のLiveKitエージェントフレームワークを使用でき、並行する「おもちゃ」のスタックではありません。
プロフェッショナルチームはますますハイブリッドワークフローを望むようになっています。彼らは管理された環境で迅速にプロトタイプを作成し、数時間でユーザーに実際のものを提供し、スプリントではなく、その正確なエージェントをリポジトリに移行させてバージョン管理、拡張、監査ができるようにします。エージェントビルダーの「コードをダウンロード」ボタンは、ノーコードの設定を完全に実行可能なプロジェクトに変えるため、使い捨てのコンセプト検証が生産用の足場となるのです。
そのワークフローはインセンティブを変えます。SaaSツールを使いこなせなくなったときにエージェントを再構築する代わりに、あなたは次のことを行います: - 実際の呼び出し者に対してプロンプト、音声、コールフローを検証します - エージェントをPython/NodeコードとしてAgents SDKを使用してエクスポートします - あなたのスタックに合わせたカスタムツール、可観測性、インフラを接続します
LiveKitのアプローチは、VAPIやRetellのようなプラットフォームのロックインモデルに静かに挑戦します。SaaSの高速性はそのままに、ホストされたLiveKit Cloud、事前配線された音声パイプライン、電話番号、ディスパッチルール、そして数分で準備完了のウェブコールを提供します。しかし、長期的な資産は、プロプライエタリなブラックボックスではなく、オープンソースのフレームワーク上で動作し、検査可能なオープンなコードベースです。
それは、音声エージェントが実験から収益に欠かせないシステムへと移行する際に重要です。企業はデータポリシーを厳守し、複雑な内部APIと統合し、ベンダーにロードマップのスペースを頼まずに新しいモデルやTTSプロバイダーを交換できる必要があります。ハイブリッドスタック—エージェントビルダーによるビルド、スケールのためのSDK—は、チームが今すぐ迅速に動きつつ、重要なすべてのレイヤーを所有できるようにします。
よくある質問
LiveKitエージェントビルダーとは何ですか?
コードを書かずに、本番運用可能な音声AIエージェントを迅速にプロトタイプおよび展開できるための、LiveKit Cloud上のブラウザベースのユーザーインターフェースであり、完全なLiveKit Agents SDKへの入り口として機能します。
エージェントビルダーは、VAPIやリテールとはどのように異なりますか?
初期のブラウザベースの体験は似ていますが、Agent Builderの主な差別化要因は、エージェントの完全なソースコードをエクスポートできる能力です。これにより「コードへの道」が提供され、開発者はベンダーロックインから脱却し、エージェントのロジックとインフラ全体を完全に制御できるようになります。
エージェントビルダーで任意のLLMやTTSモデルを使用できますか?
ブラウザのユーザーインターフェースは、LiveKit Cloudと統合された高品質のモデル(ElevenLabs、Deepgram、Geminiなど)の厳選リストを提供します。完全なモデルの独立性を実現し、任意のカスタムモデルを使用するには、コードをエクスポートし、LiveKit Agents SDKを使用して修正する必要があります。
エージェントビルダーで作成したエージェントを展開するには、サーバーが必要ですか?
いいえ。ブラウザから作成され展開されたエージェントは、完全にLiveKit Cloudの管理インフラ上で動作します。これは、サーバーの設定をゼロにして、アイデアから実際の電話番号で稼働するライブエージェントに至ることができることを意味します。