TL;DR / Key Takeaways
Tu vozbot está atrapado lingüísticamente.
Pregunta a cualquier altavoz inteligente una pregunta en inglés, luego deslízate al español a mitad de la oración. La mayoría de los sistemas se congelan, transcriben mal o responden con algo extraño en el idioma incorrecto. Los asistentes de voz actuales funcionan efectivamente en modo de un solo idioma: un idioma por sesión, elegido en un menú de configuración o codificado por un desarrollador.
Los humanos hacen lo contrario. Los hablantes bilingües “cambian de código” constantemente—“¿Puedes reservar la cita para mañana?”—sin pensar en qué modelo apoya qué localidad. En ciudades como Londres, Nueva York o Ciudad de México, una sola conversación puede saltar entre inglés, polaco y francés en menos de 10 segundos, y nadie completa un formulario primero para declarar su idioma.
La IA de voz vive principalmente en lo que Hugo Pod llama Nivel 1: puede manejar múltiples idiomas, pero solo si se le indica de antemano cuál esperar. Eso funciona para flujos de llamadas rígidos y IVRs, pero se rompe en el momento en que un llamador pregunta en inglés: “¿Hablas español?” y luego realmente cambia al español. El agente o sigue respondiendo en inglés o, lo que es peor, malinterpreta la transcripción y desbarata el LLM.
El Nivel 2 es la mejora: un agente multilingüe que detecta y cambia de idioma a mitad de frase, sin ajustes manuales, sin "presione 2 para Español", sin reinicios. Un usuario puede comenzar en inglés, cambiar al polaco y luego incluir una frase en francés, y el sistema rastrea todo en tiempo real. Ese tipo de fluidez transforma un vozbot de un panel de configuración a una conversación.
Construir ese agente de nivel 2 requiere tres componentes trabajando en perfecta sintonía: - Un marco inteligente como LiveKit para orquestar audio en tiempo real y la lógica del agente - Un cerebro potente (un LLM) que pueda responder de manera natural en muchos idiomas - Un oído hiperconsciente (STT) que realice un cambio de código de baja latencia y alta precisión
La mayoría de los LLM y los motores de texto a voz ya manejan varios idiomas de manera razonable. El verdadero cuello de botella es el reconocimiento de voz que puede escuchar "¿Hablas español?" y seguir sin problemas cuando llega el resto de la oración en español—sin reconfiguración, sin reinicio, solo comprensión continua y multilingüe.
Nivel 1 vs. Nivel 2: La Brecha Multilingüe
Los agentes multilingües de Nivel 1 suenan flexibles en teoría: un sistema, muchos idiomas. En la práctica, solo funcionan si declaras el idioma de antemano, antes de que alguien hable. Configuras "español", "polaco" o "francés" como un parámetro de sesión, y luego toda la conversación se mantiene bloqueada a esa elección.
Ese diseño aparece en todas partes, desde los árboles de IVR hasta los bots de soporte al cliente. seleccionas de un menú desplegable, presionas "2 para Español" o tocas un ícono de bandera, y solo entonces el pipeline de voz a texto carga los modelos acústicos y de idioma correctos. Si cambias de opinión a mitad de la llamada, o mezclas otro idioma, el sistema o no te escucha correctamente o ignora el cambio.
Logísticamente, el Nivel 1 se siente torpe. Los formularios necesitan un campo adicional de "idioma preferido", los flujos de llamadas necesitan un menú y los quioscos necesitan facilidades de interfaz de usuario solo para comenzar. Cada paso adicional aumenta la fricción y el abandono; muchas aplicaciones para consumidores pierden usuarios si la incorporación toma más de 10 a 20 segundos.
Los agentes multilíngües de Nivel 2 trabajan de manera diferente. Escuchan primero y deciden sobre la marcha qué idioma, o idiomas, estás utilizando, sin necesidad de una declaración previa. Una conversación puede comenzar en inglés, saltar al español para una pregunta y luego pasar al polaco, y el agente rastrea esas transiciones en tiempo real.
Ese cambio transforma multilingüe de una característica de marcado en una fluidez conversacional real. Un sistema de nivel 2 soporta el “cambio de código” natural, donde un usuario mezcla idiomas dentro de una sola oración, como “¿Puedes enviar la factura a mi correo de trabajo?” o “Czy mówisz español también?” El agente debe transcribir, razonar y responder adecuadamente en cada cambio.
Para productos globales, el Nivel 2 es el estándar de oro. Un agente puede atender a usuarios en docenas de mercados sin necesidad de números de teléfono separados, bots separados o reglas de enrutamiento de lenguaje complicadas. Las empresas evitan mantener flujos paralelos para inglés, francés y polaco, y en su lugar implementan una única capa lógica que se adapta a lo que el usuario hable.
El artículo "Cómo construir un agente de voz multilingüe con LiveKit y Gladia" de Hugo Pod se dirige explícitamente a este modelo de Nivel 2. Utilizando Gladia para un cambio de código de baja latencia y LiveKit para audio en tiempo real, su plataforma apunta a un estándar más alto: un agente que se comporta menos como un formulario y más como una persona.
Por qué el 'Code-Switching' es el Santo Grial
El cambio de código describe cómo las personas bilingües alternan entre idiomas en medio de una oración sin pensar: “Oye, ¿enviaste ese informe?” o “Ça marche, te enviaré un mensaje más tarde.” Los psicolingüistas lo ven como una característica, no como un error—las investigaciones muestran que los bilingües cambian de idioma según el tema, la emoción o con quién están hablando, a menudo varias veces por minuto.
Para los agentes de voz de IA, ese comportamiento es el santo grial. Un cliente de habla hispana podría comenzar en inglés para el menú de IVR, cambiar al español para explicar un problema de facturación y luego regresar al inglés para los números de tarjeta. Cualquier sistema que se congela en el primer idioma pierde confianza, tiempo y, a menudo, al usuario.
Las apuestas en el mundo real son altas. Los centros de soporte global en Ciudad de México, Manila o Varsovia suelen manejar inglés más 2-4 idiomas locales en la misma línea. Las llamadas de ventas internacionales en fintech, viajes o SaaS saltan entre inglés, hindi y dialectos regionales. Los servicios públicos en ciudades como Nueva York o Londres deben gestionar conversaciones en varios idiomas en áreas como salud, vivienda y educación.
Técnicamente, esto es brutal porque el audio sin procesar es ambiguo sin contexto lingüístico. Un clip de dos segundos podría corresponder a palabras plausibles en inglés, polaco o portugués, todas con significados diferentes. El ruido de fondo, los acentos y la jerga del dominio multiplican la confusión, por lo que los modelos ingenuos "se fijan" en el idioma incorrecto y nunca se recuperan.
Los tres pilares—STT (conversión de voz a texto), LLM y TTS—deben mantenerse en perfecta sincronía en la elección de idiomas. Los LLMs ya manejan bien los mensajes multilingües, y los motores TTS modernos como 11 Labs pueden hablar un convincente polaco o español una vez que reciben texto limpio. El reconocimiento de voz es la verdadera batalla final.
El reconocimiento de voz multilingüe debe detectar los límites del idioma en tiempo real, a veces incluso en una sola palabra, mientras mantiene la latencia por debajo de ~300 ms para una llamada natural. Debe decidir "¿fue 'no' en inglés o 'não' en portugués?" de manera instantánea y cambiar de modelos o vocabularios al instante. Herramientas como los modelos y marcos de cambio de código de Gladia, documentados en Voice AI quickstart | LiveKit docs, están surgiendo, pero el cambio de código perfecto sigue siendo un problema fronterizo.
Nuestra pila tecnológica para conversaciones fluidas
La moderna IA de voz que alterna entre idiomas se sostiene sobre cuatro pilares: enrutamiento en tiempo real, reconocimiento de voz, razonamiento lingüístico y discurso sintético. Sustituye cualquiera de ellos por un componente más débil y toda la ilusión de una conversación bilingüe fluida se desmorona al instante.
En el centro se encuentra LiveKit, el marco de comunicación en tiempo real que se comporta como el sistema nervioso del agente. Gestiona flujos de audio de baja latencia, el estado de la sesión y la presión de retroceso, asegurando que los paquetes de audio, transcripciones y respuestas lleguen en menos de unos pocos cientos de milisegundos en lugar de segundos.
LiveKit conecta tres servicios especializados que cada uno posee una parte diferente de la infraestructura: - Gladia para Conversión de Voz a Texto - OpenAI GPT-4.1 para comprensión del lenguaje - 11Labs para Conversión de Texto a Voz
Gladia actúa como los oídos del agente, transcribiendo continuamente audio en bruto a texto mientras el usuario sigue hablando. Su modelo multilingüe, como la variante SEA SALARIA 1, admite el cambio de código en docenas de idiomas, detectando cuando una oración pasa de inglés a español a polaco sin reiniciar la sesión.
Esa capacidad de cambiar de código es importante porque la conversión de voz a texto es el eslabón más frágil en esta cadena. Si Gladia etiqueta incorrectamente el español como inglés acentuado, GPT-4.1 nunca verá las palabras correctas, y toda la experiencia "multilingüe" se desmorona en tonterías o en incómodas preguntas aclaratorias.
Una vez que Gladia emite texto, OpenAI GPT-4.1 interviene como el cerebro. El LLM rastrea el historial de la conversación, la intención del usuario y los cambios de idioma, y luego decide no solo qué decir, sino en qué idioma decirlo. La solicitud puede incitar a GPT-4.1 a reflejar automáticamente el idioma del usuario o a cambiar cuando se le pide explícitamente (“¿Puedes hablar polaco?”).
11Labs cierra el ciclo como la voz. Introduce tokens en polaco, francés o inglés y devuelve audio natural en ese mismo idioma, utilizando la misma voz sintética para que el agente se sienta como una persona coherente, no un mosaico de diferentes sistemas.
Juntos, LiveKit, Gladia, GPT-4.1 y 11Labs forman un circuito ágil en tiempo real. El audio fluye, el texto consciente del lenguaje fluye a través de él, y el discurso correctamente localizado fluye hacia fuera—lo suficientemente rápido como para que el cambio de código se sienta casual, no como cambiar de aplicaciones.
El cuellos de botella del STT: Por qué Gladia es la clave
El reconocimiento de voz a texto decide en silencio si un agente de voz multilingüe funciona o se desmorona. Para los sistemas de nivel 2 que necesitan seguir a un interlocutor de inglés a español y a polaco en una sola oración, el reconocimiento de voz a texto es, con mucho, la parte más difícil de la estructura. Los LLM y TTS ya pueden manejar docenas de lenguajes a partir de texto limpio; el reconocimiento de voz a texto tiene que hacerlo a partir de audio ruidoso, superpuesto y con acentos marcados en tiempo real.
El modelo sea-salaria-v1 de Gladia se encuentra en ese punto crítico. Soporta más de 40 idiomas desde el principio, con cambio de código nativo, por lo que una frase como “¿Puedes llamar a mi mamá en Madrid?” no lo confunde en un idioma distorsionado. En cambio, segmenta y transcribe de manera limpia el inglés y el español tal como aparecen en la forma de onda.
El enrutamiento regional es donde sea-salaria-v1 se vuelve viable para productos en vivo en lugar de solo para demostraciones. Gladia te permite fijar el procesamiento a regiones específicas, como EU Oeste, por lo que si tus usuarios están en Londres o París, evitas la penalización de 100–200 ms de los saltos transatlánticos. Para un agente de voz, reducir esa latencia mantiene las respuestas en vaivén por debajo del umbral de ~300 ms donde la "pausa de IA" se vuelve obvia.
Sin un motor de STT que pueda detectar cambios de idioma directamente desde el audio, nada más en la cadena de procesamiento tiene la oportunidad de ser inteligente. El LLM solo ve la transcripción de texto que recibe; si el STT etiqueta incorrectamente el polaco como inglés y produce tokens incomprensibles, incluso el mejor modelo responderá con confianza en el idioma equivocado. Luego, el TTS repite ese error al usuario, consolidando el fallo.
El soporte de cambio de código en la capa de STT también evita soluciones frágiles de pre-ruteo. Ya no es necesario adivinar el idioma de un llamante a partir de su número de teléfono, una opción de menú o la primera oración. Sea-salaria-v1 puede comenzar a escuchar desde el segundo cero, reconocer que el usuario acaba de cambiar de instrucciones en inglés a francés rápido, y ajustar los conjuntos de caracteres y los modelos de lenguaje en tiempo real.
Deepgram y otros proveedores de STT sí publicitan características multilingües e incluso de cambio de código, y funcionan para muchos casos de uso. Sin embargo, para este agente de Nivel 2 específico, Gladia ganó en precisión de transcripción pura en audio de idiomas mixtos, especialmente con cambios rápidos y combinaciones menos comunes como inglés-polaco. Cuando toda tu experiencia depende de acertar en esos casos límite, esa brecha de precisión es decisiva.
Orquestación con el marco de agentes de LiveKit
LiveKit ya no actúa solo como un enrutador WebRTC; se comporta como un entorno de agente que controla todo el bucle de llamadas. En lugar de conectar STT, LLM y TTS manualmente, defines un agente que reacciona a eventos: cuadros de audio, mensajes, tiempos de espera, y LiveKit orquesta el resto en tiempo real.
En el centro se encuentra el Framework de Agentes de LiveKit, que ejecuta tu lógica en Python (o Node) cerca de la tubería de medios. Esa proximidad es importante: menos saltos entre medios, inferencias y lógica empresarial se traducen en una menor latencia de extremo a extremo, lo cual es crucial para un agente de voz que cambia de código.
LiveKit Inference se integra directamente en este flujo como una capa gestionada de LLM y TTS. Apuntas tu agente a los modelos: OpenAI, locales o alojados por proveedores, y LiveKit se encarga de transmitir los tokens y devolver el audio sin que tengas que manejar tres SDK diferentes.
Usar LiveKit Inference también te ayuda a evitar una serie de dolores de cabeza operativos. Evitas los límites de tasas por proveedor en llamadas de LLM y TTS, consolidas el uso en una sola factura y, a menudo, obtienes una menor latencia porque LiveKit se comunica con los proveedores a través de enlaces de nivel empresarial en lugar de gateways de API públicos.
La consolidación de facturación no es solo una conveniencia; cambia la forma en que arquitectas. En lugar de construir lógica de limitación y retroceso personalizada para cada proveedor, tratas la inferencia como un único grupo de recursos con cuotas predecibles y monitoreo.
La estructura de LiveKit hace que el intercambio de componentes sea casi mecánico. En el agent.py de Hugo Pod, Gladia se conecta como el proveedor de STT a través de un bloque de configuración simple: nombre del modelo (sea salaria 1), región (UE Oeste) y una lista de idiomas compatibles.
Ese diseño significa que puedes experimentar de manera agresiva. ¿Quieres realizar pruebas A/B con dos voces de TTS o dos prompts de LLM? Solo necesitas cambiar algunas líneas en la definición del agente; LiveKit sigue manejando el estado de la sesión, el enrutamiento de medios y la lógica de reconexión.
Para equipos que vienen de WebRTC sin procesar o servicios gRPC personalizados, este es un nivel de abstracción diferente. Dejas de pensar en sockets y códecs y comienzas a pensar en "sesiones de agentes" y "tareas" que se pueden escalar horizontalmente.
La documentación de LiveKit se enfoca en este modelo; Creando agentes de voz | Documentación de LiveKit explora patrones como trabajos en segundo plano, enrutamiento multi-agente y herramientas personalizadas que puedes reutilizar en proyectos multilingües.
El Cerebro y la Voz: Victorias Sencillas para LLM y TTS
Los LLMs modernos apenas se inmutan cuando les pides que manejen varios idiomas. Los modelos de la clase GPT-4 se entrenan con billones de tokens extraídos de la web multilingüe, libros, foros y repositorios de código, cubriendo todo, desde inglés y español hasta polaco y dialectos poco comunes. Si indicas, "Responde en francés y luego resume en inglés", simplemente lo hacen, token por token.
Ese comportamiento multilingüe no es una característica añadida; surge de cómo aprenden estos modelos. Durante el entrenamiento, ven conceptos paralelos expresados en diferentes idiomas y optimizan un enorme espacio de incrustación compartido. Así que cuando un usuario cambia de “Can you book a flight?” a “para mañana a Madrid” en medio de una frase, el modelo simplemente continúa prediciendo el siguiente token más probable, ahora en español.
La formulación te brinda un control preciso. Puedes decirle al LLM: "Siempre responde en el idioma del interlocutor" o "Habla en inglés pero refleja cualquier frase en otro idioma que se cite." Con un único mensaje del sistema, la misma instancia de GPT-4 puede manejar soporte al cliente en alemán, incorporación tecnológica en portugués y preguntas de seguimiento en inglés, todo en una sesión continua.
En el lado de la salida, los sistemas de TTS como 11Labs son aún más sencillos. No necesitan inferir qué idioma querías; simplemente sintetizan el idioma que ya usa el texto. Si les das texto en polaco, obtienes audio en polaco; si cambias a francés, obtienes francés, a menudo con un timbre de voz consistente entre idiomas.
El TTS multilingüe depende principalmente de dos cosas: la cobertura de idiomas y la calidad de la voz. Si un proveedor admite, digamos, 28 idiomas y voces translingües, tu aplicación puede mantener la misma "persona del agente" mientras salta del inglés al español y al polaco en tiempo real. Sin reconfiguración, sin voz separada por idioma.
Toda esa elegancia se derrumba si las palabras que ingresan al LLM son incorrectas. La verdadera magia—y el verdadero riesgo—se encuentra aguas arriba en STT, donde modelos como Gladia deben detectar cambios de idioma, segmentarlos correctamente y entregar al LLM transcripciones limpias con alternancia de códigos.
Anatomía del Agente: Profundización en el Código
Agent.py actúa como el diagrama de conexiones para esta configuración multilingüe, y casi toda la magia proviene de la configuración, no de algoritmos personalizados. Hugo define un único `Agent` que une GladiaSpeechToText, los servicios de inferencia de LiveKit y algunos controles de conversación en un bucle en tiempo real.
El reconocimiento de voz recibe el ajuste más detallado. El bloque `GladiaSpeechToText` especifica tres parámetros críticos: `model="sea-salaria-1"`, `region="eu-west"` y un arreglo de `languages`. Ese modelo `sea-salaria-1` es el caballo de batalla de cambio de código de Gladia, diseñado para manejar cambios de idioma a mitad de frase entre inglés, español, polaco y más.
La selección de la región es importante para la latencia. Al fijar `region="eu-west"` desde Londres, Hugo mantiene bajos los tiempos de ida y vuelta en lugar de enviar el audio a través del Atlántico hacia un punto de acceso predeterminado en EE. UU. Muchos proveedores de STT ocultan el enrutamiento por región; Gladia lo expone directamente, lo que es raro y extremadamente útil para la voz en tiempo real.
El parámetro `languages` es donde esto salta de la Clase 1 a la Clase 2. En lugar de decirle al modelo “esta llamada es en francés”, Hugo pasa una lista de opciones permitidas, por ejemplo: - `"en"` - `"fr"` - `"es"` - `"pl"` Gladia luego detecta automáticamente qué idioma se está hablando en cualquier momento y cambia las reglas de transcripción al instante.
El lado de LiveKit parece casi aburrido en comparación, que es precisamente el objetivo. Para la inferencia de LLM, Hugo conecta un cliente `LiveKitInference` con un modelo como `"gpt-4o-realtime-preview"`, además de un breve aviso del sistema: “Eres un asistente de voz útil.” Sin banderas multilingües adicionales, sin lógica de enrutamiento, solo un modelo que ya entiende docenas de idiomas.
La conversión de texto a voz utiliza el mismo patrón: un cliente TTS `LiveKitInference` apuntando a un modelo como `"eleven_multilingual_v2"` con un ID de voz elegido. Siempre que el motor TTS soporte el idioma de destino, alimentar con texto en polaco o español simplemente funciona, por lo que el código permanece casi como una configuración únicamente.
El cambio de turno es donde pequeños cambios en la configuración afectan drásticamente la experiencia del usuario. Hugo cambia el modelo de `turn_detection` de LiveKit de `"english"` a `"multilingual"`, para que el agente detecte correctamente las pausas y el final de las expresiones en idiomas no ingleses y en frases de idiomas mixtos.
Finalmente, `preemptive_generation=False` desactiva el hábito del agente de interrumpir a los usuarios. Muchos sistemas en tiempo real comienzan a hablar tan pronto como “piensan” que has terminado; eso interrumpe el cambio de código cuando los usuarios añaden una cláusula en otro idioma. Forzar al agente a esperar un límite claro de turno mantiene las conversaciones naturales y previene las interrupciones a mitad de la frase.
Deconstruyendo la Demo: Del inglés al polaco
El momento de cambio de código en la demostración comienza de manera bastante inocente. El usuario inicia en inglés, charlando con el agente como si fuera cualquier otro sistema de nivel 1. Luego llega la línea de pivote que rompería la mayoría de los voicebots en producción: "Solo quería saber si puedes hablar polaco."
En lugar de responder en inglés o congelarse, el agente cambia instantáneamente. Responde en polaco fluido y natural, con la fonética y prosodia correctas del TTS, señalando que el LLM, el aviso y la configuración de voz aceptaron el cambio de idioma sin necesidad de un reinicio. Sin cambio manual de idioma, sin reinicialización, sin retraso de “cambiando de idioma, por favor espere”.
Lo que más importa es lo que sucede a continuación. El usuario continúa en polaco, manteniendo un intercambio completo que permanece completamente en ese idioma. El agente entiende frases de seguimiento en polaco, mantiene el contexto y devuelve respuestas coherentes y relevantes en polaco, exactamente el comportamiento de Nivel 2 que los productos multilingües prometen pero rara vez cumplen.
Bajo el capó, ese rendimiento se basa en STT. El modelo de Gladia recibe audio que comienza en inglés, luego, a mitad de la conversación, cambia a polaco, y aún así produce transcripciones precisas con baja latencia. Esa calidad de transcripción es lo que permite que el LLM mantenga un único estado de conversación en lugar de generar hilos de "modo inglés" y "modo polaco".
Los registros de la ejecución revelan una inquietante peculiaridad: "el detector de turnos no soporta el idioma polaco". La detección de turnos determina cuándo un usuario ha terminado de hablar, por lo que esta advertencia significa que un componente secundario solo sabe segmentar ciertos idiomas. A pesar de eso, el sistema nunca titubea visiblemente porque el pipeline central de STT continúa reconociendo y transcribiendo el polaco de manera confiable.
Este es un punto arquitectónico sutil pero importante. Puedes tener piezas no críticas—como un detector de giros limitado por idioma—que emitan advertencias mientras el motor de transcripción principal de **Gladia** sigue funcionando sin problemas en varios idiomas. En implementaciones reales, esa separación de preocupaciones significa que puedes iterar en módulos auxiliares sin arriesgar el cerebro multilingüe que realmente impulsa la experiencia.
El futuro es una IA políglota.
Los agentes poliglotas dejan de ser un juguete de investigación una vez que conectas un marco de alto nivel como LiveKit a un motor de STT diseñado para un propósito específico como Gladia. LiveKit gestiona la complicada infraestructura en tiempo real—WebRTC, sesiones, ciclo de vida del agente—mientras que el modelo de baja latencia y cambio de código de Gladia (como su variante sea-salaria-1) realiza la única tarea que los modelos genéricos aún no logran: detectar y transcribir múltiples idiomas en la misma respiración. Esa combinación actualiza un simple bot de voz a un agente de Nivel 2 que sigue la conversación humana en lugar de obligar a los humanos a rastrear la configuración del sistema.
Apilados juntos, estas piezas desbloquean productos que realmente funcionan a escala global. Una única línea de soporte puede dirigir a los clientes desde Ciudad de México, Varsovia y París hacia el mismo agente de voz multilingüe, que los sigue mientras alternan entre inglés para nombres de productos y su idioma nativo para todo lo demás. Sin árboles IVR, sin “Presione 3 para español,” solo un punto de contacto que se adapta en tiempo real.
Las reuniones también cambian. Imagina un compañero de Zoom o Meet que escucha una llamada de 10 personas donde los participantes alternan entre inglés, alemán y polaco, y aún así produce: - Subtítulos en vivo en el idioma preferido de cada participante - Transcripciones buscables etiquetadas por orador e idioma - Resúmenes que preservan cuándo y por qué ocurrió el cambio de código
Los asistentes de consumo también se benefician. Una familia bilingüe puede hablar con un dispositivo doméstico en inglés, cambiar al francés a mitad de la oración para dirigirse a un abuelo y luego volver sin necesidad de un reinicio por palabra de activación o cambio de configuración de la aplicación. La accesibilidad aumenta cuando los usuarios con conocimientos limitados en un idioma "predeterminado" ya no tienen que apegarse a él solo para ser entendidos.
Las barreras que antes requerían un laboratorio de investigación—ASR rápido, conmutación de código robusta, transmisión de baja latencia—ahora encajan en un proyecto de fin de semana. LiveKit abstrae la pila de tiempo real; Gladia se encarga de la STT multilingüe; los LLMs y TTS convencionales ya hablan docenas de idiomas de forma predeterminada. La parte difícil ya no es “¿Se puede construir esto?” sino “¿Qué debería hacer realmente este agente?”
Puedes responder eso tú mismo. Consulta el repositorio de GitHub de “Cómo construir un agente de voz multilingüe con LiveKit y Gladia”, conecta tus propios mensajes y voces, y empieza a crear agentes que hablen a los usuarios de la manera en que los usuarios ya se comunican entre sí.
Preguntas Frecuentes
¿Qué es el cambio de código en IA?
El código de cambio es la capacidad de un agente de voz de IA para detectar y alternar entre múltiples idiomas dentro de la misma conversación, al igual que lo haría un humano bilingüe. Esto requiere tecnología avanzada de conversión de voz a texto.
¿Por qué se recomienda Gladia para agentes de voz multilingües?
El reconocimiento de voz a texto de Gladia se destaca por su alta precisión en muchos idiomas, baja latencia y su soporte específico para el cambio de código, que es la característica más crítica para este tipo de agente.
¿Cuál es el papel de LiveKit en este proyecto?
LiveKit actúa como el marco subyacente para el agente de voz, gestionando la comunicación en tiempo real (WebRTC) y proporcionando un kit de desarrollo de agentes. Su función de inferencia también simplifica el uso de modelos como GPT-4 y 11Labs al intermediar las llamadas a la API.
¿Puedo usar un LLM o TTS diferente con esta configuración de LiveKit?
Sí. El marco de LiveKit es flexible. Mientras que el tutorial utiliza GPT-4 de OpenAI y 11Labs a través de LiveKit Inference, puedes integrar otros modelos de lenguaje y servicios de texto a voz que se adapten a tus necesidades.