View all AI news articles

El proyecto Hush-Hush de OpenAI: un motor de voz con un susurro de Jarvis

March 23, 2024
¿Crees que tu altavoz inteligente es ingenioso? Prepárate, OpenAI está preparando algo que podría enseñarle a Siri una lección de encanto.

Resumen:

OpenAI, el cerebro detrás de algunos de los mejores trucos de IA que se esconden bajo la manga de los técnicos, parece estar entrando de puntillas en la escena de la tecnología de voz. Esta es la verdad sobre su proyecto, que ya no es tan secreto, y que está dando vueltas en el panorama tecnológico.

  • ¿Qué es el rumor? Eche un vistazo a la incursión de OpenAI en la tecnología de voz.
  • La búsqueda de pistas: Un caso curioso de la marca recién descubierta.
  • Leyendo entre líneas: ¿Qué significa realmente la marca registrada de este llamado «motor de voz»?
  • Escudriñando la bola de cristal: Imaginando un mundo en el que la IA hable con más fluidez que un presentador de un programa nocturno.
  • Aya: un vistazo a lo que el motor de voz podría terminar haciendo, pero mucho mejor.

El meollo de la cuestión:

Chatear con el motor de voz de OpenAI hace que mi cafetera parezca menos conversadora y más un viejo gruñón atrapado en sus caminos.

Tras la pista de los chismes tecnológicos

Por lo tanto, OpenAI nos ha dejado algunas migas de pan que nos llevan directamente a su próxima gran novedad: un proyecto de motor de voz. Es como encontrar un mapa secreto en una novela policiaca, excepto que este tesoro podría cambiar la forma en la que chateamos con nuestros aparatos. El rumor comenzó con una marca que gritaba «tecnología de voz», lo que hizo que los magos de la IA hablaran sobre lo que les depara el futuro.

Decodificando el misterio de la marca registrada

Sumergirse en los detalles de la marca es como descifrar un código secreto que hace alusión a una tecnología de voz tan avanzada que podría hacer que los asistentes de IA actuales parezcan de la Edad de Piedra. Estamos hablando de un sistema que cambia entre voz y texto con la facilidad de voltear tortitas, lo que promete un futuro en el que tu amigo digital podría burlarse de ti con bromas.

Charla sobre el futuro: más allá del balbuceo tecnológico actual

El motor de voz de OpenAI prometía revolucionar mi vida; ahora son solo mi gato y la nevera los que no reciben mis órdenes.

Imagina esto: un asistente de inteligencia artificial que no solo entiende tus murmullos, sino que también puede charlar contigo con el conocimiento de un chisme experimentado. Con un guiño al legendario Jarvis de Iron Man, la aventura de OpenAI nos habla de un futuro en el que los comandos de voz podrían ser más fáciles de manejar que una tostada caliente con mantequilla. Es como el compañero de habitación guay e invisible que nunca supiste que necesitabas, dispuesto a controlar tus artilugios por ti.

El efecto dominó: una ola de especulaciones

Este proyecto de OpenAI no es solo otra actualización del mundo de la tecnología, sino que puede cambiar las reglas del juego en la forma en que interactuamos con nuestro entorno digital. Hace alusión a un futuro no muy lejano en el que la tecnología no solo es útil sino absolutamente indispensable, y pasará de ser una herramienta útil a convertirse en una ingeniosa compañera que se adapte a tus peculiaridades.

Conclusión:

Le dije a Voice Engine de OpenAI que me sorprendiera, y empezó a recitar poemas de amor. Supongo que es más barato que las citas online, con casi la misma tasa de éxito.

Whisper de OpenAI, que forma parte de su suite tecnológica, es un paso hacia el futuro del reconocimiento de voz. Pero el verdadero truco está en crear un asistente de voz con IA fácil de usar. Se trata de encontrar ese punto óptimo en el que la IA sepa cuándo cerrar el pico y no interrumpir a los humanos a mitad de la frase. Debería charlar con frases rápidas y rápidas (piense en 3 segundos como máximo). Además, tiene que recordar quién eres, hacer malabares con las búsquedas en Internet en tiempo real y no abrir un hueco en tu cartera. Es una tarea difícil, ya que la conversión de voz y texto en tiempo real no es barata.

Jugamos con esta idea en Stork, fusionando Whisper con la GPT 3.5 de OpenAI y un poco de tecnología de Google, creando Aya - algo divertido pero sin acceso a la web en tiempo real o memoria personal. Mirando hacia adelante, imagínate Aya mejorado con Gemini 1.5 Vision de Google, lo que le permite no solo conversar sino también interpretar visualmente el mundo en tiempo real.

Recent articles

View all articles