View all AI news articles

Projeto Hush-Hush da OpenAI: um mecanismo de voz com um sussurro de Jarvis

March 23, 2024
Acha que seu alto-falante inteligente é inteligente? Prepare-se, a OpenAI está preparando algo que poderia ensinar à Siri uma lição de charme.

Resumo:

O OpenAI, o cérebro por trás de alguns dos truques de IA mais legais da manga da tecnologia, parece estar na ponta dos pés no cenário da tecnologia de voz. Aqui está o resumo de seu projeto, que não é mais tão secreto, que está fervilhando na área de tecnologia.

  • O que é o Buzz? Dê uma olhada na aventura da OpenAI na tecnologia de voz.
  • A caça às pistas: Um caso curioso da marca registrada recém-descoberta.
  • Lendo nas entrelinhas: O que realmente significa a marca registrada desse chamado “mecanismo de voz”?
  • Olhando para a bola de cristal: Imaginando um mundo em que a IA fala mais suavemente do que um apresentador de programa noturno.
  • Aya: um vislumbre do que o mecanismo de voz pode acabar fazendo, mas muito melhor.

O âmago da questão:

Conversar com o Voice Engine da OpenAI faz com que minha cafeteira pareça menos conversadora e mais um velho resmungão preso em seus caminhos.

Na trilha das fofocas tecnológicas

Então, o OpenAI nos deixou algumas migalhas de pão, levando direto para sua próxima grande novidade: um projeto de mecanismo de voz. É como encontrar um mapa secreto em um romance policial, exceto que o tesouro aqui pode mudar a forma como conversamos com nossos gadgets. O burburinho começou com uma marca registrada que gritava “tecnologia de voz”, fazendo com que os magos da IA falassem sobre o que vem por aí.

Decodificando o mistério da marca registrada

Mergulhar nos detalhes da marca registrada é como decifrar um código secreto que sugere uma tecnologia de voz tão avançada que pode fazer com que os atuais assistentes de IA pareçam ser da idade da pedra. Estamos falando de um sistema que alterna entre fala e texto com a facilidade de virar panquecas, prometendo um futuro em que seu amigo digital poderá enganá-lo em brincadeiras.

Future Talk: Além da tagarelice tecnológica atual

O Voice Engine da OpenAI prometeu revolucionar minha vida; agora, são só meu gato e a geladeira que não recebem meus comandos.

Imagine isso: um assistente de IA que não apenas entende seus resmungos, mas pode conversar com você com o especialista de um fofoqueiro experiente. Com uma homenagem ao lendário Jarvis do Homem de Ferro, o empreendimento da OpenAI sugere um futuro em que os comandos de voz poderiam conduzir sua vida com mais tranquilidade do que manteiga na torrada quente. É como o colega de quarto descolado e invisível que você nunca soube que precisava, pronto para cuidar de seus gadgets em seu nome.

O efeito cascata: uma onda de especulação

Esse empreendimento da OpenAI não é apenas mais uma atualização para o mundo da tecnologia; é um potencial divisor de águas na forma como interagimos com nosso ambiente digital. Isso sugere um futuro não muito distante em que a tecnologia não é apenas útil, mas absolutamente indispensável, evoluindo de uma ferramenta útil para uma companheira inteligente que entende suas peculiaridades.

Concluindo:

Pedi ao Voice Engine da OpenAI que me surpreendesse, e ele começou a recitar poemas de amor. Acho que é mais barato do que namoro online, com quase a mesma taxa de sucesso.

O Whisper da OpenAI, parte de sua suíte de tecnologia, é um passo para o futuro do reconhecimento de fala. Mas o verdadeiro truque está em criar um assistente de voz de IA fácil de usar. Trata-se de encontrar aquele ponto ideal em que a IA saiba quando parar e não isolar os humanos no meio de uma frase. Ele deve conversar em frases rápidas e rápidas — pense em 3 segundos no máximo. Além disso, ele precisa se lembrar de quem você é, fazer malabarismos com pesquisas na Internet em tempo real e não abrir um buraco na sua carteira. Essa é uma tarefa difícil, pois a conversão de voz e texto em tempo real não é barata.

Brincamos com essa ideia na Stork, mesclando o Whisper com o GPT 3.5 da OpenAI e um pouco da tecnologia do Google, criando Aya - algo divertido, mas sem acesso à web em tempo real ou memória pessoal. Olhando para o futuro, imagine Aya aprimorado com o Gemini 1.5 Vision do Google, permitindo que ele não apenas converse, mas também interprete visualmente o mundo em tempo real.

Recent articles

View all articles