Acha que seu alto-falante inteligente é inteligente? Prepare-se, a OpenAI está preparando algo que poderia ensinar à Siri uma lição de charme.
Resumo:
O OpenAI, o cérebro por trás de alguns dos truques de IA mais legais da manga da tecnologia, parece estar na ponta dos pés no cenário da tecnologia de voz. Aqui está o resumo de seu projeto, que não é mais tão secreto, que está fervilhando na área de tecnologia.
- O que é o Buzz? Dê uma olhada na aventura da OpenAI na tecnologia de voz.
- A caça às pistas: Um caso curioso da marca registrada recém-descoberta.
- Lendo nas entrelinhas: O que realmente significa a marca registrada desse chamado “mecanismo de voz”?
- Olhando para a bola de cristal: Imaginando um mundo em que a IA fala mais suavemente do que um apresentador de programa noturno.
- Aya: um vislumbre do que o mecanismo de voz pode acabar fazendo, mas muito melhor.
O âmago da questão:
Na trilha das fofocas tecnológicas
Então, o OpenAI nos deixou algumas migalhas de pão, levando direto para sua próxima grande novidade: um projeto de mecanismo de voz. É como encontrar um mapa secreto em um romance policial, exceto que o tesouro aqui pode mudar a forma como conversamos com nossos gadgets. O burburinho começou com uma marca registrada que gritava “tecnologia de voz”, fazendo com que os magos da IA falassem sobre o que vem por aí.
Decodificando o mistério da marca registrada
Mergulhar nos detalhes da marca registrada é como decifrar um código secreto que sugere uma tecnologia de voz tão avançada que pode fazer com que os atuais assistentes de IA pareçam ser da idade da pedra. Estamos falando de um sistema que alterna entre fala e texto com a facilidade de virar panquecas, prometendo um futuro em que seu amigo digital poderá enganá-lo em brincadeiras.
Future Talk: Além da tagarelice tecnológica atual
Imagine isso: um assistente de IA que não apenas entende seus resmungos, mas pode conversar com você com o especialista de um fofoqueiro experiente. Com uma homenagem ao lendário Jarvis do Homem de Ferro, o empreendimento da OpenAI sugere um futuro em que os comandos de voz poderiam conduzir sua vida com mais tranquilidade do que manteiga na torrada quente. É como o colega de quarto descolado e invisível que você nunca soube que precisava, pronto para cuidar de seus gadgets em seu nome.
O efeito cascata: uma onda de especulação
Esse empreendimento da OpenAI não é apenas mais uma atualização para o mundo da tecnologia; é um potencial divisor de águas na forma como interagimos com nosso ambiente digital. Isso sugere um futuro não muito distante em que a tecnologia não é apenas útil, mas absolutamente indispensável, evoluindo de uma ferramenta útil para uma companheira inteligente que entende suas peculiaridades.
Concluindo:
O Whisper da OpenAI, parte de sua suíte de tecnologia, é um passo para o futuro do reconhecimento de fala. Mas o verdadeiro truque está em criar um assistente de voz de IA fácil de usar. Trata-se de encontrar aquele ponto ideal em que a IA saiba quando parar e não isolar os humanos no meio de uma frase. Ele deve conversar em frases rápidas e rápidas — pense em 3 segundos no máximo. Além disso, ele precisa se lembrar de quem você é, fazer malabarismos com pesquisas na Internet em tempo real e não abrir um buraco na sua carteira. Essa é uma tarefa difícil, pois a conversão de voz e texto em tempo real não é barata.
Brincamos com essa ideia na Stork, mesclando o Whisper com o GPT 3.5 da OpenAI e um pouco da tecnologia do Google, criando Aya - algo divertido, mas sem acesso à web em tempo real ou memória pessoal. Olhando para o futuro, imagine Aya aprimorado com o Gemini 1.5 Vision do Google, permitindo que ele não apenas converse, mas também interprete visualmente o mundo em tempo real.