Skip to content
Ferramenta de IA

Revisão do Voicebox

Voicebox é um estúdio de voz AI de código aberto, local-first, que oferece capacidades de clonagem de voz, geração de fala e ditado como uma alternativa gratuita às soluções baseadas em nuvem.

shipped 17 de jun. de 2026aifreemium
Voicebox - AI tool for voicebox. Professional illustration showing core functionality and features.
1Opera inteiramente localmente nas máquinas dos utilizadores, garantindo a privacidade dos dados e eliminando taxas de subscrição.
2Suporta 7 motores Text-to-Speech (TTS) intermutáveis e gera fala em 23 idiomas.
3Oferece clonagem de voz a partir de clipes de áudio tão curtos quanto alguns segundos, juntamente com ditado em todo o sistema.
4Apresenta um editor de linha do tempo multi-faixa para produção de áudio e integra-se com agentes AI via uma REST API.

Voicebox at a Glance

Pricing
freemium
Key Features
Voicebox is an open-source, local-first AI voice studio, initially released on February 4, 2026. · It supports voice cloning from as little as 3 seconds of audio and offers text-to-speech generation across seven distinct TTS engines. · The platform provides system-wide dictation into any application and integrates with AI agents via a local REST API.
Alternatives
ElevenLabs, Chatterbox (by Resemble AI), Coqui TTS (XTTS-v2), MyShell (OpenVoice)

Ferramentas similares

Comparar alternativas

Outras ferramentas a considerar

1

ElevenLabs

ElevenLabs is a market leader for highly natural-sounding, emotive voice cloning and text-to-speech, particularly for professional audio production.

Ver no Stork
2

Chatterbox (by Resemble AI)

Chatterbox is a high-performance, open-source text-to-speech (TTS) model family built for real-time generative audio, offering speed, expressiveness, and zero-shot voice cloning with emotion control.

Ver no Stork
3

Coqui TTS (XTTS-v2)

Coqui TTS, specifically the XTTS-v2 model, is a widely adopted open-source voice generation model known for high-quality, multilingual voice cloning from minimal audio samples.

Ver no Stork
4

MyShell (OpenVoice)

MyShell offers OpenVoice, an open-source instant voice cloning AI library that provides unparalleled precision and granular control over tone, emotion, accent, rhythm, and intonation.

Visitar

overview

O que é o Voicebox?

Voicebox é uma ferramenta de estúdio de voz AI desenvolvida pelos seus criadores que permite a desenvolvedores, criadores de conteúdo e utilizadores de acessibilidade clonar vozes, gerar fala e ditar em todo o sistema. Opera inteiramente na máquina do utilizador, garantindo a privacidade dos dados e eliminando taxas de subscrição. Voicebox.sh funciona como um estúdio de voz AI abrangente, distinto do modelo de AI generativa Voicebox da Meta, enfatizando a operação local, privacidade e controlo do utilizador. As suas capacidades principais incluem geração e clonagem de voz a partir de áudio mínimo, geração de fala em 23 idiomas usando sete motores Text-to-Speech (TTS) diferentes (por exemplo, Qwen3-TTS, LuxTTS, HumeAI TADA), e ditado em todo o sistema para qualquer campo de texto via uma tecla de atalho global. A plataforma também incorpora um Large Language Model (LLM) local incluído para refinamento de transcrições e suporta transferência de estilo interlinguístico, permitindo aos utilizadores falar qualquer idioma suportado na sua voz clonada.

quick facts

Fatos Rápidos

AtributoValor
DesenvolvedorSeus desenvolvedores
Modelo de NegócioFreemium (núcleo Open-source)
PreçoGratuito para funcionalidade principal; sem taxas de subscrição ou custos por caractere
PlataformasMac (Apple Silicon), Windows, Linux, API
API DisponívelSim (REST API em http://127.0.0.1:17493)
IntegraçõesAgentes AI, qualquer aplicação via ditado em todo o sistema
FundadoLançado por volta de 29 de janeiro de 2026
FinanciamentoSnowflake startup accelerator (janeiro de 2026)

features

Principais Recursos do Voicebox

O Voicebox oferece um conjunto robusto de recursos projetados para operações abrangentes de voz AI local, atendendo tanto a desenvolvedores quanto a criadores de conteúdo:

  • 1Clonagem de voz a partir de clipes de áudio, entrada de microfone ou áudio do sistema.
  • 2Geração de texto para fala com 7 motores intermutáveis (por exemplo, Qwen3-TTS, LuxTTS, HumeAI TADA) suportando 23 idiomas.
  • 3Ditado em todo o sistema para qualquer aplicação usando uma tecla de atalho global, com LLM local para refinamento de transcrição.
  • 4Capacidades de integração para agentes AI, permitindo-lhes falar em vozes clonadas personalizadas via uma REST API incorporada.
  • 5Editor de linha do tempo multi-faixa, conhecido como Stories Editor, para produzir conversas, podcasts e narrativas.
  • 6Transcrições de áudio alimentadas por OpenAI Whisper (modelos Base, Small, Medium, Large, Turbo) suportando 99 idiomas.
  • 7Pipeline de efeitos de áudio incluindo mudança de tom (pitch shift), reverberação (reverb), atraso (delay) e compressão para produção de áudio aprimorada.
  • 8Transferência de estilo interlinguístico, permitindo que vozes clonadas falem em diferentes idiomas suportados.
  • 9Recurso de personalidades de voz para reescrever ou compor texto no estilo de um personagem específico.

use cases

Quem Deve Usar o Voicebox?

O Voicebox é projetado para uma gama diversificada de utilizadores que necessitam de capacidades de voz AI locais, privadas e flexíveis:

  • 1**Desenvolvedores e Engenheiros de AI:** Para integrar entrada/saída de voz em agentes AI e aplicações personalizadas via sua REST API, e para experimentar com AI de voz local sem dependências de nuvem.
  • 2**Criadores de Conteúdo (Podcasters, Estúdios de Jogos, Produtores de Vídeo):** Para gerar e editar faixas de áudio, criar cenas com múltiplas vozes, produzir diálogos e garantir vozes de personagens consistentes para roteiros, dublagens e conteúdo de formato longo.
  • 3**Desenvolvedores e Utilizadores de Acessibilidade:** Para fornecer assistência de fala e ferramentas de acessibilidade, permitindo que indivíduos sintetizem fala a partir de gravações antigas ou ditem para qualquer aplicação.
  • 4**Produtores de Áudio:** Utilizando o editor de linha do tempo multi-faixa para produção de áudio complexa, incluindo conversas, podcasts e criação de narrativas.

pricing

Preços e Planos do Voicebox

O Voicebox opera num modelo freemium, oferecendo principalmente as suas funcionalidades principais como uma solução gratuita, open-source e local-first. Esta abordagem elimina os custos comuns associados aos serviços de voz AI baseados em nuvem. Os utilizadores beneficiam de controlo total sobre os seus dados de voz e privacidade, uma vez que todas as operações são executadas diretamente na sua máquina. Não há taxas de subscrição, chaves de API, limites de taxa ou custos por caractere para usar a aplicação Voicebox principal. Este modelo permite uma duração de geração ilimitada e uso extensivo sem incorrer em custos contínuos.

  • 1**Nível Gratuito:** Todas as funcionalidades principais, duração de geração ilimitada, operação local-first, sem taxas de subscrição, sem chaves de API, sem limites de taxa, sem custos por caractere.

competitors

Voicebox vs Concorrentes

O Voicebox posiciona-se como uma alternativa robusta, local-first e open-source às soluções de voz AI baseadas em nuvem e open-source estabelecidas, enfatizando a privacidade e a relação custo-benefício.

1

ElevenLabs is a market leader for highly natural-sounding, emotive voice cloning and text-to-speech, particularly for professional audio production.

Unlike Voicebox's local-first and open-source approach, ElevenLabs is a cloud-based proprietary service, offering superior raw output quality for commercial use but with associated costs and data privacy considerations. It operates on a freemium model, but its free plan is limited, and heavy users may find it expensive.

2

Chatterbox is a high-performance, open-source text-to-speech (TTS) model family built for real-time generative audio, offering speed, expressiveness, and zero-shot voice cloning with emotion control.

Similar to Voicebox, Chatterbox is open-source and developer-focused, allowing local deployment and emphasizing real-time performance and expressiveness. It offers a permissive MIT license for commercial use and is designed for production-grade applications.

3

Coqui TTS, specifically the XTTS-v2 model, is a widely adopted open-source voice generation model known for high-quality, multilingual voice cloning from minimal audio samples.

Like Voicebox, Coqui TTS is open-source and supports local deployment, with a strong focus on voice cloning and multilingual capabilities. However, it is computationally intensive, often requiring a good GPU, and its XTTS-v2 model is available under a non-commercial public model license, unlike Voicebox's MIT license.

4
MyShell (OpenVoice)

MyShell offers OpenVoice, an open-source instant voice cloning AI library that provides unparalleled precision and granular control over tone, emotion, accent, rhythm, and intonation.

MyShell's OpenVoice is an open-source voice cloning solution, similar to Voicebox's offerings, designed for high flexibility and resource efficiency in voice cloning. While MyShell also provides a web app, OpenVoice is primarily an open-source library for developers, emphasizing customization and fine-grained control over generated speech.

Perguntas frequentes

+O que é o Voicebox?

Voicebox é uma ferramenta de estúdio de voz AI desenvolvida pelos seus criadores que permite a desenvolvedores, criadores de conteúdo e utilizadores de acessibilidade clonar vozes, gerar fala e ditar em todo o sistema. Opera inteiramente na máquina do utilizador, garantindo a privacidade dos dados e eliminando taxas de subscrição.

+O Voicebox é gratuito?

Sim, o Voicebox opera num modelo freemium, com as suas funcionalidades principais oferecidas como uma solução gratuita, open-source e local-first. Não há taxas de subscrição, chaves de API, limites de taxa ou custos por caractere para usar a aplicação principal, permitindo uma duração de geração ilimitada.

+Quais são as principais funcionalidades do Voicebox?

As principais funcionalidades do Voicebox incluem clonagem de voz a partir de várias fontes de áudio, geração de texto para fala com 7 motores e 23 idiomas, ditado em todo o sistema com um LLM local, integração de agentes AI via uma REST API, um editor de linha do tempo multi-faixa, transcrição de áudio alimentada por Whisper em 99 idiomas e um pipeline de efeitos de áudio.

+Quem deve usar o Voicebox?

O Voicebox é ideal para desenvolvedores e engenheiros de AI que integram I/O de voz em aplicações, criadores de conteúdo (podcasters, estúdios de jogos) que necessitam de clonagem de voz e geração de fala, desenvolvedores e utilizadores de acessibilidade que requerem assistência de fala, e produtores de áudio que utilizam o seu editor multi-faixa para projetos complexos.

+Como o Voicebox se compara a alternativas?

O Voicebox diferencia-se por ser uma solução local-first e open-source sem taxas de subscrição, ao contrário de serviços baseados em nuvem como o ElevenLabs. Comparado a ferramentas open-source como Coqui TTS e RVC, o Voicebox oferece uma experiência de 'estúdio' mais abrangente com ditado em todo o sistema e integração de agentes AI. Ao contrário do OpenAI Whisper, que é apenas um modelo de fala para texto, o Voicebox oferece um conjunto completo que inclui clonagem de voz, texto para fala e capacidades de agente AI.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.