Ferramenta de IA

Revisão do Voicebox

Voicebox é um estúdio de voz AI de código aberto, local-first, que oferece capacidades de clonagem de voz, geração de fala e ditado como uma alternativa gratuita às soluções baseadas em nuvem.

shipped 17 de jun. de 2026aifreemium

Ler análise completa↓

Visitar Voicebox↗

Voicebox - AI tool for voicebox. Professional illustration showing core functionality and features.

1Opera inteiramente localmente nas máquinas dos utilizadores, garantindo a privacidade dos dados e eliminando taxas de subscrição.

2Suporta 7 motores Text-to-Speech (TTS) intermutáveis e gera fala em 23 idiomas.

3Oferece clonagem de voz a partir de clipes de áudio tão curtos quanto alguns segundos, juntamente com ditado em todo o sistema.

4Apresenta um editor de linha do tempo multi-faixa para produção de áudio e integra-se com agentes AI via uma REST API.

Voicebox at a Glance

Pricing

freemium

Key Features

Voicebox is an open-source, local-first AI voice studio, initially released on February 4, 2026. · It supports voice cloning from as little as 3 seconds of audio and offers text-to-speech generation across seven distinct TTS engines. · The platform provides system-wide dictation into any application and integrates with AI agents via a local REST API.

Alternatives

ElevenLabs, Chatterbox (by Resemble AI), Coqui TTS (XTTS-v2), MyShell (OpenVoice)

Ferramentas similares

Comparar alternativas

Outras ferramentas a considerar

ElevenLabs

ElevenLabs is a market leader for highly natural-sounding, emotive voice cloning and text-to-speech, particularly for professional audio production.

Ver no Stork→

Chatterbox (by Resemble AI)

Chatterbox is a high-performance, open-source text-to-speech (TTS) model family built for real-time generative audio, offering speed, expressiveness, and zero-shot voice cloning with emotion control.

Ver no Stork→

Coqui TTS (XTTS-v2)

Coqui TTS, specifically the XTTS-v2 model, is a widely adopted open-source voice generation model known for high-quality, multilingual voice cloning from minimal audio samples.

Ver no Stork→

MyShell (OpenVoice)

MyShell offers OpenVoice, an open-source instant voice cloning AI library that provides unparalleled precision and granular control over tone, emotion, accent, rhythm, and intonation.

Visitar→

overview

O que é o Voicebox?

Voicebox é uma ferramenta de estúdio de voz AI desenvolvida pelos seus criadores que permite a desenvolvedores, criadores de conteúdo e utilizadores de acessibilidade clonar vozes, gerar fala e ditar em todo o sistema. Opera inteiramente na máquina do utilizador, garantindo a privacidade dos dados e eliminando taxas de subscrição. Voicebox.sh funciona como um estúdio de voz AI abrangente, distinto do modelo de AI generativa Voicebox da Meta, enfatizando a operação local, privacidade e controlo do utilizador. As suas capacidades principais incluem geração e clonagem de voz a partir de áudio mínimo, geração de fala em 23 idiomas usando sete motores Text-to-Speech (TTS) diferentes (por exemplo, Qwen3-TTS, LuxTTS, HumeAI TADA), e ditado em todo o sistema para qualquer campo de texto via uma tecla de atalho global. A plataforma também incorpora um Large Language Model (LLM) local incluído para refinamento de transcrições e suporta transferência de estilo interlinguístico, permitindo aos utilizadores falar qualquer idioma suportado na sua voz clonada.

quick facts

Fatos Rápidos

Atributo	Valor
Desenvolvedor	Seus desenvolvedores
Modelo de Negócio	Freemium (núcleo Open-source)
Preço	Gratuito para funcionalidade principal; sem taxas de subscrição ou custos por caractere
Plataformas	Mac (Apple Silicon), Windows, Linux, API
API Disponível	Sim (REST API em http://127.0.0.1:17493)
Integrações	Agentes AI, qualquer aplicação via ditado em todo o sistema
Fundado	Lançado por volta de 29 de janeiro de 2026
Financiamento	Snowflake startup accelerator (janeiro de 2026)

features

Principais Recursos do Voicebox

O Voicebox oferece um conjunto robusto de recursos projetados para operações abrangentes de voz AI local, atendendo tanto a desenvolvedores quanto a criadores de conteúdo:

1Clonagem de voz a partir de clipes de áudio, entrada de microfone ou áudio do sistema.
2Geração de texto para fala com 7 motores intermutáveis (por exemplo, Qwen3-TTS, LuxTTS, HumeAI TADA) suportando 23 idiomas.
3Ditado em todo o sistema para qualquer aplicação usando uma tecla de atalho global, com LLM local para refinamento de transcrição.
4Capacidades de integração para agentes AI, permitindo-lhes falar em vozes clonadas personalizadas via uma REST API incorporada.
5Editor de linha do tempo multi-faixa, conhecido como Stories Editor, para produzir conversas, podcasts e narrativas.
6Transcrições de áudio alimentadas por OpenAI Whisper (modelos Base, Small, Medium, Large, Turbo) suportando 99 idiomas.
7Pipeline de efeitos de áudio incluindo mudança de tom (pitch shift), reverberação (reverb), atraso (delay) e compressão para produção de áudio aprimorada.
8Transferência de estilo interlinguístico, permitindo que vozes clonadas falem em diferentes idiomas suportados.
9Recurso de personalidades de voz para reescrever ou compor texto no estilo de um personagem específico.

use cases

Quem Deve Usar o Voicebox?

O Voicebox é projetado para uma gama diversificada de utilizadores que necessitam de capacidades de voz AI locais, privadas e flexíveis:

1**Desenvolvedores e Engenheiros de AI:** Para integrar entrada/saída de voz em agentes AI e aplicações personalizadas via sua REST API, e para experimentar com AI de voz local sem dependências de nuvem.
2**Criadores de Conteúdo (Podcasters, Estúdios de Jogos, Produtores de Vídeo):** Para gerar e editar faixas de áudio, criar cenas com múltiplas vozes, produzir diálogos e garantir vozes de personagens consistentes para roteiros, dublagens e conteúdo de formato longo.
3**Desenvolvedores e Utilizadores de Acessibilidade:** Para fornecer assistência de fala e ferramentas de acessibilidade, permitindo que indivíduos sintetizem fala a partir de gravações antigas ou ditem para qualquer aplicação.
4**Produtores de Áudio:** Utilizando o editor de linha do tempo multi-faixa para produção de áudio complexa, incluindo conversas, podcasts e criação de narrativas.

pricing

Preços e Planos do Voicebox

O Voicebox opera num modelo freemium, oferecendo principalmente as suas funcionalidades principais como uma solução gratuita, open-source e local-first. Esta abordagem elimina os custos comuns associados aos serviços de voz AI baseados em nuvem. Os utilizadores beneficiam de controlo total sobre os seus dados de voz e privacidade, uma vez que todas as operações são executadas diretamente na sua máquina. Não há taxas de subscrição, chaves de API, limites de taxa ou custos por caractere para usar a aplicação Voicebox principal. Este modelo permite uma duração de geração ilimitada e uso extensivo sem incorrer em custos contínuos.

1**Nível Gratuito:** Todas as funcionalidades principais, duração de geração ilimitada, operação local-first, sem taxas de subscrição, sem chaves de API, sem limites de taxa, sem custos por caractere.

competitors

Voicebox vs Concorrentes

O Voicebox posiciona-se como uma alternativa robusta, local-first e open-source às soluções de voz AI baseadas em nuvem e open-source estabelecidas, enfatizando a privacidade e a relação custo-benefício.

ElevenLabsOn Stork Compare

ElevenLabs is a market leader for highly natural-sounding, emotive voice cloning and text-to-speech, particularly for professional audio production.

Unlike Voicebox's local-first and open-source approach, ElevenLabs is a cloud-based proprietary service, offering superior raw output quality for commercial use but with associated costs and data privacy considerations. It operates on a freemium model, but its free plan is limited, and heavy users may find it expensive.

Chatterbox (by Resemble AI)On Stork Compare

Chatterbox is a high-performance, open-source text-to-speech (TTS) model family built for real-time generative audio, offering speed, expressiveness, and zero-shot voice cloning with emotion control.

Similar to Voicebox, Chatterbox is open-source and developer-focused, allowing local deployment and emphasizing real-time performance and expressiveness. It offers a permissive MIT license for commercial use and is designed for production-grade applications.

Coqui TTS (XTTS-v2)On Stork Compare

Coqui TTS, specifically the XTTS-v2 model, is a widely adopted open-source voice generation model known for high-quality, multilingual voice cloning from minimal audio samples.

Like Voicebox, Coqui TTS is open-source and supports local deployment, with a strong focus on voice cloning and multilingual capabilities. However, it is computationally intensive, often requiring a good GPU, and its XTTS-v2 model is available under a non-commercial public model license, unlike Voicebox's MIT license.

MyShell (OpenVoice)↗

MyShell offers OpenVoice, an open-source instant voice cloning AI library that provides unparalleled precision and granular control over tone, emotion, accent, rhythm, and intonation.

MyShell's OpenVoice is an open-source voice cloning solution, similar to Voicebox's offerings, designed for high flexibility and resource efficiency in voice cloning. While MyShell also provides a web app, OpenVoice is primarily an open-source library for developers, emphasizing customization and fine-grained control over generated speech.

❓

Perguntas frequentes

+O que é o Voicebox?

+O Voicebox é gratuito?

Sim, o Voicebox opera num modelo freemium, com as suas funcionalidades principais oferecidas como uma solução gratuita, open-source e local-first. Não há taxas de subscrição, chaves de API, limites de taxa ou custos por caractere para usar a aplicação principal, permitindo uma duração de geração ilimitada.

+Quais são as principais funcionalidades do Voicebox?

As principais funcionalidades do Voicebox incluem clonagem de voz a partir de várias fontes de áudio, geração de texto para fala com 7 motores e 23 idiomas, ditado em todo o sistema com um LLM local, integração de agentes AI via uma REST API, um editor de linha do tempo multi-faixa, transcrição de áudio alimentada por Whisper em 99 idiomas e um pipeline de efeitos de áudio.

+Quem deve usar o Voicebox?

O Voicebox é ideal para desenvolvedores e engenheiros de AI que integram I/O de voz em aplicações, criadores de conteúdo (podcasters, estúdios de jogos) que necessitam de clonagem de voz e geração de fala, desenvolvedores e utilizadores de acessibilidade que requerem assistência de fala, e produtores de áudio que utilizam o seu editor multi-faixa para projetos complexos.

+Como o Voicebox se compara a alternativas?

O Voicebox diferencia-se por ser uma solução local-first e open-source sem taxas de subscrição, ao contrário de serviços baseados em nuvem como o ElevenLabs. Comparado a ferramentas open-source como Coqui TTS e RVC, o Voicebox oferece uma experiência de 'estúdio' mais abrangente com ditado em todo o sistema e integração de agentes AI. Ao contrário do OpenAI Whisper, que é apenas um modelo de fala para texto, o Voicebox oferece um conjunto completo que inclui clonagem de voz, texto para fala e capacidades de agente AI.

Mais no Stork

Ferramentas IA relacionadas

Mais ferramentas nesta categoria, classificadas por sinal da comunidade

Explorar o diretório completo →

atlascloud-cli

🤖 AI Tools

AtlasCloud CLI para chamar APIs de LLM, imagem, vídeo e áudio a partir de terminais, scripts e CI jobs.

SocratiCode

🤖 AI Tools

Inteligência de codebase Enterprise-grade (mais de 40 milhões de linhas de código), zero-setup, Plugin/Skill/Extension ou MCP local e privada: hybrid semantic search, polyglot dependency graphs, symbol-level impact analysis e call-flow, interactive HTML viewer, cross-project e branch-aware search, conhecimento de DB/API/infra. 61% menos t

DeepSeek-Reasonix

🤖 AI Tools

DeepSeek-native agente de codificação de IA para o seu terminal. Projetado em torno da estabilidade do prefix-cache — deixe-o a correr.

Soniox

🤖 AI Tools

Soniox é uma plataforma de IA de fala multilíngue que oferece APIs de speech-to-text em tempo real, text-to-speech e tradução com alta precisão e baixa latência.

Synthflow

🤖 AI Tools

Synthflow é uma plataforma de IA de voz pronta para empresas que automatiza chamadas telefônicas com agentes semelhantes a humanos usando ferramentas no-code ou APIs.

Wrestle AI

🤖 AI Tools

Wrestle AI é um aplicativo de treinamento de luta livre impulsionado por IA que analisa lutas e fornece feedback instantâneo para ajudar atletas a melhorar sua técnica.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.

List your tool What you get

Revisão do Voicebox

Voicebox at a Glance

Comparar alternativas

O que é o Voicebox?

Fatos Rápidos

Principais Recursos do Voicebox

Quem Deve Usar o Voicebox?

Preços e Planos do Voicebox

Voicebox vs Concorrentes

Perguntas frequentes

Ferramentas IA relacionadas

This page is doing a job for someone else’s tool.

Featured in articles