Skip to content
Outil d'IA

Revue de Microsoft MAI-Voice-2

Microsoft MAI-Voice-2 est un modèle avancé de synthèse vocale (TTS) conçu pour générer une parole très expressive, naturelle et de haute fidélité.

shipped 5 juin 2026aifreemium
Microsoft MAI-Voice-2 - AI tool
1Lancé le 2 juin 2026, lors de Microsoft Build 2026, comme une mise à niveau de MAI-Voice-1.
2Prend en charge 15 langues dans 18 locales, y compris l'anglais, l'italien, le français, l'allemand et l'espagnol.
3Propose le 'zero-shot voice prompting', permettant de cloner des voix à partir de 5 à 60 secondes d'audio de référence.
4Préféré à son prédécesseur, MAI-Voice-1, 72 % du temps lors des tests de préférence internes.

Microsoft MAI-Voice-2 at a Glance

Best For
product-hunt
Pricing
freemium
Key Features
Supports 15 languages, maintaining naturalness and expressiveness across them. · Achieved 72% preference over its predecessor, MAI-Voice-1, in side-by-side preference tests. · Clones specific voices from audio samples ranging from 5 to 60 seconds.
Alternatives
ElevenLabs, Google Cloud Text-to-Speech, Amazon Polly, Murf.ai

About Microsoft MAI-Voice-2

Headquarters
Redmond, USA
</>Embed "Featured on Stork" Badge
Badge previewBadge preview light
<a href="https://www.stork.ai/en/microsoft-mai-voice-2" target="_blank" rel="noopener noreferrer"><img src="https://www.stork.ai/api/badge/microsoft-mai-voice-2?style=dark" alt="Microsoft MAI-Voice-2 - Featured on Stork.ai" height="36" /></a>
[![Microsoft MAI-Voice-2 - Featured on Stork.ai](https://www.stork.ai/api/badge/microsoft-mai-voice-2?style=dark)](https://www.stork.ai/en/microsoft-mai-voice-2)

overview

Qu'est-ce que Microsoft MAI-Voice-2 ?

Microsoft MAI-Voice-2 est un modèle de synthèse vocale (TTS) développé par Microsoft qui permet aux développeurs et aux organisations de générer une parole très expressive, naturelle et de haute fidélité. Il prend en charge le clonage vocal et la sortie multilingue dans 15 langues. Faisant partie de la famille plus large MAI (Microsoft AI) de Microsoft, MAI-Voice-2 convertit le texte écrit en audio parlé, capturant l'intonation, le rythme et la nuance émotionnelle semblables à ceux de l'homme. Le modèle a été officiellement lancé le 2 juin 2026, lors de Microsoft Build 2026, succédant à MAI-Voice-1 avec des améliorations significatives en matière de support linguistique et de contrôle. Il est disponible dans Microsoft Azure Foundry et est en cours d'intégration dans VSCode et Dynamics 365 Contact Center.

quick facts

Faits en bref

AttributValeur
DéveloppeurMicrosoft
Modèle économiqueFreemium
TarificationBasée sur l'utilisation à 22 $ par million de 'input tokens'
PlateformesMicrosoft Azure Foundry, VSCode, Dynamics 365 Contact Center
API disponibleOui
IntégrationsVSCode, Dynamics 365 Contact Center, écosystème Azure AI Speech
Siège socialRedmond, USA

features

Fonctionnalités clés de Microsoft MAI-Voice-2

Microsoft MAI-Voice-2 offre un ensemble complet de fonctionnalités conçues pour la synthèse vocale avancée et l'adaptation vocale, s'appuyant sur son prédécesseur, MAI-Voice-1. Ces capacités visent à fournir une sortie audio de haute fidélité avec un contrôle granulaire et un large support linguistique pour diverses applications.

  • 1Extension multilingue : Prend en charge 15 langues dans 18 locales, y compris l'anglais (États-Unis, Australie), l'italien, le français, l'allemand, l'hindi, l'espagnol (Espagne, Mexique), le portugais (Brésil, Portugal), le coréen, le chinois (simplifié), le turc, le russe, le thaï, le néerlandais, le roumain et le hongrois.
  • 2Contrôle émotionnel amélioré : Permet un contrôle émotionnel granulaire via des balises d'émotion (par exemple, triste, chuchoté, excité) et une parole expressive basée sur les rôles (par exemple, entraîneur de motivation, commentateur sportif).
  • 3Zero-Shot Voice Prompting : Permet le clonage vocal instantané en utilisant seulement 5 à 60 secondes d'audio de référence, sans nécessiter de réglage fin, disponible pour toutes les langues prises en charge.
  • 4Capacités de 'Code-Switching' : Prend en charge la parole naturelle en langues mixtes pour certaines paires de langues, telles que l'hindi-anglais et l'espagnol-anglais.
  • 5Génération de parole haute fidélité : Produit une parole naturelle et de haute fidélité, avec des tests internes indiquant une qualité indiscernable des enregistrements humains.
  • 6Disponibilité de niveau entreprise : Disponible via Microsoft Azure Foundry et intégré aux plateformes d'entreprise comme VSCode et Dynamics 365 Contact Center.
  • 7Garde-fous de consentement : Comprend des mécanismes intégrés pour assurer une utilisation éthique de la technologie de clonage vocal.

use cases

Qui devrait utiliser Microsoft MAI-Voice-2 ?

Microsoft MAI-Voice-2 est conçu pour un large éventail d'utilisateurs et d'organisations nécessitant des capacités avancées de synthèse vocale, de clonage vocal et de génération audio expressive. Ses fonctionnalités s'adressent à la fois aux développeurs créant des applications basées sur l'IA et aux créateurs de contenu recherchant des voix off de haute qualité.

  • 1Développeurs d'assistants IA : Pour créer des voix de marque pour Copilot, d'autres applications, appareils et systèmes de support client nécessitant une sortie vocale cohérente et engageante.
  • 2Producteurs de divertissement et de médias : Idéal pour générer des voix de personnages pour les jeux, les podcasts, les livres audio et les expériences de réalité augmentée/virtuelle (RA/RV).
  • 3Fournisseurs de solutions d'accessibilité : Convient pour fournir une narration aux utilisateurs malvoyants et développer des technologies vocales d'assistance pour les personnes ayant des troubles de la parole.
  • 4Créateurs de contenu éducatif : Pour développer du contenu d'apprentissage interactif avec une narration expressive pour les instructeurs et les personnages dans les cours et les simulations.
  • 5Créateurs de contenu et marketeurs : Permet aux créateurs de contenu de convertir du texte en audio en utilisant leurs propres voix clonées sans avoir besoin d'un studio professionnel, améliorant ainsi le marketing, la publicité et les annonces publiques.

pricing

Tarification et plans de Microsoft MAI-Voice-2

Microsoft MAI-Voice-2 fonctionne sur un modèle de tarification basé sur l'utilisation, accessible via des plateformes telles que OpenRouter. La métrique de coût principale est basée sur les 'input tokens' traités. Bien que le modèle économique global soit classé comme freemium, la tarification détaillée spécifique pour un niveau gratuit ou une utilisation gratuite initiale n'est pas publiquement détaillée dans les informations fournies, suggérant une concentration sur la consommation des développeurs et des entreprises via les services Azure. À titre de comparaison, son prédécesseur, MAI-Voice-1, était tarifé par million de caractères, ce qui indique un changement dans la métrique de facturation pour MAI-Voice-2.

  • 1MAI-Voice-2 : 22 $ par million de 'input tokens', avec 0 $ par million de 'output tokens'.

competitors

Microsoft MAI-Voice-2 face à ses concurrents

Microsoft MAI-Voice-2 entre dans un paysage concurrentiel dominé par des fournisseurs établis de génération de voix par IA et des startups bien financées. La stratégie de Microsoft est de tirer parti de son écosystème Azure AI, en se concentrant sur la fiabilité, l'évolutivité et la rentabilité de niveau entreprise pour différencier son offre. Le modèle vise à concurrencer sur la qualité, la vitesse et un support linguistique étendu.

1

Widely regarded as a market leader for realistic and emotionally expressive AI voices, offering first-class voice cloning features.

ElevenLabs often surpasses MAI-Voice-2 in emotional depth and cinematic performance, making it a preferred choice for media and storytelling, and offers a freemium model.

2
Google Cloud Text-to-Speech

Offers a vast selection of languages and voices, including high-quality WaveNet voices known for their natural sound quality.

As a direct cloud competitor, Google Cloud Text-to-Speech provides extensive language support and specialized telephony models, often outperforming Azure in global reach and specific dialects.

3
Amazon Polly

Provides neural voices (NTTS) that sound more fluid and human than standard voices and integrates seamlessly with other AWS services.

Similar to MAI-Voice-2, Amazon Polly offers high-quality neural voices for various applications, with its strength lying in deep integration within the broader AWS ecosystem.

4

Features a user-friendly studio for creating voiceovers, offering a large library of over 120 voices in 20+ languages.

Murf.ai focuses on ease of use for content creators, providing a more accessible studio experience compared to the developer-centric Azure Foundry for MAI-Voice-2, and offers a freemium model.

5

A strong provider in voice cloning and speech synthesis, allowing users to create custom voices and modulate emotions in real-time.

Resemble AI specializes in advanced voice cloning and real-time emotion control, offering more granular customization for unique brand voices than MAI-Voice-2's current offerings.

Questions fréquentes

+Qu'est-ce que Microsoft MAI-Voice-2 ?

Microsoft MAI-Voice-2 est un modèle de synthèse vocale (TTS) développé par Microsoft qui permet aux développeurs et aux organisations de générer une parole très expressive, naturelle et de haute fidélité. Il prend en charge le clonage vocal et la sortie multilingue dans 15 langues.

+Microsoft MAI-Voice-2 est-il gratuit ?

Microsoft MAI-Voice-2 fonctionne sur un modèle économique freemium. Les détails de tarification spécifiques indiquent un coût basé sur l'utilisation de 22 $ par million de 'input tokens', avec 0 $ par million de 'output tokens'. Les détails concernant un niveau gratuit ou une utilisation gratuite initiale ne sont pas publiquement spécifiés dans les informations fournies.

+Quelles sont les principales fonctionnalités de Microsoft MAI-Voice-2 ?

Les principales fonctionnalités de Microsoft MAI-Voice-2 incluent l'expansion multilingue prenant en charge 15 langues, un contrôle émotionnel amélioré via des balises et une parole basée sur les rôles, le 'zero-shot voice prompting' pour le clonage vocal instantané à partir de 5 à 60 secondes d'audio, et les capacités de 'code-switching' pour la parole en langues mixtes. Il offre également une génération de parole haute fidélité et une disponibilité de niveau entreprise au sein de Microsoft Azure Foundry.

+Qui devrait utiliser Microsoft MAI-Voice-2 ?

Microsoft MAI-Voice-2 est destiné aux développeurs d'assistants IA, aux producteurs de divertissement et de médias, aux fournisseurs de solutions d'accessibilité, aux créateurs de contenu éducatif, ainsi qu'aux créateurs de contenu et aux marketeurs. Il convient à toute personne nécessitant des capacités avancées de synthèse vocale, de clonage vocal et de génération audio expressive pour les applications, les médias et les solutions d'entreprise.

+Comment Microsoft MAI-Voice-2 se compare-t-il aux alternatives ?

Microsoft MAI-Voice-2 est en concurrence avec des services comme ElevenLabs, Google Cloud Text-to-Speech, LOVO AI et Murf AI. Il se différencie par sa couverture linguistique étendue (15 langues), son contrôle émotionnel granulaire, son clonage vocal 'zero-shot' efficace dans toutes les langues prises en charge, et son intégration au sein de l'écosystème Azure AI, en se concentrant sur la fiabilité et l'évolutivité de niveau entreprise.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.