Guide pour prompter Gemini 3.1 Flash TTS

📖 Sommaire

1. Vue d’ensemble du modèle
2. Instructions de style vocal
3. Le framework de prompting avec balises audio
- La formule magique :
4. Architecture de la création vocale
5. Diriger l’expression et le rythme
6. Cas d’usage pratiques

Gemini 3.1 Flash TTS, le dernier modèle de synthèse vocale (Text-to-Speech) de Google, est désormais disponible sur Google AI Studio et Vertex AI. Ce modèle offre une expressivité et un niveau de contrôle inédits, permettant aux développeurs et aux entreprises de construire des applications vocales avancées.

La grande nouveauté réside dans sa contrôlabilité : vous pouvez orienter l’interprétation vocale grâce à plus de 200 balises audio (“audio tags”). Que vous développiez des bandes-son pour des jeux vidéo accessibles, des systèmes bancaires automatisés ou des livres audio interactifs, voici comment tirer le meilleur parti de ce modèle.

1. Vue d’ensemble du modèle

Gemini 3.1 Flash TTS est disponible en préversion publique (public preview). Il offre une synthèse vocale haute fidélité avec un contrôle précis dans plus de 70 langues. Il intègre des optimisations avancées pour gérer le style, l’accent, le rythme et l’expressivité.

Note de sécurité : L’audio généré par Gemini 3.1 Flash TTS est protégé par SynthID, un filigrane numérique intégré directement dans le fichier audio pour aider à identifier le contenu généré par l’IA.

Gemini 3.1 Flash TTS

2. Instructions de style vocal

Pour commencer, la configuration se fait en quelques étapes simples :

Choisissez une voix de base : Parmi plus de 30 voix préconfigurées.
Sélectionnez la langue cible : Parmi plus de 70 options et variantes régionales supportées.
Ajoutez des instructions en langage naturel (Style) : Vous pouvez décrire l’accent régional souhaité, un ton de narrateur professionnel, ou une ambiance plus décontractée.

Une fois cette base établie, vous pouvez intégrer des balises audio directement dans votre prompt textuel.

3. Le framework de prompting avec balises audio

L’introduction des balises audio (audio tags) est le cœur de Gemini 3.1 Flash TTS. En insérant des commandes en langage naturel directement dans le texte, vous guidez le style vocal, le rythme et le ton avec une granularité exceptionnelle.

La formule magique :

[balise de rythme] + texte parlé + [balise d'expression] + texte parlé + [balise de pause] + texte parlé

Règles importantes :

Toutes les balises doivent être entourées de crochets (ex: [whispers], [happy]).
Insérez-les exactement là où vous souhaitez que la transition se produise.
Séparez les balises par du texte ou de la ponctuation ; ne placez pas deux balises l’une à côté de l’autre.
Note : Bien que le texte puisse être en français, les balises doivent être rédigées en anglais.

Exemple en français :

[cautious] L’ombre avança lentement dans la pièce silencieuse. [whispers] Le document secret devait être caché ici. [short pause] Mais où ? [gasp] Soudain, un bruit sourd résonna dans le couloir. [panic] Il fallait sortir d’ici immédiatement.

Interface Gemini avec contrôle de la timeline

4. Architecture de la création vocale

Pour bien comprendre comment vos instructions sont interprétées par Gemini, voici un diagramme de l’architecture du processus :

graph TD A[Texte d'entrée avec balises
ex: '[whispers] Bonjour'] --> B{Analyseur Gemini 3.1 TTS} B --> C[Extraction du Texte: 'Bonjour'] B --> D[Extraction des Balises: 'whispers']

E[Configuration de Base<br/>Voix / Langue / Accent] --> F{Synthétiseur Vocal Neural}

C --> F
D -->|Modulateur d'Émotion & Rythme| F

F --> G[Audio Brut]
G --> H[Injection du filigrane SynthID]
H --> I([Fichier Audio Final Haute Fidélité])

style A fill:#e8f0fe,stroke:#1a73e8,stroke-width:2px
style I fill:#ceead6,stroke:#1e8e3e,stroke-width:2px
style F fill:#fce8e6,stroke:#d93025,stroke-width:2px

5. Diriger l’expression et le rythme

Gemini 3.1 Flash TTS supporte plus de 200 balises pour générer des voix expressives.

Émotions communes : [determination], [enthusiasm], [adoration], [nervousness], [frustration], [excitement], [curiosity], [hope], [anger], [positive], [neutral], [negative], etc.
Contrôle du rythme : Utilisez des balises comme [slow] (lent) ou [fast] (rapide). Pour marquer des temps d’arrêt dramatiques ou informatifs, utilisez [short pause] ou [long pause].
Vocalisations non verbales : Le modèle gère parfaitement des sons comme [laughs] (rires) ou [whispers] (chuchotements) pour ajouter de la texture au rendu final.

6. Cas d’usage pratiques

Accessibilité et design inclusif

La synthèse vocale est cruciale pour rendre les espaces numériques accessibles.

Jeux vidéo : Pour la navigation dans les menus par exemple.

[enthusiasm] Vous avez sélectionné le niveau de la forêt crépusculaire. [interest] Cette zone contient des artefacts cachés.
Audiodescription TV/Médias : La voix synthétique s’adapte à l’énergie de la scène sans distraire de l’audio principal.

Exemple d'application dans un jeu vidéo

Création de contenu et Divertissement

Pour les livres audio, le modèle adapte son rythme au contexte naturel du texte. L’empilement de balises permet de créer du suspense.

Astuce : Pour des textes longs, le taggage manuel peut être chronophage. Vous pouvez utiliser un LLM (comme Gemini 1.5 Pro) pour pré-annoter automatiquement votre texte avec les balises adéquates avant de le passer au modèle TTS.

Exemple pour la création de contenu audio

Cas d’usage Entreprise

La précision du ton est fondamentale pour l’image de marque et la relation client.

Secteur Bancaire : Transition fluide entre un ton sérieux pour une alerte et un ton positif pour la résolution.

[neutral] Bonjour. Ceci est une alerte anti-fraude. [seriousness] Nous avons détecté une activité inhabituelle sur votre carte se terminant par [slow] 4 3 2 1.
Notifications urgentes : Accélérer le rythme pour souligner l’urgence d’une action (ex: porte d’embarquement fermant bientôt).

Exemple pour des applications bancaires