Cette page a été traduite par l'API Cloud Translation.

Chirp 3 : Voix personnalisée instantanée

La voix personnalisée instantanée de Text-to-Speech permet aux utilisateurs de créer des modèles de voix personnalisées en entraînant un modèle avec leurs propres enregistrements audio de haute qualité. La voix personnalisée instantanée permet de générer rapidement des voix personnelles, qui peuvent ensuite être utilisées pour synthétiser de l'audio à l'aide de l'API Cloud Text-to-Speech, compatible à la fois avec le streaming et les textes longs.

Pour explorer et tester la voix personnalisée instantanée dans la console Google Cloud , consultez Media Studio.

Essayer la voix personnalisée instantanée (Vertex AI Studio)

Langues disponibles

Les voix personnalisées instantanées sont disponibles dans les langues suivantes :

Langue	Code BCP-47	Déclaration de consentement
Arabe (XA)	ar-XA	.أنا مالك هذا الصوت وأوافق على أن تستخدم Google هذا الصوت لإنشاء نموذج صوتي اصطناعي
Bengali (Inde)	bn-IN	আমি এই ভয়েসের মালিক এবং আমি একটি সিন্থেটিক ভয়েস মডেল তৈরি করতে এই ভয়েস ব্যবহার করে Google-এর সাথে সম্মতি দিচ্ছি।
Chinois (Chine)	cmn-CN	我是此声音的拥有者并授权谷歌使用此声音创建语音合成模型
Anglais (Australie)	en-AU	I am the owner of this voice and I consent to Google using this voice to create a synthetic voice model.
Anglais (Inde)	en-IN	I am the owner of this voice and I consent to Google using this voice to create a synthetic voice model.
Anglais (Royaume-Uni)	en-GB	I am the owner of this voice and I consent to Google using this voice to create a synthetic voice model.
Anglais (États-Unis)	en-US	I am the owner of this voice and I consent to Google using this voice to create a synthetic voice model.
Français (Canada)	fr-CA	Je suis le propriétaire de cette voix et j'autorise Google à l'utiliser pour créer un modèle de voix synthétique.
Français (France)	fr-FR	Je suis le propriétaire de cette voix et j'autorise Google à l'utiliser pour créer un modèle de voix synthétique.
Allemand (Allemagne)	de-DE	Ich bin der Eigentümer dieser Stimme und bin damit einverstanden, dass Google diese Stimme zur Erstellung eines synthetischen Stimmmodells verwendet.
Gujarati (Inde)	gu-IN	હું આ વોઈસનો માલિક છું અને સિન્થેટિક વોઈસ મોડલ બનાવવા માટે આ વોઈસનો ઉપયોગ કરીને google ને હું સંમતિ આપું છું
Hindi (Inde)	hi-IN	मैं इस आवाज का मालिक हूं और मैं सिंथेटिक आवाज मॉडल बनाने के लिए Google को इस आवाज का उपयोग करने की सहमति देता हूं
Indonésien (Indonésie)	id-ID	Saya pemilik suara ini dan saya menyetujui Google menggunakan suara ini untuk membuat model suara sintetis.
Italien (Italie)	it-IT	Sono il proprietario di questa voce e acconsento che Google la utilizzi per creare un modello di voce sintetica.
Japonais (Japon)	ja-JP	私はこの音声の所有者であり、Googleがこの音声を使用して音声合成モデルを作成することを承認します。
Kannada (Inde)	kn-IN	ನಾನು ಈ ಧ್ವನಿಯ ಮಾಲಿಕ ಮತ್ತು ಸಂಶ್ಲೇಷಿತ ಧ್ವನಿ ಮಾದರಿಯನ್ನು ರಚಿಸಲು ಈ ಧ್ವನಿಯನ್ನು ಬಳಸಿಕೊಂಡುಗೂಗಲ್ ಗೆ ನಾನು ಸಮ್ಮತಿಸುತ್ತೇನೆ.
Coréen (Corée)	ko-KR	나는 이 음성의 소유자이며 구글이 이 음성을 사용하여 음성 합성 모델을 생성할 것을 허용합니다.
Malayalam (Inde)	ml-IN	ഈ ശബ്ദത്തിന്റെ ഉടമ ഞാനാണ്, ഒരു സിന്തറ്റിക് വോയ്‌സ് മോഡൽ സൃഷ്ടിക്കാൻ ഈ ശബ്‌ദം ഉപയോഗിക്കുന്നതിന് ഞാൻ Google-ന് സമ്മതം നൽകുന്നു."
Marathi (Inde)	mr-IN	मी या आवाजाचा मालक आहे आणि सिंथेटिक व्हॉइस मॉडेल तयार करण्यासाठी हा आवाज वापरण्यासाठी मी Google ला संमती देतो
Néerlandais (Pays-Bas)	nl-NL	Ik ben de eigenaar van deze stem en ik geef Google toestemming om deze stem te gebruiken om een synthetisch stemmodel te maken.
Polonais (Pologne)	pl-PL	Jestem właścicielem tego głosu i wyrażam zgodę na wykorzystanie go przez Google w celu utworzenia syntetycznego modelu głosu.
Portugais (Brésil)	pt-BR	Eu sou o proprietário desta voz e autorizo o Google a usá-la para criar um modelo de voz sintética.
Russe (Russie)	ru-RU	Я являюсь владельцем этого голоса и даю согласие Google на использование этого голоса для создания модели синтетического голоса.
Tamoul (Inde)	ta-IN	நான் இந்த குரலின் உரிமையாளர் மற்றும் செயற்கை குரல் மாதிரியை உருவாக்க இந்த குரலை பயன்படுத்த குகல்க்கு நான் ஒப்புக்கொள்கிறேன்.
Télougou (Inde)	te-IN	నేను ఈ వాయిస్ యజమానిని మరియు సింతటిక్ వాయిస్ మోడల్ ని రూపొందించడానికి ఈ వాయిస్ ని ఉపయోగించడానికి googleకి నేను సమ్మతిస్తున్నాను.
Thaï (Thaïlande)	th-TH	ฉันเป็นเจ้าของเสียงนี้ และฉันยินยอมให้ Google ใช้เสียงนี้เพื่อสร้างแบบจำลองเสียงสังเคราะห์
Turc (Turquie)	tr-TR	Bu sesin sahibi benim ve Google'ın bu sesi kullanarak sentetik bir ses modeli oluşturmasına izin veriyorum.
Vietnamien (Viêt Nam)	vi-VN	Tôi là chủ sở hữu giọng nói này và tôi đồng ý cho Google sử dụng giọng nói này để tạo mô hình giọng nói tổng hợp.
Espagnol (Espagne)	es-ES	Soy el propietario de esta voz y doy mi consentimiento para que Google la utilice para crear un modelo de voz sintética.
Espagnol (États-Unis)	es-US	Soy el propietario de esta voz y doy mi consentimiento para que Google la utilice para crear un modelo de voz sintética.

Disponibilité en fonction des régions

La voix personnalisée instantanée est disponible dans les régions Google Cloudsuivantes :

ZoneGoogle Cloud	Méthode acceptée	Disponibilité pour le lancement
`global`	Création, synthèse	Version Preview privée
`us`	Synthèse	Version Preview privée
`eu`	Synthèse	Aperçu privé
`asia-southeast1`	Création, synthèse	Aperçu privé
`asia-northeast1`	Création, synthèse	Aperçu privé
`europe-west2`	Création, synthèse	Aperçu privé

Formats de sortie acceptés

Le format de réponse par défaut est LINEAR16, mais d'autres formats sont acceptés, y compris :

Méthode API	Format
`streaming`	ALAW, MULAW, OGG_OPUS et PCM
`batch`	ALAW, MULAW, MP3, OGG_OPUS et PCM

Compatibilité des fonctionnalités et limites

Fonctionnalité	Assistance	Description
SSML	Non	Balises SSML pour personnaliser le son synthétique.
Requêtes textuelles	Oui	Utilisez la ponctuation, les pauses et les hésitations pour ajouter un flux et un rythme naturels à Text-to-Speech.
Codes temporels	Non	Codes temporels au niveau du mot.
Mettre en veille des balises	Expérimentation	Ajoutez des pauses à la demande dans l'audio synthétisé.
Contrôle du rythme	Oui	Ajustez la vitesse de l'audio synthétisé, de 0,25x à 2x.
Contrôle de la prononciation	Expérimentation	Prononciations personnalisées de mots ou d'expressions à l'aide de l'encodage phonétique IPA ou X-SAMPA.

Utiliser Chirp 3 : voix personnalisée instantanée

Les sections suivantes expliquent comment utiliser les fonctionnalités de Chirp 3 : voix personnalisée instantanée dans l'API Text-to-Speech.

Enregistrer le consentement et l'audio de référence

Enregistrez la déclaration de consentement : pour respecter les consignes légales et éthiques concernant la voix personnalisée instantanée, enregistrez la déclaration de consentement requise dans la langue appropriée, au format audio mono et avec un encodage audio compatible, d'une durée maximale de 10 secondes. (Je suis le propriétaire de cette voix et j'accepte que Google l'utilise pour créer un modèle de voix synthétique.)
Enregistrez l'audio de référence : utilisez le micro de votre ordinateur pour enregistrer jusqu'à 10 secondes d'audio dans un fichier audio mono avec un encodage audio compatible. Il ne doit pas y avoir de bruit de fond pendant l'enregistrement. Enregistrez le consentement et l'audio de référence dans le même environnement.
Stockez les fichiers audio : sauvegardez les fichiers audio enregistrés dans un emplacement Cloud Storage désigné.

Consignes pour produire des audios de référence et de consentement de haute qualité

Suivez ces consignes pour produire des contenus audio de référence et de consentement de haute qualité :

L'audio doit durer le plus près possible de 10 secondes.
L'audio doit inclure des pauses et un rythme naturels.
Le contenu audio doit comporter un minimum de bruit de fond.
Pour en savoir plus, consultez Encodages audio compatibles. Vous pouvez utiliser n'importe quelle fréquence d'échantillonnage.
Le modèle reproduit la qualité du micro. Par conséquent, si l'enregistrement est flou, la sortie le sera également.
La voix doit être dynamique et un peu plus expressive que le résultat final. La voix doit également avoir la cadence que vous souhaitez donner à la voix clonée. Par exemple, si l'audio de référence ne comporte aucune pause naturelle, la voix clonée ne sera pas capable de faire des pauses.
Une bonne requête est plus enthousiaste et énergique que monotone et ennuyeuse. Le modèle prendra donc des indices pour reproduire cette énergie.

Encodages audio compatibles

Les encodages audio d'entrée suivants sont acceptés :

LINEAR16
PCM
MP3
M4A

Créer une voix personnalisée instantanée à l'aide de l'API REST

Une voix personnalisée instantanée se présente sous la forme d'une clé de clonage vocal, qui est une représentation sous forme de chaîne de texte de vos données vocales.

Points importants à retenir

Voici quelques points importants à connaître sur la création d'une voix personnalisée :

Vous pouvez créer un nombre illimité de clés de clonage vocal, car elles sont stockées côté client et fournies par requête.
La même clé de clonage vocal peut être utilisée par plusieurs clients ou appareils en même temps.
Vous pouvez créer 10 clés de clonage vocal par minute et par projet. Pour en savoir plus, consultez la section Limite de requêtes.
Vous ne pouvez pas utiliser de script de consentement personnalisé à la place de celui par défaut. Vous devez utiliser le script de consentement fourni dans Langues disponibles.

import requests, os, json

def create_instant_custom_voice_key(
    access_token, project_id, reference_audio_bytes, consent_audio_bytes
):
    url = "https://texttospeech.googleapis.com/v1beta1/voices:generateVoiceCloningKey"

    request_body = {
        "reference_audio": {
            # Supported audio_encoding values are LINEAR16, PCM, MP3, and M4A.
            "audio_config": {"audio_encoding": "LINEAR16"},
            "content": reference_audio_bytes,
        },
        "voice_talent_consent": {
            # Supported audio_encoding values are LINEAR16, PCM, MP3, and M4A.
            "audio_config": {"audio_encoding": "LINEAR16"},
            "content": consent_audio_bytes,
        },
        "consent_script": "I am the owner of this voice and I consent to Google using this voice to create a synthetic voice model.",
        "language_code": "en-US",
    }

    try:
        headers = {
            "Authorization": f"Bearer {access_token}",
            "x-goog-user-project": project_id,
            "Content-Type": "application/json; charset=utf-8",
        }

        response = requests.post(url, headers=headers, json=request_body)
        response.raise_for_status()

        response_json = response.json()
        return response_json.get("voiceCloningKey")

    except requests.exceptions.RequestException as e:
        print(f"Error making API request: {e}")
    except json.JSONDecodeError as e:
        print(f"Error decoding JSON response: {e}")
    except Exception as e:
        print(f"An unexpected error occurred: {e}")

Synthétiser avec une voix personnalisée instantanée à l'aide de l'API REST

Utilisez la clé de clonage de voix pour synthétiser des contenus audio à l'aide de l'API REST.

import requests, os, json, base64
from IPython.display import Audio, display

def synthesize_text_with_cloned_voice(access_token, project_id, voice_key, text):
    url = "https://texttospeech.googleapis.com/v1beta1/text:synthesize"

    request_body = {
        "input": {
            "text": text
        },
        "voice": {
            "language_code": "en-US",
            "voice_clone": {
                "voice_cloning_key": voice_key,
            }
        },
        "audioConfig": {
            # Supported audio_encoding values are LINEAR16, PCM, MP3, and M4A.
            "audioEncoding": "LINEAR16",
        }
    }

    try:
        headers = {
            "Authorization": f"Bearer {access_token}",
            "x-goog-user-project": project_id,
            "Content-Type": "application/json; charset=utf-8"
        }

        response = requests.post(url, headers=headers, json=request_body)
        response.raise_for_status()

        response_json = response.json()
        audio_content = response_json.get("audioContent")

        if audio_content:
            display(Audio(base64.b64decode(audio_content), rate=24000))
        else:
            print("Error: Audio content not found in the response.")
            print(response_json)

    except requests.exceptions.RequestException as e:
        print(f"Error making API request: {e}")
    except json.JSONDecodeError as e:
        print(f"Error decoding JSON response: {e}")
    except Exception as e:
        print(f"An unexpected error occurred: {e}")

Synthétiser avec une voix personnalisée instantanée à l'aide de la bibliothèque cliente Python

Cet exemple utilise la bibliothèque cliente Python pour effectuer la synthèse vocale personnalisée instantanée, à l'aide d'une clé de clonage vocal enregistrée dans le fichier voice_cloning_key.txt. Pour générer une clé de clonage vocal, consultez Créer une voix personnalisée instantanée à l'aide de l'API REST.

from google.cloud import texttospeech
from google.cloud.texttospeech_v1beta1.services.text_to_speech import client


def perform_voice_cloning(
    voice_cloning_key: str,
    transcript: str,
    language_code: str,
    synthesis_output_path: str,
    tts_client: client.TextToSpeechClient,
) -> None:
  """Perform voice cloning and write output to a file.

  Args:
    voice_cloning_key: The voice cloning key.
    transcript: The transcript to synthesize.
    language_code: The language code.
    synthesis_output_path: The synthesis audio output path.
    tts_client: The TTS client to use.
  """
  voice_clone_params = texttospeech.VoiceCloneParams(
      voice_cloning_key=voice_cloning_key
  )
  voice = texttospeech.VoiceSelectionParams(
      language_code=language_code, voice_clone=voice_clone_params
  )
  request = texttospeech.SynthesizeSpeechRequest(
      input=texttospeech.SynthesisInput(text=transcript),
      voice=voice,
      audio_config=texttospeech.AudioConfig(
          audio_encoding=texttospeech.AudioEncoding.LINEAR16,
          sample_rate_hertz=24000,
      ),
  )
  response = tts_client.synthesize_speech(request)
  with open(synthesis_output_path, 'wb') as out:
    out.write(response.audio_content)
    print(f'Audio content written to file {synthesis_output_path}.')


if __name__ == '__main__':
  client = texttospeech.TextToSpeechClient()
  with open('voice_cloning_key.txt', 'r') as f:
    key = f.read()
  perform_voice_cloning(
      voice_cloning_key=key,
      transcript='Hello world!',
      language_code='en-US',
      synthesis_output_path='/tmp/output.wav',
      tts_client=client,
  )

Synthétiser en flux continu avec une voix personnalisée instantanée à l'aide de la bibliothèque cliente Python

Cet exemple utilise la bibliothèque cliente Python pour effectuer la synthèse d'une voix personnalisée instantanée en flux continu, à l'aide d'une clé de clonage vocal enregistrée dans voice_cloning_key.txt. Pour générer une clé de clonage vocal, consultez Créer une voix personnalisée instantanée à l'aide de l'API REST.

import io
import wave
from google.cloud import texttospeech
from google.cloud.texttospeech_v1beta1.services.text_to_speech import client


def perform_voice_cloning_with_simulated_streaming(
    voice_cloning_key: str,
    simulated_streamed_text: list[str],
    language_code: str,
    synthesis_output_path: str,
    tts_client: client.TextToSpeechClient,
) -> None:
  """Perform voice cloning for a given reference audio, voice talent consent, and consent script.

  Args:
    voice_cloning_key: The voice cloning key.
    simulated_streamed_text: The list of transcripts to synthesize, where each
      item represents a chunk of streamed text. This is used to simulate
      streamed text input and is not meant to be representative of real-world
      streaming usage.
    language_code: The language code.
    synthesis_output_path: The path to write the synthesis audio output to.
    tts_client: The TTS client to use.
  """
  voice_clone_params = texttospeech.VoiceCloneParams(
      voice_cloning_key=voice_cloning_key
  )
  streaming_config = texttospeech.StreamingSynthesizeConfig(
      voice=texttospeech.VoiceSelectionParams(
          language_code=language_code, voice_clone=voice_clone_params
      ),
      streaming_audio_config=texttospeech.StreamingAudioConfig(
          audio_encoding=texttospeech.AudioEncoding.PCM,
          sample_rate_hertz=24000,
      ),
  )
  config_request = texttospeech.StreamingSynthesizeRequest(
      streaming_config=streaming_config
  )

  # Request generator. Consider using Gemini or another LLM with output
  # streaming as a generator.
  def request_generator():
    yield config_request
    for text in simulated_streamed_text:
      yield texttospeech.StreamingSynthesizeRequest(
          input=texttospeech.StreamingSynthesisInput(text=text)
      )

  streaming_responses = tts_client.streaming_synthesize(request_generator())
  audio_buffer = io.BytesIO()
  for response in streaming_responses:
    print(f'Audio content size in bytes is: {len(response.audio_content)}')
    audio_buffer.write(response.audio_content)

  # Write collected audio outputs to a WAV file.
  with wave.open(synthesis_output_path, 'wb') as wav_file:
    wav_file.setnchannels(1)
    wav_file.setsampwidth(2)
    wav_file.setframerate(24000)
    wav_file.writeframes(audio_buffer.getvalue())
    print(f'Audio content written to file {synthesis_output_path}.')


if __name__ == '__main__':
  client = texttospeech.TextToSpeechClient()
  with open('voice_cloning_key.txt', 'r') as f:
    key = f.read()
  perform_voice_cloning_with_simulated_streaming(
      voice_cloning_key=key,
      simulated_streamed_text=[
          'Hello world!',
          'This is the second text chunk.',
          'This simulates streaming text for synthesis.',
      ],
      language_code='en-US',
      synthesis_output_path='streaming_output.wav',
      tts_client=client,
  )

Utiliser les commandes vocales Chirp 3 HD

La voix personnalisée instantanée est compatible avec les mêmes fonctionnalités de contrôle du rythme, de contrôle de la pause et de prononciation personnalisée que les voix Chirp 3 HD. Pour en savoir plus sur les commandes vocales Chirp 3 HD, consultez Commandes vocales Chirp 3 HD.

Les trois fonctionnalités peuvent être activées pour la voix personnalisée instantanée en ajustant SynthesizeSpeechRequest ou StreamingSynthesizeConfig de la même manière que pour la voix personnalisée instantanée.

Langues disponibles pour les commandes vocales

Le contrôle de l'allure est disponible pour toutes les langues.
Le contrôle de la mise en veille est disponible pour toutes les langues.
Les prononciations personnalisées sont disponibles dans toutes les langues, sauf bn-IN, gu-IN, th-TH et vi-VN.

Activer le transfert multilingue

La voix personnalisée instantanée est compatible avec le transfert multilingue pour des paires de paramètres régionaux spécifiques. Cela signifie qu'une clé de clonage vocal générée avec un code de langue donné, comme en-US, peut être utilisée pour synthétiser une langue différente, comme es-ES.

Cet exemple de code montre comment configurer SynthesizeRequest pour synthétiser es-ES à l'aide d'une clé de clonage de voix en-US :

voice_clone_params = texttospeech.VoiceCloneParams(
    voice_cloning_key=en_us_voice_cloning_key
)
request = texttospeech.SynthesizeSpeechRequest(
  input=texttospeech.SynthesisInput(text=transcript),
  voice=texttospeech.VoiceSelectionParams(
      language_code='es-ES', voice_clone=voice_clone_params
  ),
  audio_config=texttospeech.AudioConfig(
      audio_encoding=texttospeech.AudioEncoding.LINEAR16,
      sample_rate_hertz=24000,
  ),
)

Exemple de configuration de StreamingSynthesizeConfig pour synthétiser es-ES à l'aide d'une clé de clonage de voix en-US :

voice_clone_params = texttospeech.VoiceCloneParams(
    voice_cloning_key=en_us_voice_cloning_key
)
streaming_config = texttospeech.StreamingSynthesizeConfig(
    voice=texttospeech.VoiceSelectionParams(
        language_code='es-ES', voice_clone=voice_clone_params
    ),
    streaming_audio_config=texttospeech.StreamingAudioConfig(
        audio_encoding=texttospeech.AudioEncoding.PCM,
        sample_rate_hertz=24000,
    ),
)

Langues disponibles pour le transfert multilingue

Les voix personnalisées instantanées sont compatibles avec les transferts de langue suivants :

Les clés de clonage de voix avec le paramètre régional en-US peuvent synthétiser des contenus dans les paramètres régionaux suivants :
- de-DE
- es-US
- es-ES
- fr-CA
- fr-FR
- pt-BR