Cette page a été traduite par l'API Cloud Translation.

Créer des contenus audio de longue durée

Ce document vous explique en détail comment synthétiser des contenus audio de longue durée. Les synthèses audio longues synthétisent de manière asynchrone jusqu'à un million d'octets en entrée. Pour en savoir plus sur les concepts fondamentaux de Text-to-Speech, consultez la page Concepts fondamentaux de Text-to-Speech.

Avant de commencer

Avant de pouvoir envoyer une requête à l'API Text-to-Speech, vous devez avoir effectué les actions suivantes. Pour en savoir plus, consultez la page Avant de commencer.

Activez Text-to-Speech sur un projet Google Cloud .
1. Vérifiez que la facturation est activée pour Text-to-Speech.
2. Assurez-vous que les rôles IAM (Identity and Access Management) suivants sont définis sur le bucket Google Cloud de sortie.
  - Créateur d'objets Storage
  - Lecteur des objets Storage
Installez la Google Cloud CLI. Une fois que la Google Cloud CLI est installée, initialisez-la en exécutant la commande suivante :
```
gcloud init
```
Si vous utilisez un fournisseur d'identité (IdP) externe, vous devez d'abord vous connecter à la gcloud CLI avec votre identité fédérée.

Synthétiser des contenus audio longs à partir de texte à l'aide de la ligne de commande

Vous pouvez convertir du texte long en contenu audio en envoyant une requête HTTP POST au point de terminaison https://texttospeech.googleapis.com/v1beta1/projects/{$project_number}/locations/global:synthesizeLongAudio. Dans le corps de votre commande POST, spécifiez les champs suivants.

• voice : type de voix à synthétiser.

• input.text : texte à synthétiser.

• audioConfig : type de contenu audio à créer.

• output_gcs_uri : chemin d'accès à la sortie Google Cloud sous la forme "gs://nom_bucket/nom_fichier.wav".

• parent : parent, sous la forme "projects/{YOUR_PROJECT_NUMBER}/locations/{YOUR_PROJECT_LOCATION}".

L'entrée peut contenir jusqu'à 1 Mo de caractères, la limite exacte pouvant varier.

Créez un bucket de stockage Google Cloud sous le projet utilisé pour exécuter la synthèse. Assurez-vous que le compte de service utilisé pour exécuter la synthèse dispose d'un accès en lecture et en écriture au bucket Google Cloud de sortie.
Exécutez la requête REST sur la ligne de commande pour synthétiser le contenu audio à partir du texte à l'aide de Text-to-Speech. La commande récupère un jeton d'autorisation pour la requête à l'aide de gcloud auth application-default print-access-token.

Méthode HTTP et URL :
```
POST https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global:synthesizeLongAudio
```
Corps JSON de la requête :
```
{
  "parent": "projects/12345/locations/global",
  "audio_config":{
      "audio_encoding":"LINEAR16"
  },
  "input":{
      "text":"hello"
  },
  "voice":{
      "language_code":"en-us",
      "name":"en-us-Standard-A"
  },
  "output_gcs_uri": "gs://bucket_name/file_name.wav"
}
```
Pour envoyer votre requête, développez l'une des options suivantes :
curl (Linux, macOS ou Cloud Shell)

Remarque : La commande suivante suppose que vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login, ou en utilisant Cloud Shell, qui vous connecte automatiquement à la CLI gcloud. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :
```
curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global:synthesizeLongAudio"
```
PowerShell (Windows)

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :
```
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global:synthesizeLongAudio" | Select-Object -Expand Content
```
Vous devriez recevoir une réponse JSON de ce type :
```
{
  "name": "23456",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.texttospeech.v1beta1.SynthesizeLongAudioMetadata",
    "progressPercentage": 0,
    "startTime": "2022-12-20T00:46:56.296191037Z",
    "lastUpdateTime": "2022-12-20T00:46:56.296191037Z"
  },
  "done": false
}
```
Le résultat JSON de la commande REST contient le nom de l'opération de longue durée dans le champ name. Exécutez la requête REST dans la ligne de commande pour interroger l'état de l'opération de longue durée.

Assurez-vous que le compte de service qui exécute l'opération GET provient du même projet que celui utilisé pour la synthèse.

Méthode HTTP et URL :
```
GET https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations/23456
```
Pour envoyer votre requête, développez l'une des options suivantes :
curl (Linux, macOS ou Cloud Shell)

Remarque : La commande suivante suppose que vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login, ou en utilisant Cloud Shell, qui vous connecte automatiquement à la CLI gcloud. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Exécutez la commande suivante :
```
curl -X GET \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     "https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations/23456"
```
PowerShell (Windows)

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Exécutez la commande suivante :
```
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations/23456" | Select-Object -Expand Content
```
Vous devriez recevoir une réponse JSON de ce type :
```
{
  "name": "projects/12345/locations/global/operations/23456",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.texttospeech.v1beta1.SynthesizeLongAudioMetadata",
    "progressPercentage": 100
  },
  "done": true
}
```
Interrogez la liste de toutes les opérations exécutées dans un projet donné, puis exécutez la requête REST.

Assurez-vous que le compte de service qui exécute l'opération LIST provient du même projet que celui utilisé pour la synthèse.

Méthode HTTP et URL :
```
GET https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations
```
Pour envoyer votre requête, développez l'une des options suivantes :
curl (Linux, macOS ou Cloud Shell)

Remarque : La commande suivante suppose que vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login, ou en utilisant Cloud Shell, qui vous connecte automatiquement à la CLI gcloud. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Exécutez la commande suivante :
```
curl -X GET \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     "https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations"
```
PowerShell (Windows)

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Exécutez la commande suivante :
```
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method GET `
    -Headers $headers `
    -Uri "https://texttospeech.googleapis.com/v1beta1/projects/12345/locations/global/operations" | Select-Object -Expand Content
```
Vous devriez recevoir une réponse JSON de ce type :
```
{
  "operations": [
    {
      "name": "12345",
      "done": false
    },
    {
      "name": "23456",
      "done": false
    }
  ],
  "nextPageToken": ""
}
```
Une fois l'opération de longue durée terminée, recherchez le fichier audio de sortie dans l'URI de bucket donné dans le champ output_gcs_uri. Si l'opération n'a pas abouti, recherchez l'erreur en exécutant la requête à l'aide de la commande REST GET, corrigez l'erreur et émettez à nouveau le RPC.

Synthétiser des contenus audio longs à partir de texte à l'aide de bibliothèques clientes

Suivez ces instructions pour synthétiser des contenus audio de longue durée.

Installer la bibliothèque cliente

Python

Avant d'installer la bibliothèque, assurez-vous d'avoir préparé votre environnement pour le développement Python.

pip install --upgrade google-cloud-texttospeech

Créer des données audio

Vous pouvez utiliser Text-to-Speech pour créer un long fichier audio de voix humaine synthétique. Utilisez le code suivant pour créer un fichier audio de longue durée dans votre bucket Google Cloud .

Python

Avant d'exécuter l'exemple, assurez-vous d'avoir préparé l'environnement pour le développement Python.

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#      http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

from google.cloud import texttospeech


def synthesize_long_audio(project_id: str, output_gcs_uri: str) -> None:
    """
    Synthesizes long input, writing the resulting audio to `output_gcs_uri`.

    Args:
        project_id: ID or number of the Google Cloud project you want to use.
        output_gcs_uri: Specifies a Cloud Storage URI for the synthesis results.
            Must be specified in the format:
            ``gs://bucket_name/object_name``, and the bucket must
            already exist.
    """

    client = texttospeech.TextToSpeechLongAudioSynthesizeClient()

    input = texttospeech.SynthesisInput(
        text="Test input. Replace this with any text you want to synthesize, up to 1 million bytes long!"
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.LINEAR16
    )

    voice = texttospeech.VoiceSelectionParams(
        language_code="en-US", name="en-US-Standard-A"
    )

    parent = f"projects/{project_id}/locations/us-central1"

    request = texttospeech.SynthesizeLongAudioRequest(
        parent=parent,
        input=input,
        audio_config=audio_config,
        voice=voice,
        output_gcs_uri=output_gcs_uri,
    )

    operation = client.synthesize_long_audio(request=request)
    # Set a deadline for your LRO to finish. 300 seconds is reasonable, but can be adjusted depending on the length of the input.
    # If the operation times out, that likely means there was an error. In that case, inspect the error, and try again.
    result = operation.result(timeout=300)
    print(
        "\nFinished processing, check your GCS bucket to find your audio file! Printing what should be an empty result: ",
        result,
    )

Effectuer un nettoyage

Pour éviter des frais Google Cloud inutiles, supprimez votre projet à l'aide deGoogle Cloud console si vous n'en avez plus besoin.

Étapes suivantes

Pour en savoir plus sur Cloud Text-to-Speech, consultez la page Concepts de base.
Passez en revue la liste des voix disponibles que vous pouvez utiliser pour la voix synthétique.

Créer des contenus audio de longue durée

Avant de commencer

Synthétiser des contenus audio longs à partir de texte à l'aide de la ligne de commande

curl (Linux, macOS ou Cloud Shell)

PowerShell (Windows)

curl (Linux, macOS ou Cloud Shell)

PowerShell (Windows)

curl (Linux, macOS ou Cloud Shell)

PowerShell (Windows)

Synthétiser des contenus audio longs à partir de texte à l'aide de bibliothèques clientes

Installer la bibliothèque cliente

Python

Créer des données audio

Python

Effectuer un nettoyage

Étapes suivantes