En savoir plus sur les fonctionnalités de reconnaissance vocale

Speech-to-Text est l'une des trois API pré-entraînées Vertex AI sur l'appliance Google Distributed Cloud (GDC) sous air gap. Le service Speech-to-Text reconnaît la parole dans les fichiers audio et la transcrit en texte. Speech-to-Text répond aux exigences de résidence et de conformité des données.

Le tableau suivant décrit les principales fonctionnalités de Speech-to-Text :

Capacités clés
Transcription Appliquez des algorithmes de deep learning sophistiqués basés sur les réseaux de neurones pour la reconnaissance vocale automatique.
Modèles Déployez des modèles de reconnaissance de taille inférieure à 1 Go et consommant peu de ressources.
Compatibilité avec les API Utilisez l'API Speech-to-Text et ses bibliothèques clientes pour envoyer des fichiers audio et en recevoir une transcription par le biais du service Speech-to-Text.

Encodages audio compatibles avec Speech-to-Text

L'API Speech-to-Text est compatible avec de nombreux encodages différents. Le tableau suivant répertorie les codecs audio compatibles :

Codec Nom Sans perte Remarques sur l'utilisation
FLAC Codec audio gratuit sans perte Oui 16 bits ou 24 bits sont requis pour les flux.
LINEAR16 PCM linéaire Oui Modulation par impulsions et codage (PCM) linéaire 16 bits. L'en-tête doit contenir le taux d'échantillonnage.
MULAW Loi μ Non Encodage PCM 8 bits
OGG_OPUS Trames audio encodées au format Opus dans un conteneur Ogg Non Le taux d'échantillonnage doit être défini sur 8 000 Hz, 12 000 Hz, 16 000 Hz, 24 000 Hz ou 48 000 Hz.

FLAC est à la fois un codec audio et un format de fichier audio. Pour transcrire des fichiers audio à l'aide de l'encodage FLAC, vous devez les fournir au format de fichier .FLAC, qui inclut un en-tête comportant des métadonnées.

Speech-to-Text accepte les fichiers WAV avec du contenu audio encodé au format LINEAR16 ou MULAW.

Si vous avez le choix entre plusieurs types d'encodage pour votre contenu source, utilisez un encodage sans perte tel que FLAC ou LINEAR16 afin d'optimiser la reconnaissance vocale.

Fonctionnalités Speech-to-Text

Speech-to-Text sur l'appliance GDC sous air gap dispose des trois méthodes suivantes pour effectuer la reconnaissance vocale :

  • Reconnaissance synchrone : envoie des données audio à l'API Speech-to-Text, procède à la reconnaissance de ces données et renvoie les résultats après le traitement audio. Les requêtes de reconnaissance synchrone sont limitées à une minute ou moins de données audio.

  • Reconnaissance asynchrone : envoie des données audio à l'API Speech-to-Text et lance une opération de longue durée. Cette opération vous permet d'interroger périodiquement les résultats de reconnaissance. Servez-vous des requêtes asynchrones pour les données audio d'une durée allant jusqu'à 480 minutes.

  • Reconnaissance en streaming : effectue la reconnaissance des données audio fournies dans un flux bidirectionnel. Les requêtes en streaming sont conçues à des fins de reconnaissance en temps réel, par exemple pour l'enregistrement de contenu audio en direct à partir d'un micro. La reconnaissance en streaming fournit des résultats intermédiaires pendant l'enregistrement audio, permettant ainsi à des résultats d'apparaître à mesure qu'un utilisateur parle, par exemple.

Les requêtes contiennent des paramètres de configuration et des données audio. Les sections suivantes décrivent plus en détail ces requêtes de reconnaissance, les réponses qu'elles génèrent et la manière de gérer ces réponses.

Requêtes et réponses synchrones

Une requête de reconnaissance synchrone Speech-to-Text est la méthode la plus simple pour effectuer une reconnaissance sur des données audio de texte parlé. Speech-to-Text peut traiter jusqu'à une minute de données audio de texte parlé envoyées dans une requête synchrone. Une fois que Speech-to-Text a traité et reconnu l'ensemble du contenu audio, une réponse est envoyée.

Speech-to-Text doit renvoyer une réponse avant de pouvoir traiter la requête suivante. Vous pouvez transcrire jusqu'à sept minutes d'audio par minute, ce qui équivaut à sept secondes d'audio transcrites par seconde dans chaque unité d'appliance. En cas de mauvaise qualité audio, votre requête de reconnaissance peut néanmoins prendre beaucoup plus de temps.

Requêtes de reconnaissance vocale

Une requête API Speech-to-Text synchrone comprend une configuration de reconnaissance vocale et des données audio. Voici un exemple de requête :

{
    "config": {
        "encoding": "LINEAR16",
        "sample_rate_hertz": 16000,
        "language_code": "en-US",
    },
    "audio": {
        "content": "ZkxhQwAAACIQABAAAAUJABtAA+gA8AB+W8FZndQvQAyjv..."
    }
}

Toutes les requêtes de reconnaissance synchrone Speech-to-Text doivent inclure un champ config de reconnaissance vocale de type RecognitionConfig. Un objet RecognitionConfig contient les sous-champs obligatoires suivants :

  • encoding : spécifie le schéma d'encodage du contenu audio fourni. Ce champ est de type AudioEncoding. Si vous avez le choix entre plusieurs codecs, préférez un encodage sans perte tel que FLAC ou LINEAR16, de façon à obtenir des performances optimales. Pour obtenir la liste des formats d'encodage audio acceptés, consultez Encodages audio compatibles avec Speech-to-Text. Le champ encoding est facultatif pour les fichiers FLAC et WAV, qui incluent l'encodage dans leur en-tête.
  • sample_rate_hertz : spécifie le taux d'échantillonnage du contenu audio fourni en hertz. Pour en savoir plus sur les taux d'échantillonnage, consultez Taux d'échantillonnage. Le champ sample_rate_hertz est facultatif pour les fichiers FLAC et WAV, qui incluent le taux d'échantillonnage dans leur en-tête.
  • language_code : contient la langue et la région à utiliser pour la reconnaissance vocale du contenu audio fourni. Le code de langue doit être un identifiant BCP-47. Les codes de langue se composent d'un tag principal indiquant la langue et d'un sous-tag désignant le dialecte régional. Dans l'exemple, en correspond à l'anglais et US aux États-Unis. Pour obtenir la liste des langues disponibles, consultez Langues acceptées.

Fournissez le contenu audio à Speech-to-Text via le paramètre audio de type RecognitionAudio. Le champ audio contient le sous-champ suivant :

  • content : inclut le contenu audio à évaluer, intégré à la requête. Les octets de données audio sont encodés à l'aide d'une représentation binaire pure. Les représentations JSON utilisent Base64. Pour en savoir plus, consultez Contenu audio intégré. Le contenu audio transmis directement dans ce champ est limité à une minute.

Taux d'échantillonnage

Vous spécifiez le taux d'échantillonnage de votre contenu audio dans le champ sample_rate_hertz de la configuration de la requête. Il doit correspondre au taux d'échantillonnage du contenu audio associé. Speech-to-Text est compatible avec les taux d'échantillonnage compris entre 8 000 Hz et 48 000 Hz. Vous pouvez spécifier le taux d'échantillonnage d'un fichier FLAC ou WAV dans l'en-tête du fichier au lieu d'utiliser le champ sample_rate_hertz. Toutefois, le champ sample_rate_hertz est obligatoire pour tous les autres formats audio.

Si vous avez le choix entre plusieurs types d'encodage pour votre fichier source, enregistrez le contenu audio en utilisant un taux d'échantillonnage de 16 000 Hz. En effet, des valeurs inférieures pourraient compromettre la précision de la reconnaissance vocale, tandis que des niveaux plus élevés n'auraient pas d'effet notable sur la qualité de la reconnaissance vocale.

Toutefois, si vous avez enregistré vos données audio à un taux d'échantillonnage autre que 16 000 Hz, ne ré-échantillonnez pas le contenu audio à 16 000 Hz. La plupart des anciens systèmes audio de téléphonie, par exemple, utilisent des taux d'échantillonnage de 8 000 Hz, ce qui peut donner des résultats moins précis. Si vous devez utiliser ce type de contenu audio, fournissez-le à l'API Speech-to-Text à son taux d'échantillonnage d'origine.

Langues

Le moteur de reconnaissance de Speech-to-Text est compatible avec un grand nombre de langues et de dialectes. Vous spécifiez la langue (et le dialecte national ou régional) de votre contenu audio dans le champ language_code de la configuration de la requête à l'aide d'un identifiant BCP-47.

La page Langues acceptées contient la liste complète des langues disponibles pour chaque fonctionnalité.

Sélection du modèle

Lorsque vous envoyez une requête de transcription audio à Speech-to-Text, vous pouvez traiter vos fichiers audio à l'aide d'un modèle de machine learning entraîné à reconnaître les données vocales de ce type de source en particulier.

Pour spécifier un modèle de reconnaissance vocale, incluez le champ model dans l'objet RecognitionConfig de votre requête en indiquant le modèle que vous souhaitez utiliser. Speech-to-Text sur l'appliance GDC isolée ne prend en charge que le modèle default.

Contenu audio intégré

L'audio intégré est inclus dans la requête de reconnaissance vocale lorsqu'un paramètre content est transmis dans le champ audio de la requête. L'audio intégré fourni en tant que contenu dans une requête REST doit être compatible avec la sérialisation JSON.

Vous pouvez envoyer des données directement dans le champ content pour la reconnaissance synchrone uniquement si vos données audio ne dépassent pas 60 secondes et 10 Mo. Toutes les données audio du champ content doivent être au format Base64.

Lorsque vous créez une requête à l'aide d'une bibliothèque cliente, vous écrivez ces données binaires ou encodées en base64 directement dans le champ content.

La plupart des environnements de développement sont fournis avec un utilitaire base64 permettant d'encoder un fichier binaire en données texte ASCII. Vous disposez ainsi des outils et de l'assistance nécessaires. De plus, Python dispose de mécanismes intégrés pour l'encodage de contenu en base64. Les exemples suivants montrent comment encoder un fichier :

Linux

Encodez le fichier à l'aide de l'outil de ligne de commande base64. Empêchez tout retour à la ligne grâce à l'indicateur -w 0 :

base64 INPUT_FILE -w 0 > OUTPUT_FILE

Python

En Python, vous pouvez encoder les fichiers audio en base64 comme suit :

# Import the base64 encoding library.
import base64

# Pass the audio data to an encoding function.
def encode_audio(audio):
  audio_content = audio.read()
  return base64.b64encode(audio_content)

Réponses de reconnaissance vocale

Le temps nécessaire à la réponse synchrone de l'API Speech-to-Text pour renvoyer des résultats peut être plus ou moins long. Une fois le traitement effectué, l'API renvoie une réponse semblable à celle présentée ici :

{
  "results": [
    {
      "alternatives": [
        {
          "transcript": "how old is the Brooklyn Bridge",
          "words": [
            {
              "word": "how"
            },
            {
              "word": "old"
            },
            {
              "word": "is"
            },
            {
              "word": "the"
            },
            {
              "word": "Brooklyn"
            },
            {
              "word": "Bridge"
            }
          ]
        }
      ]
    }
  ]
}

Toutes les réponses de reconnaissance synchrone de l'API Speech-to-Text incluent des résultats de reconnaissance vocale de type RecognizeResponse. Un objet RecognizeResponse contient les champs suivants :

  • results : contient la liste des résultats de type SpeechRecognitionResult, où chaque résultat correspond à un segment audio. Chaque résultat comporte un ou plusieurs des sous-champs suivants :

    • alternatives : contient la liste des transcriptions possibles de type SpeechRecognitionAlternative. La première alternative de la réponse est toujours la plus probable. Chaque alternative se compose des sous-champs suivants :

      • transcript : contient le texte transcrit. Lorsque des alternatives séquentielles vous sont fournies, vous pouvez concaténer ces transcriptions.
      • words : contient une liste d'informations spécifiques à chaque mot reconnu.

Requêtes et réponses asynchrones

Une requête API Speech-to-Text asynchrone est identique à une requête synchrone. Toutefois, au lieu de renvoyer une réponse, la requête asynchrone lance une opération de longue durée et renvoie immédiatement cette opération. Vous pouvez utiliser la reconnaissance vocale asynchrone avec un contenu audio d'une durée maximale de 480 minutes.

Voici un exemple de réponse d'opération :

{
  "name": "OPERATION_NAME",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.speech_v1p1beta1.LongRunningRecognizeMetadata"
    "progressPercent": 34,
    "startTime": "2016-08-30T23:26:29.579144Z",
    "lastUpdateTime": "2016-08-30T23:26:29.826903Z"
  }
}

Notez qu'aucun résultat n'est encore présent. Speech-to-Text continue de traiter le contenu audio et utilise cette opération pour stocker les résultats. Les résultats apparaissent dans le champ response de l'opération renvoyée une fois la requête LongRunningRecognize terminée.

Voici un exemple de réponse complète une fois la requête traitée :

{
  "name": "1268386125834704889",
  "metadata": {
    "lastUpdateTime": "2016-08-31T00:16:32.169Z",
    "@type": "type.googleapis.com/google.cloud.speech_v1p1beta1.LongRunningRecognizeMetadata",
    "startTime": "2016-08-31T00:16:29.539820Z",
    "progressPercent": 100
  }
  "response": {
    "@type": "type.googleapis.com/google.cloud.speech_v1p1beta1.LongRunningRecognizeResponse",
    "results": [{
      "alternatives": [{
        "transcript": "how old is the Brooklyn Bridge",
        "words": [
            {
              "word": "how"
            },
            {
              "word": "old"
            },
            {
              "word": "is"
            },
            {
              "word": "the"
            },
            {
              "word": "Brooklyn"
            },
            {
              "word": "Bridge"
            }
          ]
      }]}]
  },
  "done": True
}

Notez que done est défini sur True et que le champ response de l'opération contient un ensemble de résultats de type SpeechRecognitionResult, qui correspond au type renvoyé par une requête de reconnaissance synchrone.

Requêtes et réponses en flux continu

Un appel de reconnaissance en streaming de l'API Speech-to-Text est conçu pour enregistrer et reconnaître du contenu audio en temps réel, au sein d'un flux bidirectionnel. Votre application peut envoyer des données audio sur le flux de requêtes et recevoir des résultats de reconnaissance intermédiaires et finaux en temps réel sur le flux de réponses. Les résultats intermédiaires constituent le résultat de reconnaissance actuel pour une section de contenu audio, tandis que le résultat de reconnaissance final représente la dernière et meilleure estimation pour cette section.

Requêtes de reconnaissance en streaming

Contrairement aux appels synchrones et asynchrones, dans lesquels vous envoyez à la fois la configuration et le contenu audio au sein d'une seule requête, l'appel de l'API Speech-to-Text en streaming nécessite l'envoi de plusieurs requêtes. La première requête StreamingRecognizeRequest doit contenir une configuration de type StreamingRecognitionConfig.

Un StreamingRecognitionConfig se compose du champ config, qui contient des informations de configuration pour le contenu audio de type RecognitionConfig et qui est identique à celui affiché dans les requêtes synchrones et asynchrones.

Réponses de reconnaissance en streaming

Les résultats de la reconnaissance vocale en streaming renvoient une série de réponses de type StreamingRecognizeResponse. Une telle réponse comprend les champs suivants :

  • speech_event_type : contient des événements de type SpeechEventType. La valeur de ces événements indique à quel moment un énoncé unique a été prononcé. Les événements vocaux servent de marqueurs dans la réponse de votre flux.
  • results : contient la liste des résultats, qui peuvent être intermédiaires ou finaux et qui sont de type StreamingRecognitionResult. La liste results inclut les sous-champs suivants :
    • alternatives : contient une liste de transcriptions alternatives.
    • is_final : indique si les résultats obtenus dans l'entrée de liste considérée sont intermédiaires ou finaux.
    • result_end_time : indique le horodatage de la fin de ce résultat par rapport au début de l'audio.