Améliorer les résultats de transcription grâce à l'adaptation de modèle

Présentation

Vous pouvez utiliser la fonctionnalité d'adaptation vocale pour permettre à Speech-to-Text de reconnaître des mots ou des expressions plus fréquents que d'autres options semblables qui pourraient être suggérées. Par exemple, supposons que vos données audio incluent souvent le terme "temps". Lorsque Speech-to-Text rencontre le mot "temps", vous souhaitez qu'il le transcrive plus souvent comme "temps" que comme "tant". Dans ce cas, vous pouvez utiliser l'adaptation vocale pour influencer Speech-to-Text afin qu'il reconnaisse le mot "temps".

L'adaptation de modèle est particulièrement utile dans les cas d'utilisation suivants :

  • Améliorez la précision des mots et expressions qui apparaissent très souvent dans vos données audio. Par exemple, vous pouvez alerter le modèle de reconnaissance sur les commandes vocales qui sont fréquemment prononcées par vos utilisateurs.

  • Élargissez le panel des mots reconnus par Speech-to-Text. Speech-to-Text comprend un vocabulaire très vaste. Toutefois, si vos données audio contiennent souvent des mots rares dans le langage courant (tels que des noms propres ou spécifiques à un domaine), vous pouvez les ajouter à l'aide de l'adaptation vocale.

  • Améliorez la précision de la transcription vocale lorsque le contenu audio fourni comporte du bruit ou manque de clarté.

Vous pouvez éventuellement affiner la pondération du modèle de reconnaissance à l'aide de la fonctionnalité d'amélioration de l'adaptation de modèle.

Améliorer la reconnaissance des mots et expressions

Pour augmenter la probabilité que Speech-to-Text reconnaisse le mot "temps" lors de la transcription de vos données audio, vous pouvez transmettre le mot "temps" unique dans le champ PhraseSet dans une ressource SpeechAdaptation.

Lorsque vous fournissez une expression composée de plusieurs mots, Speech-to-Text est plus susceptible de reconnaître ces mots dans l'ordre. L'ajout d'une expression augmente également la probabilité de reconnaissance de certaines parties de l'expression, y compris des mots individuels. Consultez la section Limites de contenu pour connaître les limites applicables au nombre et à la taille de ces expressions.

Améliorer la reconnaissance à l'aide de classes

Les classes représentent des concepts courants utilisés dans le langage naturel, tels que les unités monétaires et les dates. Une classe vous permet d'améliorer la précision de la transcription pour de grands groupes de mots associés à un concept commun, mais qui n'incluent pas toujours des mots ou des expressions identiques.

Par exemple, supposons que vos données audio incluent des enregistrements de personnes indiquant leur adresse. Vous disposez peut-être d'un enregistrement audio de quelqu'un disant "J'habite au 123 Main Street, dans la quatrième maison sur la gauche". Dans ce cas, vous souhaitez que Speech-to-Text reconnaisse la première séquence de chiffres ("123") comme une adresse plutôt que comme un ordinal ("cent vingt-troisième"). Toutefois, toutes les personnes ne vivent pas au "123 Main Street". Il est impossible de répertorier toutes les adresses postales possibles dans une ressource PhraseSet. À la place, vous pouvez utiliser une classe pour indiquer qu'un numéro de rue doit être reconnu, quel que soit le numéro. Dans cet exemple, Speech-to-Text pourrait transcrire plus précisément des expressions telles que "123 Main Street" et "987 Grand Boulevard", car elles sont toutes deux identifiées comme des numéros d'adresse.

Jetons de classe

Pour utiliser une classe dans l'adaptation de modèle, incluez un jeton de classe dans le champ phrases d'une ressource PhraseSet. Consultez la liste des jetons de classe compatibles pour connaître les jetons disponibles pour votre langue. Par exemple, pour améliorer la transcription des numéros d'adresses figurant dans le contenu audio source, vous devez fournir la valeur $ADDRESSNUM dans une expression dans un objet PhraseSet..

Vous pouvez utiliser des classes en tant qu'éléments autonomes dans le tableau phrases, ou intégrer un ou plusieurs jetons de classe dans des expressions composées de plusieurs mots. Par exemple, vous pouvez indiquer un numéro d'adresse dans une expression plus longue en incluant le jeton de classe dans une chaîne : ["my address is $ADDRESSNUM"]. Toutefois, cette expression ne résout pas le problème lorsque l'audio contient une expression similaire, mais non identique, telle que "Je me trouve au 123 Main Street". Pour faciliter la reconnaissance des expressions similaires, il est important d'inclure le jeton de classe indépendamment : ["my address is $ADDRESSNUM", "$ADDRESSNUM"]. Si vous utilisez un jeton de classe non valide ou incorrect, Speech-to-Text ignore le jeton sans déclencher d'erreur, mais utilise le reste de l'expression pour déterminer le contexte.

Classes personnalisées

Vous pouvez également créer votre propre liste CustomClass, une classe composée de votre propre liste personnalisée d'éléments ou de valeurs associés. Par exemple, vous souhaitez transcrire des données audio susceptibles d'inclure le nom de l'un des centaines de restaurants régionaux disponibles. Les noms des restaurants étant relativement rares, ils sont moins susceptibles d'être considérés comme la "bonne" réponse par le modèle de reconnaissance. Vous pouvez augmenter la pondération du modèle de reconnaissance afin d'identifier correctement ces noms lorsqu'ils apparaissent dans votre contenu audio à l'aide d'une classe personnalisée.

Pour utiliser une classe personnalisée, créez une ressource CustomClass qui inclut chaque nom de restaurant en tant que ClassItem. Les classes personnalisées fonctionnent de la même manière que les jetons de classe prédéfinis. Une phrase peut inclure à la fois des jetons de classe prédéfinis et des classes personnalisées.

Optimiser les résultats de transcription à l'aide de la fonctionnalité d'amélioration

Par défaut, l'adaptation de modèle a un effet relativement faible, en particulier pour les expressions comportant un seul mot. La fonctionnalité d'amélioration de l'adaptation de modèle vous permet d'augmenter la pondération du modèle de reconnaissance en attribuant plus d'importance à certaines expressions qu'à d'autres. Nous vous recommandons d'implémenter la fonctionnalité d'amélioration si toutes les conditions suivantes sont remplies :

  1. Vous avez déjà intégré l'adaptation de modèle.
  2. Vous souhaitez ajuster les effets de l'adaptation de modèle dans les résultats de transcription. Pour savoir si la fonctionnalité d'amélioration est disponible pour votre langue, consultez la page Langues acceptées.

Par exemple, supposons que vous disposez d'un grand nombre d'enregistrements de personnes interrogées à propos du "coût d'un lifting du cou", dans lesquels le mot "cou" revient plus fréquemment que "coût". Dans ce cas, vous pouvez utiliser l'adaptation de modèle pour augmenter la probabilité que le modèle reconnaisse à la fois "coût" et "cou" en les ajoutant en tant que phrases dans une ressource PhraseSet. Cela indique à Speech-to-Text de reconnaître "coût" et "cou" plus souvent que "sou" par exemple.

Toutefois, étant donné que "cou" revient plus souvent que "coût", vous souhaitez que le mot "cou" soit reconnu plus fréquemment. Vous avez peut-être déjà transcrit votre contenu audio à l'aide de l'API Speech-to-Text et vous avez trouvé un grand nombre d'erreurs de reconnaissance du bon mot ("cou"). Dans ce cas, vous pouvez utiliser la fonctionnalité d'amélioration pour attribuer une valeur d'amélioration plus élevée à "cou" par rapport à "coût". Si la valeur pondérée plus élevée est attribuée à "cou", l'API Speech-to-Text sélectionne "cou" plus fréquemment que "coût". Sans valeurs d'amélioration, le modèle de reconnaissance reconnaît "cou" et "coût" avec une probabilité égale.

Principes de base de l'adaptation améliorée

Lorsque vous utilisez la fonctionnalité d'amélioration, vous attribuez une valeur pondérée aux éléments phrase d'une ressource PhraseSet. Speech-to-Text se réfère à cette valeur pondérée lors de la sélection d'une transcription possible pour les mots apparaissant dans vos données audio. Plus la valeur que vous définissez est élevée, plus vous augmentez la probabilité que Speech-to-Text sélectionne l'expression parmi les solutions possibles.

Si vous attribuez une valeur d'amélioration à une expression composée de plusieurs mots, la fonctionnalité d'amélioration est appliquée à l'ensemble de l'expression uniquement. Par exemple, vous souhaitez attribuer une valeur d'amélioration à l'expression "Mon exposition préférée au muséum d'Histoire naturelle est la baleine bleue". Si vous ajoutez cette phrase à un objet phrase et que vous attribuez une valeur d'amélioration, le modèle de reconnaissance sera plus susceptible de reconnaître cette phrase dans son intégralité, mot pour mot.

Si vous n'obtenez pas les résultats escomptés, nous vous suggérons d'ajouter tous les bigrammes (deux mots, dans l'ordre) qui constituent l'expression en tant qu'éléments phrase supplémentaires et de leur attribuer à chacun des valeurs d'amélioration. Pour reprendre l'exemple ci-dessus, vous pourriez envisager d'ajouter d'autres bigrammes et éléments de fin (plus de deux mots) tels que "mon exposition", "mon exposition préférée", "exposition préférée", "mon exposition préférée au muséum d'Histoire naturelle", "muséum d'Histoire naturelle", "baleine bleue", etc. Le modèle de reconnaissance STT est alors plus susceptible de reconnaître des expressions associées dans votre fichier audio qui contiennent des parties de l'expression d'origine dont la valeur a été améliorée, mais qui ne correspondent pas à la recherche mot pour mot.

Définir des valeurs d'amélioration

Les valeurs d'amélioration doivent être des valeurs flottantes supérieures à 0. La limite maximale pratique pour les valeurs d'amélioration est de 20. Pour obtenir des résultats optimaux, augmentez et diminuez vos valeurs d'amélioration jusqu'à obtenir les résultats de transcription que vous souhaitez.

Des valeurs d'amélioration plus élevées peuvent réduire le nombre de faux négatifs, c'est-à-dire d'énoncés prononcés dans le contenu audio mais mal reconnus par Speech-to-Text. Cependant, la fonctionnalité d'amélioration peut également augmenter la probabilité de faux positifs, c'est-à-dire d'énoncés qui figurent dans la transcription alors qu'ils n'ont pas été prononcés dans le contenu audio.

Exemple de cas d'utilisation avec l'adaptation de modèle

L'exemple suivant vous accompagne tout au long du processus d'utilisation de l'adaptation de modèle pour transcrire un enregistrement audio d'une personne en train de dire "The word is fare". Dans ce cas, sans l'adaptation vocale, Speech-to-Text identifie le mot "fair". L'utilisation de l'adaptation vocale Speech-to-Text permet d'identifier le mot "fare" à la place.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  4. Activer les API Speech-to-Text.

    Activer les API

  5. Assurez-vous que vous disposez du ou des rôles suivants au niveau du projet : Cloud Speech Administrator

    Vérifier les rôles

    1. Dans la console Google Cloud, accédez à la page IAM.

      Accéder à IAM
    2. Sélectionnez le projet.
    3. Dans la colonne Compte principal, recherchez la ligne qui contient votre adresse e-mail.

      Si votre adresse e-mail ne figure pas dans cette colonne, cela signifie que vous n'avez aucun rôle.

    4. Dans la colonne Rôle de la ligne contenant votre adresse e-mail, vérifiez si la liste des rôles inclut les rôles requis.

    Attribuer les rôles

    1. Dans la console Google Cloud, accédez à la page IAM.

      Accéder à IAM
    2. Sélectionnez le projet.
    3. Cliquez sur Accorder l'accès.
    4. Dans le champ Nouveaux comptes principaux, saisissez votre adresse e-mail.
    5. Dans la liste Sélectinoner un rôle, sélectionnez un rôle.
    6. Pour attribuer des rôles supplémentaires, cliquez sur Ajouter un autre rôle et ajoutez chaque rôle supplémentaire.
    7. Cliquez sur Enregistrer.
  6. Installez Google Cloud CLI.
  7. Pour initialiser gcloudCLI, exécutez la commande suivante :

    gcloud init
  8. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  9. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  10. Activer les API Speech-to-Text.

    Activer les API

  11. Assurez-vous que vous disposez du ou des rôles suivants au niveau du projet : Cloud Speech Administrator

    Vérifier les rôles

    1. Dans la console Google Cloud, accédez à la page IAM.

      Accéder à IAM
    2. Sélectionnez le projet.
    3. Dans la colonne Compte principal, recherchez la ligne qui contient votre adresse e-mail.

      Si votre adresse e-mail ne figure pas dans cette colonne, cela signifie que vous n'avez aucun rôle.

    4. Dans la colonne Rôle de la ligne contenant votre adresse e-mail, vérifiez si la liste des rôles inclut les rôles requis.

    Attribuer les rôles

    1. Dans la console Google Cloud, accédez à la page IAM.

      Accéder à IAM
    2. Sélectionnez le projet.
    3. Cliquez sur Accorder l'accès.
    4. Dans le champ Nouveaux comptes principaux, saisissez votre adresse e-mail.
    5. Dans la liste Sélectinoner un rôle, sélectionnez un rôle.
    6. Pour attribuer des rôles supplémentaires, cliquez sur Ajouter un autre rôle et ajoutez chaque rôle supplémentaire.
    7. Cliquez sur Enregistrer.
  12. Installez Google Cloud CLI.
  13. Pour initialiser gcloudCLI, exécutez la commande suivante :

    gcloud init
  14. Les bibliothèques clientes peuvent utiliser les identifiants par défaut de l'application pour s'authentifier facilement auprès des API Google et envoyer des requêtes à ces API. Ces identifiants vous permettent de tester votre application localement et de la déployer sans modifier le code sous-jacent. Pour plus d'informations, consultez la page <atrack-type="commonincludes" l10n-attrs-original-order="href,track-type,track-name" l10n-encrypted-href="WDE63JFVMK0YqIWBqG8nCycgwkRfOeEqRvzYs1N+2tJUEhcZvE5VtDH5LoWw0lj/" track-name="referenceLink"> Authentifiez-vous à l'aide des bibliothèques clientes.</atrack-type="commonincludes">

  15. Créez des identifiants d'authentification locaux pour votre compte Google :

    gcloud auth application-default login

Vérifiez également que vous avez installé la bibliothèque cliente.

Améliorer la transcription à l'aide d'un PhraseSet

  1. L'exemple suivant crée un objet PhraseSet avec l'expression "fare" et l'ajoute en tant qu'objet inline_phrase_set dans une requête de reconnaissance :

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def adaptation_v2_inline_phrase_set(
    project_id: str,
    audio_file: str,
) -> cloud_speech.RecognizeResponse:
    # Instantiates a client
    client = SpeechClient()

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    # Build inline phrase set to produce a more accurate transcript
    phrase_set = cloud_speech.PhraseSet(phrases=[{"value": "fare", "boost": 10}])
    adaptation = cloud_speech.SpeechAdaptation(
        phrase_sets=[
            cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                inline_phrase_set=phrase_set
            )
        ]
    )
    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        adaptation=adaptation,
        language_codes=["en-US"],
        model="short",
    )

    request = cloud_speech.RecognizeRequest(
        recognizer=f"projects/{project_id}/locations/global/recognizers/_",
        config=config,
        content=content,
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

  1. Cet exemple crée une ressource PhraseSet avec la même expression, puis la référence dans une requête de reconnaissance :

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def adaptation_v2_phrase_set_reference(
    project_id: str,
    phrase_set_id: str,
    audio_file: str,
) -> cloud_speech.RecognizeResponse:
    """Transcribe audio files using a PhraseSet.

    Args:
        project_id: The GCP project ID.
        phrase_set_id: The ID of the PhraseSet to use.
        audio_file: The path to the audio file to transcribe.

    Returns:
        The response from the recognize call.
    """
    # Instantiates a client
    client = SpeechClient()

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    # Create a persistent PhraseSet to reference in a recognition request
    request = cloud_speech.CreatePhraseSetRequest(
        parent=f"projects/{project_id}/locations/global",
        phrase_set_id=phrase_set_id,
        phrase_set=cloud_speech.PhraseSet(phrases=[{"value": "fare", "boost": 10}]),
    )

    operation = client.create_phrase_set(request=request)
    phrase_set = operation.result()

    # Add a reference of the PhraseSet into the recognition request
    adaptation = cloud_speech.SpeechAdaptation(
        phrase_sets=[
            cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                phrase_set=phrase_set.name
            )
        ]
    )
    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        adaptation=adaptation,
        language_codes=["en-US"],
        model="short",
    )

    request = cloud_speech.RecognizeRequest(
        recognizer=f"projects/{project_id}/locations/global/recognizers/_",
        config=config,
        content=content,
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

Améliorer les résultats de transcription à l'aide d'une ressource CustomClass

  1. L'exemple suivant crée un objet CustomClass avec un élément "fare" et un nom "fare". Il référence ensuite l'objet CustomClass dans un ensemble inline_phrase_set dans une requête de reconnaissance :

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def adaptation_v2_inline_custom_class(
    project_id: str,
    audio_file: str,
) -> cloud_speech.RecognizeResponse:
    """Transcribe audio file using inline custom class

    Args:
        project_id: The GCP project ID.
        audio_file: The audio file to transcribe.

    Returns:
        The response from the recognizer.
    """
    # Instantiates a client
    client = SpeechClient()

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    # Build inline phrase set to produce a more accurate transcript
    phrase_set = cloud_speech.PhraseSet(phrases=[{"value": "${fare}", "boost": 20}])
    custom_class = cloud_speech.CustomClass(name="fare", items=[{"value": "fare"}])
    adaptation = cloud_speech.SpeechAdaptation(
        phrase_sets=[
            cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                inline_phrase_set=phrase_set
            )
        ],
        custom_classes=[custom_class],
    )
    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        adaptation=adaptation,
        language_codes=["en-US"],
        model="short",
    )

    request = cloud_speech.RecognizeRequest(
        recognizer=f"projects/{project_id}/locations/global/recognizers/_",
        config=config,
        content=content,
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

  1. Cet exemple crée une ressource CustomClass avec le même élément. Il crée ensuite une ressource PhraseSet avec une expression faisant référence au nom de la ressource CustomClass. Il fait ensuite référence à la ressource PhraseSet dans une requête de reconnaissance :

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def adaptation_v2_custom_class_reference(
    project_id: str,
    phrase_set_id: str,
    custom_class_id: str,
    audio_file: str,
) -> cloud_speech.RecognizeResponse:
    """Transcribe audio file using a custom class.

    Args:
        project_id: The GCP project ID.
        phrase_set_id: The ID of the phrase set to use.
        custom_class_id: The ID of the custom class to use.
        audio_file: The audio file to transcribe.

    Returns:
        The transcript of the audio file.
    """
    # Instantiates a client
    client = SpeechClient()

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    # Create a persistent CustomClass to reference in phrases
    request = cloud_speech.CreateCustomClassRequest(
        parent=f"projects/{project_id}/locations/global",
        custom_class_id=custom_class_id,
        custom_class=cloud_speech.CustomClass(items=[{"value": "fare"}]),
    )

    operation = client.create_custom_class(request=request)
    custom_class = operation.result()

    # Create a persistent PhraseSet to reference in a recognition request
    request = cloud_speech.CreatePhraseSetRequest(
        parent=f"projects/{project_id}/locations/global",
        phrase_set_id=phrase_set_id,
        phrase_set=cloud_speech.PhraseSet(
            phrases=[{"value": f"${{{custom_class.name}}}", "boost": 20}]
        ),
    )

    operation = client.create_phrase_set(request=request)
    phrase_set = operation.result()

    # Add a reference of the PhraseSet into the recognition request
    adaptation = cloud_speech.SpeechAdaptation(
        phrase_sets=[
            cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                phrase_set=phrase_set.name
            )
        ]
    )
    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        adaptation=adaptation,
        language_codes=["en-US"],
        model="short",
    )

    request = cloud_speech.RecognizeRequest(
        recognizer=f"projects/{project_id}/locations/global/recognizers/_",
        config=config,
        content=content,
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

Effectuer un nettoyage

Pour éviter que les ressources utilisées sur cette page soient facturées sur votre compte Google Cloud, suivez les étapes ci-dessous :

  1. Facultatif : Révoquez les identifiants d'authentification que vous avez créés et supprimez le fichier d'identifiants local.

    gcloud auth application-default revoke
  2. Facultatif : Révoquez les identifiants de la CLI gcloud.

    gcloud auth revoke

Console

  • Dans la console Google Cloud, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  • Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  • Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.
  • gcloud

    Supprimez un projet Google Cloud :

    gcloud projects delete PROJECT_ID

    Étapes suivantes