Transkriptionsergebnisse durch Modellanpassung verbessern

Übersicht

Mit dem Feature Modellanpassung kann Speech-to-Text bestimmte Wörter oder Wortgruppen häufiger erkennen als andere Optionen, die sonst möglicherweise vorgeschlagen werden. Angenommen, Ihre Audiodaten enthalten häufig das Wort "weather" (Wetter). Wenn Speech-to-Text auf das Wort "weather" stößt, soll das Wort häufiger mit "weather" (Wetter) als mit "whether" (ob) transkribiert werden. In diesem Fall können Sie die Modellanpassung einsetzen, um Speech-to-Text auf das Erkennen des Begriffs "weather" auszurichten.

Die Modellanpassung ist in den folgenden Anwendungsfällen besonders hilfreich:

  • Verbesserung der Erkennung von Wörtern und Wortgruppen, die in den Audiodaten häufig vorkommen. Beispielsweise können Sie das Erkennungsmodell auf Sprachbefehle hinweisen, die normalerweise von Ihren Nutzern gesprochen werden.

  • Erweiterung des Vokabulars von Wörtern, die von Speech-to-Text erkannt werden. Speech-to-Text enthält bereits ein sehr umfangreiches Vokabular. Wenn Ihre Audiodaten jedoch häufig Wörter enthalten, die im allgemeinen Sprachgebrauch eher selten sind (z. B. Eigennamen oder themenspezifische Begriffe), können Sie diese mithilfe der Modellanpassung hinzufügen.

  • Verbesserung der Treffsicherheit der Sprachtranskription, wenn der Audioinhalt Rauschen enthält oder nicht klar ist.

Optional können Sie die Gewichtung des Erkennungsmodells mit dem Feature zur Optimierung der Modellanpassung optimieren.

Erkennung von Wörtern und Wortgruppen verbessern

Um die Wahrscheinlichkeit zu erhöhen, dass Speech-to-Text beim Transkribieren Ihrer Audiodaten das Wort "weather" erkennt, können Sie das einzelne Wort "weather" im PhraseSet-Objekt in einer SpeechAdaptation-Ressource übergeben.

Wenn Sie eine Wortgruppe mit mehreren Wörtern bereitstellen, erhöht das die Wahrscheinlichkeit, dass Speech-to-Text diese Wortgruppe korrekt erkennt. Bei Angabe einer Wortgruppe erhöht sich ebenfalls die Wahrscheinlichkeit, dass Teile der Wortgruppe, einschließlich einzelner Wörter, erkannt werden. Unter Limits für Inhalte finden Sie Limits für die Anzahl und Länge dieser Wortgruppen.

Erkennung mithilfe von Klassen verbessern

Klassen stehen für gängige Konzepte, die in natürlicher Sprache vorkommen, z. B. Währungseinheiten und Kalenderdaten. Mit einer Klasse können Sie die Transkriptionsgenauigkeit für große Wortgruppen, die zu einem gemeinsamen Konzept gehören, aber nicht immer identische Wörter oder Wortgruppen enthalten, verbessern.

Angenommen, Ihre Audiodaten enthalten Aufnahmen von Personen, die ihre Adresse nennen. In einer Audioaufnahme sagt jemand vielleicht: "Mein Haus befindet sich in der Hauptstraße 123. Es ist das vierte Haus auf der linken Seite." In diesem Fall soll Speech-to-Text die erste Ziffernfolge ("123") als Adresse und nicht als Ordinalzahl erkennen ("einhundertdreiundzwanzigste"). Allerdings wohnen nicht alle Menschen in der "Hauptstraße 123". Es ist unpraktisch, jede mögliche Adresse in einer PhraseSet-Ressource anzugeben. Stattdessen können Sie mithilfe einer Klasse dafür sorgen, dass eine Hausnummer unabhängig von der tatsächlichen Zahl erkannt wird. In diesem Beispiel könnte Speech-to-Text Wortgruppen wie "Hauptstraße 123" und "Königsallee 987" genauer transkribieren, da die beiden Zahlen als Hausnummern erkannt werden.

Klassentokens

Wenn Sie bei der Modellanpassung eine Klasse verwenden möchten, fügen Sie im Feld phrases einer PhraseSet-Ressource ein Klassentoken ein. In der Liste der unterstützten Klassentokens sehen Sie, welche Tokens für Ihre Sprache verfügbar sind. Wenn Sie beispielsweise die Transkription von Hausnummern aus der Audioquelle verbessern möchten, geben Sie in einer PhraseSet. innerhalb einer Wortgruppe den Wert $ADDRESSNUM an.

Sie können Klassen als eigenständige Elemente im phrases-Array verwenden oder ein oder mehrere Klassentokens in längere Wortgruppen mit mehreren Wörtern einbetten. Beispielsweise können Sie eine Hausnummer in einer größeren Wortgruppe angeben, indem Sie das Klassentoken in einen String einfügen: ["my address is $ADDRESSNUM"]. Diese Wortgruppe ist jedoch nicht hilfreich, wenn die Audiodaten eine zwar ähnliche, aber nicht identische Wortgruppe enthalten, z. B. "Ich bin in der Hauptstraße 123". Um die Erkennung ähnlicher Wortgruppen zu verbessern, ist es wichtig, zusätzlich das Klassentoken für sich allein anzugeben: ["my address is $ADDRESSNUM", "$ADDRESSNUM"]. Wenn Sie ein ungültiges oder falsch formatiertes Klassentoken verwenden, ignoriert Speech-to-Text das Token, ohne einen Fehler auszulösen. Der Rest der Wortgruppe wird aber für den Kontext verwendet.

Benutzerdefinierte Klassen

Sie können auch eine eigene CustomClass erstellen. Dabei handelt es sich um eine Klasse, die aus Ihrer eigenen benutzerdefinierten Liste verwandter Elemente oder Werte besteht. Sie möchten beispielsweise Audiodaten transkribieren, die wahrscheinlich den Namen eines von mehreren hundert regionalen Restaurants enthalten. Restaurantnamen sind in der allgemeinen Sprache relativ selten und werden daher vom Erkennungsmodell wahrscheinlich nicht als „richtige“ Antwort ausgewählt. Sie können das Erkennungsmodell so anpassen, dass diese Namen bei der Identifizierung in Ihren Audiodaten mithilfe einer benutzerdefinierten Klasse korrekt erkannt werden.

Wenn Sie eine benutzerdefinierte Klasse verwenden möchten, erstellen Sie eine CustomClass-Ressource, die jeden Restaurantnamen als ClassItem enthält. Benutzerdefinierte Klassen funktionieren genauso wie die vordefinierten Klassentokens. Eine phrase kann sowohl vordefinierte Klassentokens als auch benutzerdefinierte Klassen enthalten.

Feinabstimmung der Transkriptionsergebnisse mit der Optimierung

Standardmäßig hat die Modellanpassung einen relativ kleinen Effekt, insbesondere bei Wortgruppen mit nur einem Wort. Mit dem Optimierungs-Feature der Modellanpassung können Sie die Gewichtung bestimmter Wortgruppen durch das Erkennungsmodell anpassen. Wir empfehlen die Implementierung der Optimierung, wenn alle folgenden Bedingungen erfüllt sind:

  1. Sie haben die Modellanpassung bereits implementiert.
  2. Sie möchten die Stärke des Effekts der Modellanpassung auf Ihre Transkriptionsergebnisse weiter anpassen. Auf der Seite zur Sprachunterstützung können Sie sehen, ob das Optimierungsfeature für Ihre Sprache verfügbar ist.

Angenommen, es gibt viele Aufnahmen von Personen, die nach "fare to get into the county fair" (Fahrpreis für die Fahrt zum Jahrmarkt) fragen, wobei das Wort "fair" häufiger vorkommt als "fare". In diesem Fall können Sie die Modellanpassung verwenden, um die Wahrscheinlichkeit zu erhöhen, dass das Modell sowohl „fair“ als auch „fare“ erkennt. Fügen Sie sie dazu als phrases in eine PhraseSet-Ressource ein. Dadurch wird Speech-to-Text angewiesen, „fair“ und „fare“ häufiger zu erkennen als beispielsweise „hare“ oder „lair“.

Gleichzeitig soll häufiger "fair" als "fare" erkannt werden, da dieses Wort in den Audiodaten öfter vorkommt. Möglicherweise haben Sie Ihre Audiodaten schon mit der Speech-to-Text API transkribiert und eine große Anzahl an Fehlern bei der Erkennung des richtigen Wortes ("fair") gefunden. In diesem Fall können Sie die Optimierungsfunktion verwenden, um "fair" einen höheren Optimierungswert zuzuweisen als "fare". Durch den höher gewichteten Wert, der dem Wort "fair" zugewiesen ist, wird die Speech-to-Text API so konfiguriert, dass sie "fair" häufiger auswählt als "fare". Ohne Optimierungswerte erkennt das Erkennungsmodell "fair" und "fare" mit gleicher Wahrscheinlichkeit.

Optimierungsgrundlagen

Wenn Sie die Optimierung verwenden, weisen Sie phrase-Elementen in einer PhraseSet-Ressource einen Gewichtungswert zu. Speech-to-Text berücksichtigt diesen Gewichtungswert, wenn es eine mögliche Transkription für Wörter in Audiodaten auswählt. Je höher der Wert, desto höher die Wahrscheinlichkeit, dass Speech-to-Text dieses Wort oder die Wortgruppe aus den möglichen Alternativen auswählt.

Wenn Sie einer Wortgruppe mit mehreren Wörtern einen Optimierungswert zuweisen, wird die Optimierung auf die gesamte Wortgruppe und nur auf die gesamte Wortgruppe angewendet. Sie können beispielsweise der Wortgruppe „Meine Lieblingsausstellung im American Museum of Natural History sind die Blauwale“ einen Optimierungswert zuweisen. Wenn Sie diese Wortgruppe einem phrase-Objekt hinzufügen und einen Optimierungswert zuweisen, erkennt das Erkennungsmodell diese Wortgruppe mit größerer Wahrscheinlichkeit in ihrer Gesamtheit.

Wenn Sie nicht die Ergebnisse erhalten, die Sie durch die Optimierung einer Wortgruppe mit mehreren Wörtern erwartet hatten, sollten Sie alle Bigramme (zwei Wörter in einer bestimmten Reihenfolge) aus denen die Wortgruppe besteht, als zusätzliche phrase-Elemente hinzufügen und jedem einen Optimierungswert zuweisen. Bezogen auf das vorherige Beispiel könnten Sie versuchen, zusätzliche Bigramme und Endgramme (mit mehr als zwei Wörtern) hinzuzufügen, z. B. „mein bevorzugtes“, „mein bevorzugtes Exponat“, „bevorzugtes Exponat“, „mein bevorzugtes Exponat im American Museum of Natural History“, „American Museum of Natural History“ und „Blauwal“. Das STT-Erkennungsmodell erkennt dann mit größerer Wahrscheinlichkeit ähnliche Wortgruppen in Ihrem Audio, die Teile der ursprünglichen optimierten Wortgruppe enthalten, aber dieser nicht Wort für Wort entsprechen.

Optimierungswerte festlegen

Optimierungswerte müssen einen Gleitkommawert größer als 0 haben. Die praktische Obergrenze für Optimierungswerte beträgt 20. Um optimale Ergebnisse zu erzielen, sollten Sie mit Ihren Transkriptionsergebnissen experimentieren, indem Sie die Optimierungswerte nach oben oder unten anpassen, bis Sie genauere Transkriptionsergebnisse erhalten.

Durch höhere Optimierungswerte lässt sich die Zahl der falsch-negativen Ergebnisse möglicherweise verringern. Solche Ergebnisse liegen vor, wenn ein Wort oder eine Wortgruppe in den Audiodaten vorkommt, aber von Speech-to-Text nicht richtig erkannt wird. Durch die Optimierung kann aber auch die Wahrscheinlichkeit von falsch-positiven Ergebnissen erhöht werden. Das sind Ergebnisse, bei denen das Wort oder die Wortgruppe in der Transkription vorkommt, obwohl es nicht in den Audiodaten enthalten ist.

Anwendungsfallbeispiel mit Modellanpassung

Im folgenden Beispiel erfahren Sie, wie Sie mithilfe der Modellanpassung einen Audiodatensatz transkribieren, in dem jemand sagt: „The word is fare“. In diesem Fall erkennt Speech-to-Text ohne Sprachanpassung das Wort „fair“. Durch die Sprachanpassung kann Speech-to-Text stattdessen das Wort „fare“ erkennen.

Hinweise

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  3. Speech-to-Text APIs aktivieren.

    Aktivieren Sie die APIs

  4. Make sure that you have the following role or roles on the project: Cloud Speech Administrator

    Check for the roles

    1. In the Google Cloud console, go to the IAM page.

      Go to IAM
    2. Select the project.
    3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.

    4. For all rows that specify or include you, check the Role colunn to see whether the list of roles includes the required roles.

    Grant the roles

    1. In the Google Cloud console, go to the IAM page.

      Zu IAM
    2. Wählen Sie das Projekt aus.
    3. Klicken Sie auf Zugriff erlauben.
    4. Geben Sie im Feld Neue Hauptkonten Ihre Nutzer-ID ein. Dies ist in der Regel die E-Mail-Adresse eines Google-Kontos.

    5. Wählen Sie in der Liste Rolle auswählen eine Rolle aus.
    6. Wenn Sie weitere Rollen hinzufügen möchten, klicken Sie auf Weitere Rolle hinzufügen und fügen Sie weitere Rollen hinzu.
    7. Klicken Sie auf Speichern.
    8. Install the Google Cloud CLI.
    9. To initialize the gcloud CLI, run the following command:

      gcloud init
    10. Clientbibliotheken können Standardanmeldedaten für Anwendungen verwenden, um sich einfach bei Google APIs zu authentifizieren und Anfragen an diese APIs zu senden. Mit den Standardanmeldedaten für Anwendungen können Sie Ihre Anwendung lokal testen und bereitstellen, ohne den zugrunde liegenden Code zu ändern. Weitere Informationen finden Sie unter <atrack-type="commonincludes" l10n-attrs-original-order="href,track-type,track-name" l10n-encrypted-href="WDE63JFVMK0YqIWBqG8nCycgwkRfOeEqRvzYs1N+2tJUEhcZvE5VtDH5LoWw0lj/" track-name="referenceLink">. Authentifizieren Sie sich für die Verwendung von Clientbibliotheken.</atrack-type="commoninclude">

    11. Create local authentication credentials for your user account:

      gcloud auth application-default login

    Prüfen Sie außerdem, ob Sie die Clientbibliothek installiert haben.

    Transkription mit einem PhraseSet verbessern

    1. Im folgenden Beispiel wird ein PhraseSet mit dem Ausdruck „fare“ erstellt und in einer Erkennungsanfrage als inline_phrase_set hinzugefügt:

    Python

    from google.cloud.speech_v2 import SpeechClient
    from google.cloud.speech_v2.types import cloud_speech
    
    def adaptation_v2_inline_phrase_set(
        project_id: str,
        audio_file: str,
    ) -> cloud_speech.RecognizeResponse:
        # Instantiates a client
        client = SpeechClient()
    
        # Reads a file as bytes
        with open(audio_file, "rb") as f:
            content = f.read()
    
        # Build inline phrase set to produce a more accurate transcript
        phrase_set = cloud_speech.PhraseSet(phrases=[{"value": "fare", "boost": 10}])
        adaptation = cloud_speech.SpeechAdaptation(
            phrase_sets=[
                cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                    inline_phrase_set=phrase_set
                )
            ]
        )
        config = cloud_speech.RecognitionConfig(
            auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
            adaptation=adaptation,
            language_codes=["en-US"],
            model="short",
        )
    
        request = cloud_speech.RecognizeRequest(
            recognizer=f"projects/{project_id}/locations/global/recognizers/_",
            config=config,
            content=content,
        )
    
        # Transcribes the audio into text
        response = client.recognize(request=request)
    
        for result in response.results:
            print(f"Transcript: {result.alternatives[0].transcript}")
    
        return response
    
    
    1. In diesem Beispiel wird eine PhraseSet-Ressource mit derselben Wortgruppe erstellt und dann wird in einer Erkennungsanfrage darauf verwiesen:

    Python

    from google.cloud.speech_v2 import SpeechClient
    from google.cloud.speech_v2.types import cloud_speech
    
    def adaptation_v2_phrase_set_reference(
        project_id: str,
        phrase_set_id: str,
        audio_file: str,
    ) -> cloud_speech.RecognizeResponse:
        """Transcribe audio files using a PhraseSet.
    
        Args:
            project_id: The GCP project ID.
            phrase_set_id: The ID of the PhraseSet to use.
            audio_file: The path to the audio file to transcribe.
    
        Returns:
            The response from the recognize call.
        """
        # Instantiates a client
        client = SpeechClient()
    
        # Reads a file as bytes
        with open(audio_file, "rb") as f:
            content = f.read()
    
        # Create a persistent PhraseSet to reference in a recognition request
        request = cloud_speech.CreatePhraseSetRequest(
            parent=f"projects/{project_id}/locations/global",
            phrase_set_id=phrase_set_id,
            phrase_set=cloud_speech.PhraseSet(phrases=[{"value": "fare", "boost": 10}]),
        )
    
        operation = client.create_phrase_set(request=request)
        phrase_set = operation.result()
    
        # Add a reference of the PhraseSet into the recognition request
        adaptation = cloud_speech.SpeechAdaptation(
            phrase_sets=[
                cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                    phrase_set=phrase_set.name
                )
            ]
        )
        config = cloud_speech.RecognitionConfig(
            auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
            adaptation=adaptation,
            language_codes=["en-US"],
            model="short",
        )
    
        request = cloud_speech.RecognizeRequest(
            recognizer=f"projects/{project_id}/locations/global/recognizers/_",
            config=config,
            content=content,
        )
    
        # Transcribes the audio into text
        response = client.recognize(request=request)
    
        for result in response.results:
            print(f"Transcript: {result.alternatives[0].transcript}")
    
        return response
    
    

    Transkriptionsergebnisse mit einer CustomClass verbessern

    1. Im folgenden Beispiel wird ein CustomClass mit einem Element „fare“ und dem Namen „fare“ erstellt. Anschließend wird auf die CustomClass innerhalb eines inline_phrase_set in einer Erkennungsanfrage verwiesen:

    Python

    from google.cloud.speech_v2 import SpeechClient
    from google.cloud.speech_v2.types import cloud_speech
    
    def adaptation_v2_inline_custom_class(
        project_id: str,
        audio_file: str,
    ) -> cloud_speech.RecognizeResponse:
        """Transcribe audio file using inline custom class
    
        Args:
            project_id: The GCP project ID.
            audio_file: The audio file to transcribe.
    
        Returns:
            The response from the recognizer.
        """
        # Instantiates a client
        client = SpeechClient()
    
        # Reads a file as bytes
        with open(audio_file, "rb") as f:
            content = f.read()
    
        # Build inline phrase set to produce a more accurate transcript
        phrase_set = cloud_speech.PhraseSet(phrases=[{"value": "${fare}", "boost": 20}])
        custom_class = cloud_speech.CustomClass(name="fare", items=[{"value": "fare"}])
        adaptation = cloud_speech.SpeechAdaptation(
            phrase_sets=[
                cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                    inline_phrase_set=phrase_set
                )
            ],
            custom_classes=[custom_class],
        )
        config = cloud_speech.RecognitionConfig(
            auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
            adaptation=adaptation,
            language_codes=["en-US"],
            model="short",
        )
    
        request = cloud_speech.RecognizeRequest(
            recognizer=f"projects/{project_id}/locations/global/recognizers/_",
            config=config,
            content=content,
        )
    
        # Transcribes the audio into text
        response = client.recognize(request=request)
    
        for result in response.results:
            print(f"Transcript: {result.alternatives[0].transcript}")
    
        return response
    
    
    1. In diesem Beispiel wird eine CustomClass-Ressource mit demselben Element erstellt. Anschließend wird eine PhraseSet-Ressource mit einer Wortgruppe erstellt, die auf den CustomClass-Ressourcennamen verweist. Anschließend wird auf die PhraseSet-Ressource in einer Erkennungsanfrage verwiesen:

    Python

    from google.cloud.speech_v2 import SpeechClient
    from google.cloud.speech_v2.types import cloud_speech
    
    def adaptation_v2_custom_class_reference(
        project_id: str,
        phrase_set_id: str,
        custom_class_id: str,
        audio_file: str,
    ) -> cloud_speech.RecognizeResponse:
        """Transcribe audio file using a custom class.
    
        Args:
            project_id: The GCP project ID.
            phrase_set_id: The ID of the phrase set to use.
            custom_class_id: The ID of the custom class to use.
            audio_file: The audio file to transcribe.
    
        Returns:
            The transcript of the audio file.
        """
        # Instantiates a client
        client = SpeechClient()
    
        # Reads a file as bytes
        with open(audio_file, "rb") as f:
            content = f.read()
    
        # Create a persistent CustomClass to reference in phrases
        request = cloud_speech.CreateCustomClassRequest(
            parent=f"projects/{project_id}/locations/global",
            custom_class_id=custom_class_id,
            custom_class=cloud_speech.CustomClass(items=[{"value": "fare"}]),
        )
    
        operation = client.create_custom_class(request=request)
        custom_class = operation.result()
    
        # Create a persistent PhraseSet to reference in a recognition request
        request = cloud_speech.CreatePhraseSetRequest(
            parent=f"projects/{project_id}/locations/global",
            phrase_set_id=phrase_set_id,
            phrase_set=cloud_speech.PhraseSet(
                phrases=[{"value": f"${{{custom_class.name}}}", "boost": 20}]
            ),
        )
    
        operation = client.create_phrase_set(request=request)
        phrase_set = operation.result()
    
        # Add a reference of the PhraseSet into the recognition request
        adaptation = cloud_speech.SpeechAdaptation(
            phrase_sets=[
                cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                    phrase_set=phrase_set.name
                )
            ]
        )
        config = cloud_speech.RecognitionConfig(
            auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
            adaptation=adaptation,
            language_codes=["en-US"],
            model="short",
        )
    
        request = cloud_speech.RecognizeRequest(
            recognizer=f"projects/{project_id}/locations/global/recognizers/_",
            config=config,
            content=content,
        )
    
        # Transcribes the audio into text
        response = client.recognize(request=request)
    
        for result in response.results:
            print(f"Transcript: {result.alternatives[0].transcript}")
    
        return response
    
    

    Bereinigen

    Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

    1. Optional: Widerrufen Sie die von Ihnen erstellten Anmeldedaten für die Authentifizierung und löschen Sie die lokale Datei mit den Anmeldedaten:

      gcloud auth application-default revoke
    2. Optional: Widerrufen Sie Anmeldedaten von der gcloud-CLI.

      gcloud auth revoke

    Console

  5. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  6. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  7. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.
  8. gcloud

    Google Cloud-Projekt löschen:

    gcloud projects delete PROJECT_ID

    Nächste Schritte