Transkriptionsergebnisse durch Modellanpassung verbessern

Übersicht

Mit dem Feature Modellanpassung kann Speech-to-Text bestimmte Wörter oder Wortgruppen häufiger erkennen als andere Optionen, die sonst möglicherweise vorgeschlagen werden. Angenommen, Ihre Audiodaten enthalten häufig das Wort "weather" (Wetter). Wenn Speech-to-Text auf das Wort "weather" stößt, soll das Wort häufiger mit "weather" (Wetter) als mit "whether" (ob) transkribiert werden. In diesem Fall können Sie die Modellanpassung einsetzen, um Speech-to-Text auf das Erkennen des Begriffs "weather" auszurichten.

Die Modellanpassung ist in den folgenden Anwendungsfällen besonders hilfreich:

  • Verbesserung der Erkennung von Wörtern und Wortgruppen, die in den Audiodaten häufig vorkommen. Beispielsweise können Sie das Erkennungsmodell auf Sprachbefehle hinweisen, die normalerweise von Ihren Nutzern gesprochen werden.

  • Erweiterung des Vokabulars von Wörtern, die von Speech-to-Text erkannt werden. Speech-to-Text enthält bereits ein sehr umfangreiches Vokabular. Wenn Ihre Audiodaten jedoch häufig Wörter enthalten, die im allgemeinen Sprachgebrauch eher selten sind (z. B. Eigennamen oder themenspezifische Begriffe), können Sie diese mithilfe der Modellanpassung hinzufügen.

  • Verbesserung der Treffsicherheit der Sprachtranskription, wenn der Audioinhalt Rauschen enthält oder nicht klar ist.

Optional können Sie die Gewichtung des Erkennungsmodells mit dem Feature zur Optimierung der Modellanpassung optimieren.

Erkennung von Wörtern und Wortgruppen verbessern

Um die Wahrscheinlichkeit zu erhöhen, dass Speech-to-Text beim Transkribieren Ihrer Audiodaten das Wort "weather" erkennt, können Sie das einzelne Wort "weather" im PhraseSet-Objekt in einer SpeechAdaptation-Ressource übergeben.

Wenn Sie eine Wortgruppe mit mehreren Wörtern bereitstellen, erhöht das die Wahrscheinlichkeit, dass Speech-to-Text diese Wortgruppe korrekt erkennt. Bei Angabe einer Wortgruppe erhöht sich ebenfalls die Wahrscheinlichkeit, dass Teile der Wortgruppe, einschließlich einzelner Wörter, erkannt werden. Unter Limits für Inhalte finden Sie Limits für die Anzahl und Länge dieser Wortgruppen.

Erkennung mithilfe von Klassen verbessern

Klassen stehen für gängige Konzepte, die in natürlicher Sprache vorkommen, z. B. Währungseinheiten und Kalenderdaten. Mit einer Klasse können Sie die Transkriptionsgenauigkeit für große Wortgruppen, die zu einem gemeinsamen Konzept gehören, aber nicht immer identische Wörter oder Wortgruppen enthalten, verbessern.

Angenommen, Ihre Audiodaten enthalten Aufnahmen von Personen, die ihre Adresse nennen. In einer Audioaufnahme sagt jemand vielleicht: "Mein Haus befindet sich in der Hauptstraße 123. Es ist das vierte Haus auf der linken Seite." In diesem Fall soll Speech-to-Text die erste Ziffernfolge ("123") als Adresse und nicht als Ordinalzahl erkennen ("einhundertdreiundzwanzigste"). Allerdings wohnen nicht alle Menschen in der "Hauptstraße 123". Es ist unpraktisch, jede mögliche Adresse in einer PhraseSet-Ressource anzugeben. Stattdessen können Sie mithilfe einer Klasse dafür sorgen, dass eine Hausnummer unabhängig von der tatsächlichen Zahl erkannt wird. In diesem Beispiel könnte Speech-to-Text Wortgruppen wie "Hauptstraße 123" und "Königsallee 987" genauer transkribieren, da die beiden Zahlen als Hausnummern erkannt werden.

Klassentokens

Wenn Sie bei der Modellanpassung eine Klasse verwenden möchten, fügen Sie im Feld phrases einer PhraseSet-Ressource ein Klassentoken ein. In der Liste der unterstützten Klassentokens sehen Sie, welche Tokens für Ihre Sprache verfügbar sind. Wenn Sie beispielsweise die Transkription von Hausnummern aus der Audioquelle verbessern möchten, geben Sie in einer PhraseSet. innerhalb einer Wortgruppe den Wert $ADDRESSNUM an.

Sie können Klassen als eigenständige Elemente im phrases-Array verwenden oder ein oder mehrere Klassentokens in längere Wortgruppen mit mehreren Wörtern einbetten. Beispielsweise können Sie eine Hausnummer in einer größeren Wortgruppe angeben, indem Sie das Klassentoken in einen String einfügen: ["my address is $ADDRESSNUM"]. Diese Wortgruppe ist jedoch nicht hilfreich, wenn die Audiodaten eine zwar ähnliche, aber nicht identische Wortgruppe enthalten, z. B. "Ich bin in der Hauptstraße 123". Um die Erkennung ähnlicher Wortgruppen zu verbessern, ist es wichtig, zusätzlich das Klassentoken für sich allein anzugeben: ["my address is $ADDRESSNUM", "$ADDRESSNUM"]. Wenn Sie ein ungültiges oder falsch formatiertes Klassentoken verwenden, ignoriert Speech-to-Text das Token, ohne einen Fehler auszulösen. Der Rest der Wortgruppe wird aber für den Kontext verwendet.

Benutzerdefinierte Klassen

Sie können auch eine eigene CustomClass erstellen. Dabei handelt es sich um eine Klasse, die aus Ihrer eigenen benutzerdefinierten Liste verwandter Elemente oder Werte besteht. Sie möchten beispielsweise Audiodaten transkribieren, die wahrscheinlich den Namen eines von mehreren hundert regionalen Restaurants enthalten. Restaurantnamen sind in der allgemeinen Sprache relativ selten und werden daher vom Erkennungsmodell wahrscheinlich nicht als „richtige“ Antwort ausgewählt. Sie können das Erkennungsmodell so anpassen, dass diese Namen bei der Identifizierung in Ihren Audiodaten mithilfe einer benutzerdefinierten Klasse korrekt erkannt werden.

Wenn Sie eine benutzerdefinierte Klasse verwenden möchten, erstellen Sie eine CustomClass-Ressource, die jeden Restaurantnamen als ClassItem enthält. Benutzerdefinierte Klassen funktionieren genauso wie die vordefinierten Klassentokens. Eine phrase kann sowohl vordefinierte Klassentokens als auch benutzerdefinierte Klassen enthalten.

Feinabstimmung der Transkriptionsergebnisse mit der Optimierung

Standardmäßig hat die Modellanpassung einen relativ kleinen Effekt, insbesondere bei Wortgruppen mit nur einem Wort. Mit dem Optimierungs-Feature der Modellanpassung können Sie die Gewichtung bestimmter Wortgruppen durch das Erkennungsmodell anpassen. Wir empfehlen die Implementierung der Optimierung, wenn alle folgenden Bedingungen erfüllt sind:

  1. Sie haben die Modellanpassung bereits implementiert.
  2. Sie möchten die Stärke des Effekts der Modellanpassung auf Ihre Transkriptionsergebnisse weiter anpassen. Auf der Seite zur Sprachunterstützung können Sie sehen, ob das Optimierungsfeature für Ihre Sprache verfügbar ist.

Angenommen, es gibt viele Aufnahmen von Personen, die nach "fare to get into the county fair" (Fahrpreis für die Fahrt zum Jahrmarkt) fragen, wobei das Wort "fair" häufiger vorkommt als "fare". In diesem Fall können Sie die Modellanpassung verwenden, um die Wahrscheinlichkeit zu erhöhen, dass das Modell sowohl „fair“ als auch „fare“ erkennt. Fügen Sie sie dazu als phrases in eine PhraseSet-Ressource ein. Dadurch wird Speech-to-Text angewiesen, „fair“ und „fare“ häufiger zu erkennen als beispielsweise „hare“ oder „lair“.

Gleichzeitig soll häufiger "fair" als "fare" erkannt werden, da dieses Wort in den Audiodaten öfter vorkommt. Möglicherweise haben Sie Ihre Audiodaten schon mit der Speech-to-Text API transkribiert und eine große Anzahl an Fehlern bei der Erkennung des richtigen Wortes ("fair") gefunden. In diesem Fall können Sie die Optimierungsfunktion verwenden, um "fair" einen höheren Optimierungswert zuzuweisen als "fare". Durch den höher gewichteten Wert, der dem Wort "fair" zugewiesen ist, wird die Speech-to-Text API so konfiguriert, dass sie "fair" häufiger auswählt als "fare". Ohne Optimierungswerte erkennt das Erkennungsmodell "fair" und "fare" mit gleicher Wahrscheinlichkeit.

Optimierungsgrundlagen

Wenn Sie die Optimierung verwenden, weisen Sie phrase-Elementen in einer PhraseSet-Ressource einen Gewichtungswert zu. Speech-to-Text berücksichtigt diesen Gewichtungswert, wenn es eine mögliche Transkription für Wörter in Audiodaten auswählt. Je höher der Wert, desto höher die Wahrscheinlichkeit, dass Speech-to-Text dieses Wort oder die Wortgruppe aus den möglichen Alternativen auswählt.

Wenn Sie einer Wortgruppe mit mehreren Wörtern einen Optimierungswert zuweisen, wird die Optimierung auf die gesamte Wortgruppe und nur auf die gesamte Wortgruppe angewendet. Sie können beispielsweise der Wortgruppe „Meine Lieblingsausstellung im American Museum of Natural History sind die Blauwale“ einen Optimierungswert zuweisen. Wenn Sie diese Wortgruppe einem phrase-Objekt hinzufügen und einen Optimierungswert zuweisen, erkennt das Erkennungsmodell diese Wortgruppe mit größerer Wahrscheinlichkeit in ihrer Gesamtheit.

Wenn Sie nicht die Ergebnisse erhalten, die Sie durch die Optimierung einer Wortgruppe mit mehreren Wörtern erwartet hatten, sollten Sie alle Bigramme (zwei Wörter in einer bestimmten Reihenfolge) aus denen die Wortgruppe besteht, als zusätzliche phrase-Elemente hinzufügen und jedem einen Optimierungswert zuweisen. Bezogen auf das vorherige Beispiel könnten Sie versuchen, zusätzliche Bigramme und Endgramme (mit mehr als zwei Wörtern) hinzuzufügen, z. B. „mein bevorzugtes“, „mein bevorzugtes Exponat“, „bevorzugtes Exponat“, „mein bevorzugtes Exponat im American Museum of Natural History“, „American Museum of Natural History“ und „Blauwal“. Das STT-Erkennungsmodell erkennt dann mit größerer Wahrscheinlichkeit ähnliche Wortgruppen in Ihrem Audio, die Teile der ursprünglichen optimierten Wortgruppe enthalten, aber dieser nicht Wort für Wort entsprechen.

Optimierungswerte festlegen

Optimierungswerte müssen einen Gleitkommawert größer als 0 haben. Die praktische Obergrenze für Optimierungswerte beträgt 20. Um optimale Ergebnisse zu erzielen, sollten Sie mit Ihren Transkriptionsergebnissen experimentieren, indem Sie die Optimierungswerte nach oben oder unten anpassen, bis Sie genauere Transkriptionsergebnisse erhalten.

Durch höhere Optimierungswerte lässt sich die Zahl der falsch-negativen Ergebnisse möglicherweise verringern. Solche Ergebnisse liegen vor, wenn ein Wort oder eine Wortgruppe in den Audiodaten vorkommt, aber von Speech-to-Text nicht richtig erkannt wird. Durch die Optimierung kann aber auch die Wahrscheinlichkeit von falsch-positiven Ergebnissen erhöht werden. Das sind Ergebnisse, bei denen das Wort oder die Wortgruppe in der Transkription vorkommt, obwohl es nicht in den Audiodaten enthalten ist.

Anwendungsfallbeispiel mit Modellanpassung

Im folgenden Beispiel erfahren Sie, wie Sie mithilfe der Modellanpassung einen Audiodatensatz transkribieren, in dem jemand sagt: „The word is fare“. In diesem Fall erkennt Speech-to-Text ohne Sprachanpassung das Wort „fair“. Durch die Sprachanpassung kann Speech-to-Text stattdessen das Wort „fare“ erkennen.

Hinweise

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. Speech-to-Text APIs aktivieren.

    Aktivieren Sie die APIs

  5. Prüfen Sie, ob Sie die folgenden Rollen für das Projekt haben: Cloud Speech Administrator

    Auf Rollen prüfen

    1. Öffnen Sie in der Google Cloud Console die Seite IAM.

      IAM aufrufen
    2. Wählen Sie das Projekt aus.
    3. Suchen Sie in der Spalte Hauptkonto die Zeile mit Ihrer E-Mail-Adresse.

      Ist Ihre E-Mail-Adresse nicht in dieser Spalte enthalten, haben Sie keine Rollen.

    4. Prüfen Sie in der Spalte Rolle der Zeile mit Ihrer E-Mail-Adresse, ob die Liste der Rollen die erforderlichen Rollen enthält.

    Rollen zuweisen

    1. Öffnen Sie in der Google Cloud Console die Seite IAM.

      IAM aufrufen
    2. Wählen Sie das Projekt aus.
    3. Klicken Sie auf Zugriff erlauben.
    4. Geben Sie in das Feld Neue Hauptkonten Ihre E-Mail-Adresse ein.
    5. Wählen Sie in der Liste Rolle auswählen eine Rolle aus.
    6. Wenn Sie weitere Rollen hinzufügen möchten, klicken Sie auf Weitere Rolle hinzufügen und fügen Sie weitere Rollen hinzu.
    7. Klicken Sie auf Speichern.
  6. Installieren Sie die Google Cloud CLI.
  7. Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

    gcloud init
  8. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  9. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  10. Speech-to-Text APIs aktivieren.

    Aktivieren Sie die APIs

  11. Prüfen Sie, ob Sie die folgenden Rollen für das Projekt haben: Cloud Speech Administrator

    Auf Rollen prüfen

    1. Öffnen Sie in der Google Cloud Console die Seite IAM.

      IAM aufrufen
    2. Wählen Sie das Projekt aus.
    3. Suchen Sie in der Spalte Hauptkonto die Zeile mit Ihrer E-Mail-Adresse.

      Ist Ihre E-Mail-Adresse nicht in dieser Spalte enthalten, haben Sie keine Rollen.

    4. Prüfen Sie in der Spalte Rolle der Zeile mit Ihrer E-Mail-Adresse, ob die Liste der Rollen die erforderlichen Rollen enthält.

    Rollen zuweisen

    1. Öffnen Sie in der Google Cloud Console die Seite IAM.

      IAM aufrufen
    2. Wählen Sie das Projekt aus.
    3. Klicken Sie auf Zugriff erlauben.
    4. Geben Sie in das Feld Neue Hauptkonten Ihre E-Mail-Adresse ein.
    5. Wählen Sie in der Liste Rolle auswählen eine Rolle aus.
    6. Wenn Sie weitere Rollen hinzufügen möchten, klicken Sie auf Weitere Rolle hinzufügen und fügen Sie weitere Rollen hinzu.
    7. Klicken Sie auf Speichern.
  12. Installieren Sie die Google Cloud CLI.
  13. Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

    gcloud init
  14. Clientbibliotheken können Standardanmeldedaten für Anwendungen verwenden, um sich einfach bei Google APIs zu authentifizieren und Anfragen an diese APIs zu senden. Mit den Standardanmeldedaten für Anwendungen können Sie Ihre Anwendung lokal testen und bereitstellen, ohne den zugrunde liegenden Code zu ändern. Weitere Informationen finden Sie unter <atrack-type="commonincludes" l10n-attrs-original-order="href,track-type,track-name" l10n-encrypted-href="WDE63JFVMK0YqIWBqG8nCycgwkRfOeEqRvzYs1N+2tJUEhcZvE5VtDH5LoWw0lj/" track-name="referenceLink">. Authentifizieren Sie sich für die Verwendung von Clientbibliotheken.</atrack-type="commoninclude">

  15. Erstellen Sie lokale Anmeldedaten zur Authentifizierung für Ihr Google-Konto:

    gcloud auth application-default login

Prüfen Sie außerdem, ob Sie die Clientbibliothek installiert haben.

Transkription mit einem PhraseSet verbessern

  1. Im folgenden Beispiel wird ein PhraseSet mit dem Ausdruck „fare“ erstellt und in einer Erkennungsanfrage als inline_phrase_set hinzugefügt:

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def adaptation_v2_inline_phrase_set(
    project_id: str,
    audio_file: str,
) -> cloud_speech.RecognizeResponse:
    # Instantiates a client
    client = SpeechClient()

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    # Build inline phrase set to produce a more accurate transcript
    phrase_set = cloud_speech.PhraseSet(phrases=[{"value": "fare", "boost": 10}])
    adaptation = cloud_speech.SpeechAdaptation(
        phrase_sets=[
            cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                inline_phrase_set=phrase_set
            )
        ]
    )
    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        adaptation=adaptation,
        language_codes=["en-US"],
        model="short",
    )

    request = cloud_speech.RecognizeRequest(
        recognizer=f"projects/{project_id}/locations/global/recognizers/_",
        config=config,
        content=content,
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

  1. In diesem Beispiel wird eine PhraseSet-Ressource mit derselben Wortgruppe erstellt und dann wird in einer Erkennungsanfrage darauf verwiesen:

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def adaptation_v2_phrase_set_reference(
    project_id: str,
    phrase_set_id: str,
    audio_file: str,
) -> cloud_speech.RecognizeResponse:
    """Transcribe audio files using a PhraseSet.

    Args:
        project_id: The GCP project ID.
        phrase_set_id: The ID of the PhraseSet to use.
        audio_file: The path to the audio file to transcribe.

    Returns:
        The response from the recognize call.
    """
    # Instantiates a client
    client = SpeechClient()

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    # Create a persistent PhraseSet to reference in a recognition request
    request = cloud_speech.CreatePhraseSetRequest(
        parent=f"projects/{project_id}/locations/global",
        phrase_set_id=phrase_set_id,
        phrase_set=cloud_speech.PhraseSet(phrases=[{"value": "fare", "boost": 10}]),
    )

    operation = client.create_phrase_set(request=request)
    phrase_set = operation.result()

    # Add a reference of the PhraseSet into the recognition request
    adaptation = cloud_speech.SpeechAdaptation(
        phrase_sets=[
            cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                phrase_set=phrase_set.name
            )
        ]
    )
    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        adaptation=adaptation,
        language_codes=["en-US"],
        model="short",
    )

    request = cloud_speech.RecognizeRequest(
        recognizer=f"projects/{project_id}/locations/global/recognizers/_",
        config=config,
        content=content,
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

Transkriptionsergebnisse mit einer CustomClass verbessern

  1. Im folgenden Beispiel wird ein CustomClass mit einem Element „fare“ und dem Namen „fare“ erstellt. Anschließend wird auf die CustomClass innerhalb eines inline_phrase_set in einer Erkennungsanfrage verwiesen:

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def adaptation_v2_inline_custom_class(
    project_id: str,
    audio_file: str,
) -> cloud_speech.RecognizeResponse:
    """Transcribe audio file using inline custom class

    Args:
        project_id: The GCP project ID.
        audio_file: The audio file to transcribe.

    Returns:
        The response from the recognizer.
    """
    # Instantiates a client
    client = SpeechClient()

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    # Build inline phrase set to produce a more accurate transcript
    phrase_set = cloud_speech.PhraseSet(phrases=[{"value": "${fare}", "boost": 20}])
    custom_class = cloud_speech.CustomClass(name="fare", items=[{"value": "fare"}])
    adaptation = cloud_speech.SpeechAdaptation(
        phrase_sets=[
            cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                inline_phrase_set=phrase_set
            )
        ],
        custom_classes=[custom_class],
    )
    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        adaptation=adaptation,
        language_codes=["en-US"],
        model="short",
    )

    request = cloud_speech.RecognizeRequest(
        recognizer=f"projects/{project_id}/locations/global/recognizers/_",
        config=config,
        content=content,
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

  1. In diesem Beispiel wird eine CustomClass-Ressource mit demselben Element erstellt. Anschließend wird eine PhraseSet-Ressource mit einer Wortgruppe erstellt, die auf den CustomClass-Ressourcennamen verweist. Anschließend wird auf die PhraseSet-Ressource in einer Erkennungsanfrage verwiesen:

Python

from google.cloud.speech_v2 import SpeechClient
from google.cloud.speech_v2.types import cloud_speech

def adaptation_v2_custom_class_reference(
    project_id: str,
    phrase_set_id: str,
    custom_class_id: str,
    audio_file: str,
) -> cloud_speech.RecognizeResponse:
    """Transcribe audio file using a custom class.

    Args:
        project_id: The GCP project ID.
        phrase_set_id: The ID of the phrase set to use.
        custom_class_id: The ID of the custom class to use.
        audio_file: The audio file to transcribe.

    Returns:
        The transcript of the audio file.
    """
    # Instantiates a client
    client = SpeechClient()

    # Reads a file as bytes
    with open(audio_file, "rb") as f:
        content = f.read()

    # Create a persistent CustomClass to reference in phrases
    request = cloud_speech.CreateCustomClassRequest(
        parent=f"projects/{project_id}/locations/global",
        custom_class_id=custom_class_id,
        custom_class=cloud_speech.CustomClass(items=[{"value": "fare"}]),
    )

    operation = client.create_custom_class(request=request)
    custom_class = operation.result()

    # Create a persistent PhraseSet to reference in a recognition request
    request = cloud_speech.CreatePhraseSetRequest(
        parent=f"projects/{project_id}/locations/global",
        phrase_set_id=phrase_set_id,
        phrase_set=cloud_speech.PhraseSet(
            phrases=[{"value": f"${{{custom_class.name}}}", "boost": 20}]
        ),
    )

    operation = client.create_phrase_set(request=request)
    phrase_set = operation.result()

    # Add a reference of the PhraseSet into the recognition request
    adaptation = cloud_speech.SpeechAdaptation(
        phrase_sets=[
            cloud_speech.SpeechAdaptation.AdaptationPhraseSet(
                phrase_set=phrase_set.name
            )
        ]
    )
    config = cloud_speech.RecognitionConfig(
        auto_decoding_config=cloud_speech.AutoDetectDecodingConfig(),
        adaptation=adaptation,
        language_codes=["en-US"],
        model="short",
    )

    request = cloud_speech.RecognizeRequest(
        recognizer=f"projects/{project_id}/locations/global/recognizers/_",
        config=config,
        content=content,
    )

    # Transcribes the audio into text
    response = client.recognize(request=request)

    for result in response.results:
        print(f"Transcript: {result.alternatives[0].transcript}")

    return response

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

  1. Optional: Widerrufen Sie die von Ihnen erstellten Anmeldedaten für die Authentifizierung und löschen Sie die lokale Datei mit den Anmeldedaten:

    gcloud auth application-default revoke
  2. Optional: Widerrufen Sie Anmeldedaten von der gcloud-CLI.

    gcloud auth revoke

Console

  • Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  • Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  • Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.
  • gcloud

    Google Cloud-Projekt löschen:

    gcloud projects delete PROJECT_ID

    Nächste Schritte