Modellanpassung für Speech-to-Text einrichten

Agent Assist verwendet die Speech-to-Text-Modellanpassung, um die Qualität der Transkription zu verbessern, indem bestimmte Wortgruppen häufiger als andere erkannt werden. Auf dieser Seite finden Sie eine Anleitung zum Einrichten der Modellanpassung für die Speech-to-Text-Transkription.

Speech-to-Text-Konsole verwenden

Mit der Speech-to-Text-Konsole können Sie nur globale Wortgruppen erstellen. Regionale Wortgruppen müssen mit der Speech-to-Text API erstellt werden.

  1. Rufen Sie in der Google Cloud Console die Seite Speech-to-Text auf. Speech-to-Text aufrufen
  2. Klicken Sie auf Modellanpassungen.
  3. Klicken Sie auf add_boxNeue Ressource.
  4. Wählen Sie die Ressource Phrase set und die API-Version V1 aus, geben Sie die Begriffe und Boost-Werte ein und kopieren Sie dann den Namen des Phrase set.
  5. Klicken Sie auf Speichern.
  6. Öffnen Sie die Agent Assist Console.
  7. Klicken Sie auf Konversationsprofile und wählen Sie das Konversationsprofil aus, das Sie bearbeiten möchten.
  8. Rufen Sie den Bereich Phrasengruppen auf und fügen Sie den Namen der Phrasengruppe ein.

Speech-to-Text API verwenden

  1. Erstellen Sie ein Skript für Wortgruppensätze. Folgen Sie dazu der Anleitung zur Spracherkennung.
  2. Führen Sie das folgende Python-Skript aus, um Ihr Unterhaltungsprofil zu aktualisieren:

    # Conversation Profile to update
    PROJECT_ID = "sample-project"
    LOCATION = "global"
    CONVERSATION_PROFILE_ID = "sample-conversation-profile"
    # Speech model adaptation resource names
    SPEECH_ADAPTATION_PHRASES = ["projects/sample-project/locations/global/phraseSets/sample-phrase-sets"]

    import google.auth from google.auth.transport.requests import AuthorizedSession

    scopes=['https://www.googleapis.com/auth/cloud-platform'] credentials, project = google.auth.default( scopes=scopes, quota_project_id=PROJECT_ID, ) session = AuthorizedSession(credentials)

    profile_url = f"https://dialogflow.googleapis.com/v2beta1/projects/{PROJECT_ID}/locations/{LOCATION}/conversationProfiles/{CONVERSATION_PROFILE_ID}" get_response = session.get(profile_url) print("Checking for existing ConversationProfile...") print(get_response.status_code) print(get_response.json()) if get_response.status_code == 200: patch_response = session.patch( profile_url, params={ "updateMask": "sttConfig.phraseSets" }, json={ "sttConfig": { "phraseSets": SPEECH_ADAPTATION_PHRASES } } ) print("Updating ConversationProfile...") print(patch_response.status_code) print(patch_response.json())

Regionale Wortgruppensätze

Die Speech-to-Text-Modellanpassung wird nur für Englisch (en-US) unterstützt. Sie können jedoch mit der Speech-to-Text API Wortgruppen für andere Sprachregionen konfigurieren. Das ist besonders nützlich, wenn Sie englische Unterhaltungen transkribieren, die in diesen Regionen stattfinden.

Mit dem folgenden Beispielbefehl können Sie regionale Wortgruppenmengen mit der Speech-to-Text API erstellen.

curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -H "X-Goog-User-Project: sample_project" \
    -d @sample_phrase_sets.json \
"https://us-speech.googleapis.com/v1/projects/sample-project/locations/us/phraseSets"

Die JSON-Datei @sample_phrase_sets.json enthält die folgenden Inhalte der Wortgruppen:

{
  "parent": "projects/sample-project/locations/us",
  "phraseSetId": "sample-phrase-sets",
  "phraseSet": {
    "name": "sample-phrase-sets",
    "phrases": [
      {
        "value": "Some phrase",
        "boost": 20
      }
    ]
  }
}
In der folgenden Tabelle sehen Sie für ein Konversationsprofil in einer einzelnen Dialogflow-Region die entsprechende Speech-to-Text-Region, in der Sie Ihr Phrase-Set erstellen müssen.

Dialogflow-Region Speech-to-Text-Region
us
us-central1
us-east1
us-east7
us-west1
northamerica-northeast1
northamerica-northeast2
us
eu
europe-west1
europe-west2
europe-west3
europe-west4
eu
australia-southeast1 
asia-northeast1 
asia-south1 
asia-southeast1 
me-west1 
global
global