Agent Assist verwendet die Speech-to-Text-Modellanpassung, um die Transkriptionsqualität zu verbessern, indem bestimmte Wortgruppen häufiger als andere erkannt werden. Auf dieser Seite finden Sie eine Anleitung zum Einrichten der Modellanpassung für die Speech-to-Text-Transkription.
Speech-to-Text-Konsole verwenden
Mit der Speech-to-Text-Konsole können Sie nur globale Wortgruppen erstellen. Regionale Wortgruppen müssen mit der Speech-to-Text API erstellt werden.
- Rufen Sie in der Google Cloud Console die Seite Speech-to-Text auf. Zu „Sprache in Text umwandeln“
- Klicken Sie auf Modellanpassungen.
- Klicken Sie auf add_boxNeue Ressource.
- Wählen Sie die Ressource Phrasengruppe und die API-Version V1 aus, füllen Sie die Begriffe und die Steigerungswerte aus und kopieren Sie den Namen der Phrasengruppe.
- Klicken Sie auf Speichern.
- Öffnen Sie die Agent Assist Console.
- Klicken Sie auf Unterhaltungsprofile und wählen Sie das Unterhaltungsprofil aus, das Sie bearbeiten möchten.
- Gehen Sie zum Bereich Satzgruppen und fügen Sie den Namen der Satzgruppe ein.
Speech-to-Text API verwenden
- Folgen Sie der Anleitung zur Spracherkennung, um ein Skript für Wortgruppensätze zu erstellen.
Führen Sie das folgende Python-Script aus, um Ihr Konversationsprofil zu aktualisieren:
# Conversation Profile to update PROJECT_ID = "sample-project" LOCATION = "global" CONVERSATION_PROFILE_ID = "sample-conversation-profile" # Speech model adaptation resource names SPEECH_ADAPTATION_PHRASES = ["projects/sample-project/locations/global/phraseSets/sample-phrase-sets"]
import google.auth from google.auth.transport.requests import AuthorizedSession
scopes=['https://www.googleapis.com/auth/cloud-platform'] credentials, project = google.auth.default( scopes=scopes, quota_project_id=PROJECT_ID, ) session = AuthorizedSession(credentials)
profile_url = f"https://dialogflow.googleapis.com/v2beta1/projects/{PROJECT_ID}/locations/{LOCATION}/conversationProfiles/{CONVERSATION_PROFILE_ID}" get_response = session.get(profile_url) print("Checking for existing ConversationProfile...") print(get_response.status_code) print(get_response.json()) if get_response.status_code == 200: patch_response = session.patch( profile_url, params={ "updateMask": "sttConfig.phraseSets" }, json={ "sttConfig": { "phraseSets": SPEECH_ADAPTATION_PHRASES } } ) print("Updating ConversationProfile...") print(patch_response.status_code) print(patch_response.json())
Regionale Wortgruppensätze
Die Modellanpassung für die Speech-to-Text API wird nur für Englisch (en-US
) unterstützt. Mit der Speech-to-Text API können Sie jedoch Wortgruppen für andere Sprachregionen konfigurieren. Das ist besonders nützlich, wenn Sie englische Unterhaltungen transkribieren, die in diesen Regionen stattfinden.
Mit dem folgenden Beispielbefehl können Sie regionale Wortgruppen mit der Speech-to-Text API erstellen.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ -H "X-Goog-User-Project: sample_project" \ -d @sample_phrase_sets.json \ "https://us-speech.googleapis.com/v1/projects/sample-project/locations/us/phraseSets"
Die JSON-Datei @sample_phrase_sets.json
enthält den folgenden Inhalt der Wortgruppen:
{ "parent": "projects/sample-project/locations/us", "phraseSetId": "sample-phrase-sets", "phraseSet": { "name": "sample-phrase-sets", "phrases": [ { "value": "Some phrase", "boost": 20 } ] } }
Dialogflow-Region | Region für Speech-to-Text |
---|---|
us us-central1 us-east1 us-east7 us-west1 northamerica-northeast1 northamerica-northeast2 |
us |
eu europe-west1 europe-west2 europe-west3 europe-west4 |
eu |
australia-southeast1 asia-northeast1 asia-south1 asia-southeast1 me-west1 global |
global |