Agent Assist verwendet die Speech-to-Text-Modellanpassung, um die Qualität der Transkription zu verbessern, indem bestimmte Wortgruppen häufiger als andere erkannt werden. Auf dieser Seite finden Sie eine Anleitung zum Einrichten der Modellanpassung für die Speech-to-Text-Transkription.
Speech-to-Text-Konsole verwenden
Mit der Speech-to-Text-Konsole können Sie nur globale Wortgruppen erstellen. Regionale Wortgruppen müssen mit der Speech-to-Text API erstellt werden.
- Rufen Sie in der Google Cloud Console die Seite Speech-to-Text auf. Speech-to-Text aufrufen
- Klicken Sie auf Modellanpassungen.
- Klicken Sie auf add_boxNeue Ressource.
- Wählen Sie die Ressource Phrase set und die API-Version V1 aus, geben Sie die Begriffe und Boost-Werte ein und kopieren Sie dann den Namen des Phrase set.
- Klicken Sie auf Speichern.
- Öffnen Sie die Agent Assist Console.
- Klicken Sie auf Konversationsprofile und wählen Sie das Konversationsprofil aus, das Sie bearbeiten möchten.
- Rufen Sie den Bereich Phrasengruppen auf und fügen Sie den Namen der Phrasengruppe ein.
Speech-to-Text API verwenden
- Erstellen Sie ein Skript für Wortgruppensätze. Folgen Sie dazu der Anleitung zur Spracherkennung.
Führen Sie das folgende Python-Skript aus, um Ihr Unterhaltungsprofil zu aktualisieren:
# Conversation Profile to update PROJECT_ID = "sample-project" LOCATION = "global" CONVERSATION_PROFILE_ID = "sample-conversation-profile" # Speech model adaptation resource names SPEECH_ADAPTATION_PHRASES = ["projects/sample-project/locations/global/phraseSets/sample-phrase-sets"]
import google.auth from google.auth.transport.requests import AuthorizedSession
scopes=['https://www.googleapis.com/auth/cloud-platform'] credentials, project = google.auth.default( scopes=scopes, quota_project_id=PROJECT_ID, ) session = AuthorizedSession(credentials)
profile_url = f"https://dialogflow.googleapis.com/v2beta1/projects/{PROJECT_ID}/locations/{LOCATION}/conversationProfiles/{CONVERSATION_PROFILE_ID}" get_response = session.get(profile_url) print("Checking for existing ConversationProfile...") print(get_response.status_code) print(get_response.json()) if get_response.status_code == 200: patch_response = session.patch( profile_url, params={ "updateMask": "sttConfig.phraseSets" }, json={ "sttConfig": { "phraseSets": SPEECH_ADAPTATION_PHRASES } } ) print("Updating ConversationProfile...") print(patch_response.status_code) print(patch_response.json())
Regionale Wortgruppensätze
Die Speech-to-Text-Modellanpassung wird nur für Englisch (en-US
) unterstützt. Sie können jedoch mit der Speech-to-Text API Wortgruppen für andere Sprachregionen konfigurieren. Das ist besonders nützlich, wenn Sie englische Unterhaltungen transkribieren, die in diesen Regionen stattfinden.
Mit dem folgenden Beispielbefehl können Sie regionale Wortgruppenmengen mit der Speech-to-Text API erstellen.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ -H "X-Goog-User-Project: sample_project" \ -d @sample_phrase_sets.json \ "https://us-speech.googleapis.com/v1/projects/sample-project/locations/us/phraseSets"
Die JSON-Datei @sample_phrase_sets.json
enthält die folgenden Inhalte der Wortgruppen:
{ "parent": "projects/sample-project/locations/us", "phraseSetId": "sample-phrase-sets", "phraseSet": { "name": "sample-phrase-sets", "phrases": [ { "value": "Some phrase", "boost": 20 } ] } }
Dialogflow-Region | Speech-to-Text-Region |
---|---|
us us-central1 us-east1 us-east7 us-west1 northamerica-northeast1 northamerica-northeast2 |
us |
eu europe-west1 europe-west2 europe-west3 europe-west4 |
eu |
australia-southeast1 asia-northeast1 asia-south1 asia-southeast1 me-west1 global |
global |