Configurare l'adattamento del modello Speech-to-Text

Agent Assist utilizza l'adattamento del modello Speech-to-Text per migliorare la qualità della trascrizione riconoscendo determinate frasi più spesso di altre. Questa pagina fornisce una guida alla configurazione dell'adattamento del modello per la trascrizione di Speech-to-Text.

Utilizzare la console Speech-to-Text

Con la console Speech-to-Text puoi creare solo insiemi di frasi globali. Gli insiemi di frasi regionali devono essere creati utilizzando l'API Speech-to-Text.

  1. Nella console Google Cloud, vai alla pagina Speech-to-Text. Andare a Speech-to-Text
  2. Fai clic su Adattamenti del modello.
  3. Fai clic su add_boxNuova risorsa.
  4. Scegli la risorsa Serie di frasi e la versione dell'API V1, poi inserisci le frasi e i valori di boost e copia il nome del set di frasi.
  5. Fai clic su Salva.
  6. Vai alla console di Agent Assist.
  7. Fai clic su Profili di conversazione e poi scegli il profilo di conversazione che vuoi modificare.
  8. Vai alla sezione Insiemi di frasi e incolla il nome dell'insieme di frasi.

Utilizzare l'API Speech-to-Text

  1. Crea uno script per il set di frasi seguendo le istruzioni per il riconoscimento vocale.
  2. Esegui il seguente script Python per aggiornare il profilo della conversazione:

    # Conversation Profile to update
    PROJECT_ID = "sample-project"
    LOCATION = "global"
    CONVERSATION_PROFILE_ID = "sample-conversation-profile"
    # Speech model adaptation resource names
    SPEECH_ADAPTATION_PHRASES = ["projects/sample-project/locations/global/phraseSets/sample-phrase-sets"]

    import google.auth from google.auth.transport.requests import AuthorizedSession

    scopes=['https://www.googleapis.com/auth/cloud-platform'] credentials, project = google.auth.default( scopes=scopes, quota_project_id=PROJECT_ID, ) session = AuthorizedSession(credentials)

    profile_url = f"https://dialogflow.googleapis.com/v2beta1/projects/{PROJECT_ID}/locations/{LOCATION}/conversationProfiles/{CONVERSATION_PROFILE_ID}" get_response = session.get(profile_url) print("Checking for existing ConversationProfile...") print(get_response.status_code) print(get_response.json()) if get_response.status_code == 200: patch_response = session.patch( profile_url, params={ "updateMask": "sttConfig.phraseSets" }, json={ "sttConfig": { "phraseSets": SPEECH_ADAPTATION_PHRASES } } ) print("Updating ConversationProfile...") print(patch_response.status_code) print(patch_response.json())

Set di frasi regionali

Sebbene l'adattamento del modello Speech-to-Text supporti solo l'inglese (en-US), puoi configurare insiemi di frasi per altre regioni linguistiche con l'API Speech-to-Text. Questa funzionalità è particolarmente utile per trascrivere conversazioni in inglese che si svolgono in queste regioni.

Utilizza il seguente comando di esempio per creare insiemi di frasi regionali con l'API Speech-to-Text.

curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -H "X-Goog-User-Project: sample_project" \
    -d @sample_phrase_sets.json \
"https://us-speech.googleapis.com/v1/projects/sample-project/locations/us/phraseSets"

Il file JSON @sample_phrase_sets.json contiene i seguenti contenuti degli insiemi di frasi:

{
  "parent": "projects/sample-project/locations/us",
  "phraseSetId": "sample-phrase-sets",
  "phraseSet": {
    "name": "sample-phrase-sets",
    "phrases": [
      {
        "value": "Some phrase",
        "boost": 20
      }
    ]
  }
}
Per un profilo di conversazione in una singola regione Dialogflow, la tabella seguente mostra la regione di conversione di Speech-to-Text corrispondente in cui creare l'insieme di frasi.

Regione Dialogflow Regione Speech-to-Text
us
us-central1
us-east1
us-east7
us-west1
northamerica-northeast1
northamerica-northeast2
us
eu
europe-west1
europe-west2
europe-west3
europe-west4
eu
australia-southeast1
asia-northeast1
asia-south1
asia-southeast1
me-west1
global
globale