Caricamento dati delle conversazioni

I dati delle conversazioni sono accettati come trascrizioni (Risposta rapida) e trascrizioni più dati di annotazione (Riassumi). Se vuoi, puoi utilizzare i dati delle conversazioni e i modelli di demo forniti da Agent Assist per testare la funzionalità o l'integrazione senza dover fornire i tuoi dati. Per poter utilizzare Risposta rapida e Riepilogo durante l'esecuzione, devi fornire i tuoi dati sulle conversazioni.

Questa pagina illustra i passaggi necessari per utilizzare i set di dati pubblici e per formattare i tuoi dati per il caricamento su Cloud Storage. Devi fornire i dati delle conversazioni come file di testo in formato JSON.

Formato dei dati di Risposta rapida

La funzionalità Risposta rapida può essere utilizzata in combinazione con qualsiasi funzionalità di Agent Assist o come funzionalità autonoma. Per implementare le Risposta rapida, devi fornire ad Agent Assist i dati della conversazione.

Agent Assist fornisce dati di conversazione di esempio che puoi utilizzare per addestrare un modello, oltre a un modello di dimostrazione e una lista consentita. Puoi utilizzare queste risorse per creare un profilo di conversazione e testare la funzionalità delle funzionalità senza dover fornire i tuoi dati. Se fornisci i tuoi dati, questi devono essere nel formato specificato.

Utilizzare i dati di conversazione di esempio di Risposta rapida

Il set di dati di conversazioni di esempio è derivato da un'origine esterna e viene archiviato in un bucket Google Cloud Storage. I dati contengono dialoghi orientati alle attività che riguardano sei domini: "Prenotazione", "Ristorante", "Hotel", "Attrazione", "Taxi" e "Treno". Per addestrare il tuo modello utilizzando questo set di dati, segui i passaggi per creare un set di dati di conversazione utilizzando la console di Agent Assist. Nel campo Dati conversazione, inserisci gs://smart_messaging_integration_test_data/*.json per utilizzare il set di dati di test. Se effettui chiamate API dirette anziché utilizzare la console, puoi creare un set di dati sulle conversazioni indirizzando l'API al bucket Cloud Storage sopra indicato.

Utilizzare il modello di Risposta rapida di prova e la lista consentita

Per testare il modello di Risposta rapida di demo e la lista consentita utilizzando la console (non è necessario un set di dati), vai alla console Agent Assist e fai clic sul pulsante Inizia nella funzionalità Risposta rapida. I tutorial della console offrono opzioni per l'utilizzo dei tuoi dati, dei dati forniti o del modello di demo.

Se effettui chiamate direttamente all'API anziché utilizzare la console, il modello e la lista consentita sono disponibili nelle seguenti posizioni:

  • Modello: projects/ccai-shared-external/conversationModels/c671dd72c5e4656f
  • Lista consentita: projects/ccai-shared-external/knowledgeBases/smart_messaging_kb/documents/NzU1MDYzOTkxNzU0MjQwODE5Mg

Per testare la funzionalità, ti consigliamo di iniziare utilizzando i seguenti messaggi per gli utenti finali per attivare una risposta:

  • "Puoi trovarmi un hotel costoso situato a est?"
  • "Sto cercando un ristorante costoso che serve cibo thailandese."
  • "Un saluto da Google. Mi serve un hotel con Wi-Fi gratuito a nord di Cambridge."

Formato dei dati di sintesi

Il riepilogo può essere utilizzato in combinazione con qualsiasi funzionalità di Agent Assist o come funzionalità autonoma. Per implementare il riepilogo, devi fornire ad Agent Assist i dati della conversazione che includono le annotazioni. Un'annotazione è un riepilogo di una trascrizione della conversazione associata. Le annotazioni vengono utilizzate per addestrare un modello che puoi utilizzare per generare riepiloghi per i tuoi agenti al termine di ogni conversazione con un utente finale.

Utilizzare i dati di conversazione di Summarization di esempio e il modello di demo

Agent Assist fornisce anche dati di conversazione annotati di esempio che puoi utilizzare per addestrare un modello. Ti consigliamo di scegliere questa opzione se vuoi testare la funzionalità di sintesi prima di formattare il tuo set di dati. Il set di dati di test si trova nel seguente bucket Cloud Storage: gs://summarization_integration_test_data/data. Se utilizzi i dati di esempio, puoi addestrare un modello di sintesi utilizzando la console o l'API. Inserisci gs://summarization_integration_test_data/data/* nel campo URI del set di dati per utilizzare il set di dati di esempio.

Per testare il modello di sintesi demo (non è necessario un set di dati), vai alla Console di Agent Assist e fai clic sul pulsante Inizia nella funzionalità di sintesi. I tutorial della console offrono opzioni per l'utilizzo dei tuoi dati, dei dati forniti o del modello di demo.

Formattare le annotazioni

I modelli personalizzati di sintesi di Agent Assist vengono addestrati utilizzando set di dati conversazionali. Un set di dati di conversazione contiene i dati delle trascrizioni e delle annotazioni che hai caricato.

Prima di poter iniziare a caricare i dati, devi assicurarti che ogni trascrizione della conversazione sia in formato JSON, abbia un'annotazione associata e sia archiviata in un bucket Google Cloud Storage.

Per creare annotazioni, aggiungi le stringhe key e value previste al annotation campo associato a ogni conversazione nel tuo set di dati. Per risultati ottimali, i dati di addestramento delle annotazioni devono rispettare le seguenti linee guida:

  1. Il numero minimo consigliato di annotazioni di addestramento è 1000. Il numero minimo obbligatorio è 100.
  2. I dati di addestramento non devono contenere PII.
  3. Le annotazioni non devono includere informazioni su genere, etnia o età.
  4. Le annotazioni non devono utilizzare un linguaggio scurrile o volgare.
  5. Le annotazioni non devono contenere informazioni che non possono essere dedotte dalla trascrizione della conversazione corrispondente.
  6. Ogni annotazione può contenere fino a 3 sezioni. Puoi scegliere i nomi delle sezioni.
  7. Le annotazioni devono avere un'ortografia e una grammatica corrette.

Di seguito è riportato un esempio che mostra il formato della trascrizione di una conversazione con l'annotazione associata:

{
  "entries": [
    {
      "text": "How can I help?",
      "role": "AGENT"
    },
    {
      "text": "I cannot login",
      "role": "CUSTOMER"
    },
    {
      "text": "Ok, let me confirm. Are you experiencing issues accessing your account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "CUSTOMER"
    },
    {
      "text": "Got it. Do you still have access to the registered email for the account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "AGENT"
    },
    {
      "text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
      "role": "AGENT"
    },
    {
      "text": "That's nice",
      "role": "CUSTOMER"
    },
    {
      "text": "Is there anything else I can help",
      "role": "AGENT"
    },
    {
      "text": "No that's all",
      "role": "CUSTOMER"
    },
    {
      "text": "Thanks for calling. You have a nice day",
      "role": "AGENT"
    }
  ],
  "conversation_info": {
    "annotations": [
      {
        "annotation": {
          "conversation_summarization_suggestion": {
            "text_sections": [
              {
                "key": "Situation",
                "value": "Customer was unable to login to account"
              },
              {
                "key": "Action",
                "value": "Agent sent an email with password reset instructions"
              },
              {
                "key": "Outcome",
                "value": "Problem was resolved"
              }
            ]
          }
        }
      }
    ]
  }
}

Dati della trascrizione della conversazione

I dati delle conversazioni di testo devono essere forniti in file in formato JSON, in cui ogni file contiene i dati di una singola conversazione. Di seguito è descritto il formato JSON richiesto.

Conversazione

L'oggetto di primo livello per i dati delle conversazioni.

Campo Tipo Descrizione
conversation_info ConversationInfo { } Facoltativo. Metadati della conversazione.
entries Voce [ ] Obbligatorio. I messaggi della conversazione ordinati in ordine cronologico.

ConversationInfo

I metadati di una conversazione.

Campo Tipo Descrizione
categorie Categoria [ ] Facoltativo. Categorie personalizzate per i dati delle conversazioni.

Categoria

Categoria di dati delle conversazioni. Se fornisci categorie con i dati delle conversazioni, queste verranno utilizzate per identificare gli argomenti nelle conversazioni. Se non fornisci categorie, il sistema classificherà automaticamente le conversazioni in base ai contenuti.

Campo Tipo Descrizione
display_name string Obbligatorio. Un nome visualizzato per la categoria.

Voce

Dati relativi a un singolo messaggio di una conversazione.

Campo Tipo Descrizione
testo string Obbligatorio. Il testo del messaggio della conversazione. Tutto il testo deve essere scritto correttamente in maiuscolo. La qualità del modello può essere notevolmente influenzata se tutte le lettere del testo sono in maiuscolo o minuscolo. Se questo campo viene lasciato vuoto, verrà restituito un errore.
user_id integer Facoltativo. Un numero che identifica il partecipante alla conversazione. Ogni partecipante deve avere un solo user_id, utilizzato ripetutamente se partecipa a più conversazioni.
ruolo string Obbligatorio. Il ruolo del partecipante alla conversazione. Uno dei seguenti: "AGENT", "CUSTOMER".
start_timestamp_usec integer Facoltativo se la conversazione viene utilizzata solo per l'assistenza con le domande frequenti, il suggerimento di articoli e il riepilogo, altrimenti obbligatorio. Il timestamp dell'inizio di questo turno di conversazione in microsecondi.

Esempio

Di seguito è riportato un esempio di file di dati di conversazione.

{
  "conversation_info":{
    "categories":[
      {
        "display_name":"Category 1"
      }
    ]
  },
  "entries": [
    {
      "start_timestamp_usec": 1000000,
      "text": "Hello, I'm calling in regards to ...",
      "role": "CUSTOMER",
      "user_id": 1
    },
    {
      "start_timestamp_usec": 5000000,
      "text": "Yes, I can answer your question ...",
      "role": "AGENT",
      "user_id": 2
    },
    ...
  ]
}

Carica le conversazioni su Cloud Storage

Devi fornire i dati delle conversazioni in un bucket Cloud Storage contenuto nel tuo progetto Google Cloud Platform. Quando crei il bucket:

  • Assicurati di aver selezionato il progetto della Google Cloud Platform che utilizzi per Dialogflow.
  • Utilizza la classe di archiviazione Standard.
  • Imposta la posizione del bucket su una località più vicina alla tua. Quando fornisci i dati sulle conversazioni, ti servirà l'ID posizione (ad es. us-west1), quindi prendi nota della tua scelta.
  • Quando fornisci i dati della conversazione, ti servirà anche il nome del bucket.

Segui le istruzioni della guida di avvio rapido di Cloud Storage per creare un bucket e caricare i file.