Unterhaltungsdaten hochladen

Unterhaltungsdaten werden als Transkripte (Intelligente Antwort) und Transkripte mit Anmerkungsdaten (Zusammenfassung) akzeptiert. Optional können Sie die von Agent Assist bereitgestellten Unterhaltungsdaten und Demomodelle zum Testen der Funktionalität oder Einbindung verwenden, ohne eigene Daten bereitstellen zu müssen. Zur Verwendung von „Intelligente Antwort“ und „Zusammenfassung“ während der Laufzeit müssen Sie Ihre eigenen Unterhaltungsdaten bereitstellen.

Auf dieser Seite erfahren Sie, wie Sie die öffentlichen Datasets verwenden und Ihre eigenen Daten für den Upload in Cloud Storage formatieren. Sie müssen Ihre Unterhaltungsdaten als JSON-formatierte Textdateien bereitstellen.

Datenformat für intelligente Antworten

„Intelligente Antwort“ kann in Verbindung mit jeder Agent Assist-Funktion oder als eigenständige Funktion verwendet werden. Wenn Sie „Intelligente Antwort“ implementieren möchten, müssen Sie Agent Assist Unterhaltungsdaten zur Verfügung stellen.

Agent Assist bietet Beispielunterhaltungsdaten, mit denen Sie ein Modell trainieren können, sowie ein Demomodell und eine Zulassungsliste. Sie können diese Ressourcen nutzen, um ein Unterhaltungsprofil zu erstellen und die Funktionalität zu testen, ohne eigene Daten bereitstellen zu müssen. Wenn Sie eigene Daten angeben, müssen diese im angegebenen Format vorliegen.

Beispielunterhaltungsdaten für „Intelligente Antwort“ verwenden

Der Beispieldatensatz für Unterhaltungen stammt aus einer externen Quelle und wird in einem Google Cloud Storage-Bucket gespeichert. Die Daten enthalten aufgabenorientierte Dialoge zu sechs Bereichen: „Buchung“, „Restaurant“, „Hotel“, „Attraktion“, „Taxi“ und „Zug“. Wenn Sie ein eigenes Modell mit diesem Dataset trainieren möchten, folgen Sie der Anleitung zum Erstellen eines Unterhaltungs-Datasets in der Agent Assist Console. Geben Sie im Feld Unterhaltungsdaten den Wert gs://smart_messaging_integration_test_data/*.json ein, um den Testdatensatz zu verwenden. Wenn Sie direkte API-Aufrufe statt der Console verwenden, können Sie einen Unterhaltungsdatensatz erstellen, indem Sie die API auf den oben genannten Cloud Storage-Bucket verweisen.

Demomodell für intelligente Antworten und Zulassungsliste verwenden

Wenn Sie das Demomodell für intelligente Antworten und die Zulassungsliste mit der Console testen möchten (kein Dataset erforderlich), rufen Sie die Agent Assist Console auf und klicken Sie unter „Intelligente Antwort“ auf die Schaltfläche Jetzt starten. In den Console-Anleitungen haben Sie die Möglichkeit, eigene Daten, bereitgestellte Daten oder das Demomodell zu verwenden.

Wenn Sie die API direkt aufrufen, anstatt die Console zu verwenden, finden Sie das Modell und die Zulassungsliste an den folgenden Stellen:

  • Modell: projects/ccai-shared-external/conversationModels/c671dd72c5e4656f
  • Zulassungsliste: projects/ccai-shared-external/knowledgeBases/smart_messaging_kb/documents/NzU1MDYzOTkxNzU0MjQwODE5Mg

Wenn Sie die Funktionalität des Features testen möchten, empfehlen wir Ihnen, zuerst die folgenden Endnutzernachrichten zu verwenden, um eine Antwort auszulösen:

  • "Können Sie mir eine teure Unterkunft im Osten der Stadt nennen?"
  • „Ich suche ein teures Restaurant, in dem thailändische Gerichte serviert werden.“
  • "Hallo, ich brauche ein Hotel mit kostenlosem WLAN im Norden von Cambridge."

Datenformat für Zusammenfassungen

Die Zusammenfassung kann in Verbindung mit jeder Agent Assist-Funktion oder als eigenständige Funktion verwendet werden. Wenn Sie die Zusammenfassung implementieren möchten, müssen Sie Agent Assist Unterhaltungsdaten mit Anmerkungen zur Verfügung stellen. Eine Anmerkung ist eine Zusammenfassung eines zugehörigen Unterhaltungstranskripts. Anmerkungen werden verwendet, um ein Modell zu trainieren, mit dem Sie am Ende jeder Unterhaltung mit einem Endnutzer Zusammenfassungen für Ihre Kundenservicemitarbeiter generieren können.

Beispieldaten für die Zusammenfassung von Unterhaltungen und Demomodell verwenden

Agent Assist bietet auch Beispieldaten für kommentierte Unterhaltungen, mit denen Sie ein Modell trainieren können. Wir empfehlen diese Option, wenn Sie die Funktion „Zusammenfassung“ testen möchten, bevor Sie Ihren eigenen Datensatz formatieren. Der Testdatensatz befindet sich im folgenden Cloud Storage-Bucket:gs://summarization_integration_test_data/data. Wenn Sie die Beispieldaten verwenden, können Sie ein Summarisierungsmodell entweder über die Console oder die API trainieren. Geben Sie gs://summarization_integration_test_data/data/* in das Feld „Dataset-URI“ ein, um das Beispiel-Dataset zu verwenden.

Wenn Sie das Demo-Summarisierungsmodell testen möchten (kein Datensatz erforderlich), rufen Sie die Agent Assist Console auf und klicken Sie unter der Funktion „Zusammenfassung“ auf die Schaltfläche Jetzt starten. In den Konsolen-Anleitungen haben Sie die Möglichkeit, eigene Daten, bereitgestellte Daten oder das Demomodell zu verwenden.

Anmerkungen formatieren

Benutzerdefinierte Modelle für die Zusammenfassung mit Agent Assist werden mit Unterhaltungs-Datasets trainiert. Ein Unterhaltungs-Dataset enthält Ihre eigenen hochgeladenen Transkript- und Anmerkungsdaten.

Bevor Sie mit dem Hochladen von Daten beginnen können, müssen Sie dafür sorgen, dass jedes Unterhaltungstranskript im JSON-Format vorliegt, eine Anmerkung hat und in einem Google Cloud Storage-Bucket gespeichert ist.

Wenn Sie Anmerkungen erstellen möchten, fügen Sie dem Feld annotation, das mit jeder Unterhaltung in Ihrem Datensatz verknüpft ist, die erwarteten key- und value-Strings hinzu. Für optimale Ergebnisse sollten die Trainingsdaten für Anmerkungen die folgenden Richtlinien erfüllen:

  1. Die empfohlene Mindestanzahl an Anmerkungen für das Training beträgt 1.000. Die erzwungene Mindestanzahl ist 100.
  2. Trainingsdaten dürfen keine personenidentifizierbaren Informationen enthalten.
  3. Anmerkungen dürfen keine Informationen zu Geschlecht, ethnischem Hintergrund oder Alter enthalten.
  4. Anmerkungen dürfen keine toxische oder vulgäre Sprache enthalten.
  5. Anmerkungen dürfen keine Informationen enthalten, die nicht aus dem entsprechenden Unterhaltungstranskript abgeleitet werden können.
  6. Jede Anmerkung kann bis zu drei Abschnitte enthalten. Sie können eigene Bereichsnamen auswählen.
  7. Anmerkungen müssen korrekt geschrieben und grammatikalisch korrekt sein.

Im folgenden Beispiel wird das Format eines Unterhaltungstranskripts mit zugehöriger Anmerkung veranschaulicht:

{
  "entries": [
    {
      "text": "How can I help?",
      "role": "AGENT"
    },
    {
      "text": "I cannot login",
      "role": "CUSTOMER"
    },
    {
      "text": "Ok, let me confirm. Are you experiencing issues accessing your account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "CUSTOMER"
    },
    {
      "text": "Got it. Do you still have access to the registered email for the account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "AGENT"
    },
    {
      "text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
      "role": "AGENT"
    },
    {
      "text": "That's nice",
      "role": "CUSTOMER"
    },
    {
      "text": "Is there anything else I can help",
      "role": "AGENT"
    },
    {
      "text": "No that's all",
      "role": "CUSTOMER"
    },
    {
      "text": "Thanks for calling. You have a nice day",
      "role": "AGENT"
    }
  ],
  "conversation_info": {
    "annotations": [
      {
        "annotation": {
          "conversation_summarization_suggestion": {
            "text_sections": [
              {
                "key": "Situation",
                "value": "Customer was unable to login to account"
              },
              {
                "key": "Action",
                "value": "Agent sent an email with password reset instructions"
              },
              {
                "key": "Outcome",
                "value": "Problem was resolved"
              }
            ]
          }
        }
      }
    ]
  }
}

Transkriptdaten der Unterhaltung

Daten zu Unterhaltungen müssen in JSON-Dateien bereitgestellt werden, wobei jede Datei Daten für eine einzelne Unterhaltung enthält. Im Folgenden wird das erforderliche JSON-Format beschrieben.

Unterhaltung

Das Objekt auf oberster Ebene für Unterhaltungsdaten.

Feld Typ Beschreibung
conversation_info ConversationInfo { } Optional. Metadaten für die Unterhaltung.
entries Eintrag [ ] Erforderlich. Unterhaltungsnachrichten in chronologischer Reihenfolge.

ConversationInfo

Die Metadaten für eine Unterhaltung.

Feld Typ Beschreibung
Kategorien Kategorie [ ] Optional. Benutzerdefinierte Kategorien für die Unterhaltungsdaten.

Kategorie

Unterhaltungsdatenkategorie. Wenn Sie Ihren Unterhaltungsdaten Kategorien zuweisen, werden diese verwendet, um Themen in den Unterhaltungen zu identifizieren. Wenn Sie keine Kategorien angeben, kategorisiert das System die Unterhaltungen automatisch anhand der Inhalte.

Feld Typ Beschreibung
display_name String Erforderlich. Ein Anzeigename für die Kategorie.

Entry

Daten für eine einzelne Unterhaltungsnachricht.

Feld Typ Beschreibung
text String Erforderlich. Der Text dieser Unterhaltungsnachricht. Der gesamte Text sollte korrekt großgeschrieben sein. Die Modellqualität kann erheblich beeinträchtigt werden, wenn alle Buchstaben im Text entweder groß- oder kleingeschrieben sind. Wenn dieses Feld leer bleibt, wird ein Fehler zurückgegeben.
user_id Ganzzahl Optional. Eine Zahl, die den Unterhaltungsteilnehmer identifiziert. Jeder Teilnehmer sollte eine eigene user_id haben, die wiederholt verwendet wird, wenn der Teilnehmer an mehreren Unterhaltungen teilnimmt.
role String Erforderlich. Die Rolle des Unterhaltungsteilnehmers. Eine der folgenden Möglichkeiten: "KUNDENSERVICEMITARBEITER" oder "KUNDE".
start_timestamp_usec integer Optional, wenn die Unterhaltung nur für die Hilfe zu FAQs, den Artikelvorschlag und die Zusammenfassung verwendet wird, andernfalls erforderlich. Der Zeitstempel für den Beginn dieses Unterhaltungsrunde in Mikrosekunden.

Beispiel

Das folgende Beispiel zeigt eine Datei mit Unterhaltungsdaten.

{
  "conversation_info":{
    "categories":[
      {
        "display_name":"Category 1"
      }
    ]
  },
  "entries": [
    {
      "start_timestamp_usec": 1000000,
      "text": "Hello, I'm calling in regards to ...",
      "role": "CUSTOMER",
      "user_id": 1
    },
    {
      "start_timestamp_usec": 5000000,
      "text": "Yes, I can answer your question ...",
      "role": "AGENT",
      "user_id": 2
    },
    ...
  ]
}

Unterhaltungen in Cloud Storage hochladen

Sie müssen Ihre Unterhaltungsdaten in einem Cloud Storage-Bucket in Ihrem Google Cloud-Projekt bereitstellen. Beim Erstellen des Buckets:

  • Sie müssen das Google Cloud-Projekt ausgewählt haben, das Sie für Dialogflow verwenden.
  • Verwenden Sie die Standard Storage-Klasse.
  • Legen Sie den Bucket-Speicherort auf einen Standort fest, der Ihrem Standort am nächsten ist. Wenn Sie die Unterhaltungsdaten bereitstellen, benötigen Sie die Standort-ID, z. B. us-west1. Am besten notieren Sie sich diese.
  • Sie benötigen den Bucket-Namen auch, wenn Sie die Unterhaltungsdaten bereitstellen.

Folgen Sie der Cloud Storage-Kurzanleitung, um einen Bucket zu erstellen und Dateien hochzuladen.