Unterhaltungs-Dataset erstellen

Ein Unterhaltungs-Dataset enthält Transkriptdaten von Unterhaltungen und wird zum Trainieren eines benutzerdefinierten Modells für intelligente Antworten oder Zusammenfassungen verwendet. Intelligente Antwort verwendet die Unterhaltungstranskripte, um menschlichen Kundenservicemitarbeitern, die mit einem Endnutzer interagieren, Textantworten vorzuschlagen. Benutzerdefinierte Modelle für Zusammenfassungen werden mit Unterhaltungs-Datasets trainiert, die sowohl Transkripte als auch Anmerkungsdaten enthalten. Anhand der Anmerkungen werden nach Abschluss einer Unterhaltung Zusammenfassungen für Kundenservicemitarbeiter erstellt.

Es gibt zwei Möglichkeiten, ein Dataset zu erstellen: Sie können die Console-Tutorial-Workflows verwenden oder ein Dataset manuell in der Console auf dem Tab Daten -> Datasets erstellen. Wir empfehlen, als Erstes die Console-Tutorials zu verwenden. Wenn Sie die Console-Anleitungen verwenden möchten, rufen Sie die Agent Assist Console auf und klicken Sie unter der gewünschten Funktion auf die Schaltfläche Jetzt starten.

Auf dieser Seite wird gezeigt, wie Sie ein Dataset manuell erstellen.

Hinweise

  1. Folgen Sie der Anleitung unter Dialogflow einrichten, um Dialogflow in einem Google Cloud-Projekt zu aktivieren.

  2. Wir empfehlen, die Seite Grundlagen zu Agent Assist zu lesen, bevor Sie mit dieser Anleitung beginnen.

  3. Wenn Sie „Intelligente Antwort“ mit Ihren eigenen Transkriptdaten implementieren, achten Sie darauf, dass die Transkripte in JSON im angegebenen Format und in einem Google Cloud Storage-Bucket gespeichert sind. Ein Unterhaltungs-Dataset muss mindestens 30.000 Unterhaltungen enthalten, andernfalls schlägt das Modelltraining fehl. Als allgemeine Regel gilt: Je mehr Unterhaltungen, desto besser ist die Modellqualität. Es wird empfohlen, Unterhaltungen mit weniger als 20 Nachrichten oder drei Unterhaltungsrunden zu entfernen (Änderungen, bei denen der Teilnehmer eine Äußerung macht). Wir empfehlen Ihnen außerdem, alle Bot-Nachrichten oder automatisch von Systemen generierten Nachrichten zu entfernen, z. B. „Kundenservicemitarbeiter betritt den Chatroom“. Sie sollten Unterhaltungen aus einem Zeitraum von mindestens drei Monaten hochladen, damit möglichst viele Anwendungsfälle abgedeckt sind. Die maximale Anzahl an Unterhaltungen in einem Unterhaltungs-Dataset beträgt 1.000.000.

  4. Wenn Sie die Zusammenfassung mit Ihren eigenen Transkript- und Anmerkungsdaten implementieren, achten Sie darauf, dass die Transkripte im angegebenen Format und in einem Google Cloud Storage-Bucket gespeichert sind. Die empfohlene Mindestanzahl von Anmerkungen für das Training beträgt 1.000. Die erzwungene Mindestanzahl ist 100.

  5. Öffnen Sie die Agent Assist Console. Wählen Sie Ihr Google Cloud Platform-Projekt aus und klicken Sie dann am linken Rand der Seite auf die Menüoption Daten. Im Menü Daten werden alle Ihre Daten angezeigt. Es gibt zwei Tabs, einen für Unterhaltungs-Datasets und einen für Wissensdatenbanken.

  6. Klicken Sie auf den Tab Unterhaltungs-Datasets und dann rechts oben auf der Seite „Unterhaltungs-Datasets“ auf die Schaltfläche + Neu erstellen.

Unterhaltungs-Dataset erstellen

  1. Geben Sie einen Namen und optional eine Beschreibung für das neue Dataset ein. Geben Sie im Feld Unterhaltungsdaten den URI des Speicher-Buckets ein, der Ihre Unterhaltungstranskripte enthält. Agent Assist unterstützt die Verwendung des Symbols * für die Platzhalterübereinstimmung. Der URI muss das folgende Format haben:

    gs://<bucket name>/<object name>
    

    Beispiel:

    gs://mydata/conversationjsons/conv0*.json
    gs://mydatabucket/test/conv.json
    
  2. Klicken Sie auf Erstellen. Ihr neues Dataset wird jetzt in der Dataset-Liste auf der Menüseite Daten auf dem Tab Unterhaltungs-Datasets angezeigt.

Nächste Schritte

Trainieren Sie ein Modell für intelligente Antworten oder Zusammenfassungen mit einem oder mehreren Unterhaltungs-Datasets über die Agent Assist Console.