Importer les données des conversations

Les données de conversation sont acceptées sous forme de transcriptions (Réponse suggérée) et de transcriptions avec des données d'annotation (Rédaction de résumés). Vous pouvez éventuellement utiliser les données de conversation et les modèles de démonstration fournis par Agent Assist pour tester la fonctionnalité ou l'intégration, sans avoir à fournir vos propres données. Pour pouvoir utiliser les réponses suggérées et la synthèse pendant l'exécution, vous devez fournir vos propres données de conversation.

Cette page vous guide tout au long des étapes requises pour utiliser les ensembles de données publics et mettre en forme vos propres données à importer dans Cloud Storage. Vous devez fournir vos données de conversation sous forme de fichiers texte au format JSON.

Format des données de réponse suggérée

La fonctionnalité Réponse suggérée peut être utilisée avec n'importe quelle fonctionnalité Agent Assist ou en tant que fonctionnalité autonome. Pour implémenter la réponse suggérée, vous devez fournir à Agent Assist des données de conversation.

Agent Assist fournit des exemples de données de conversation que vous pouvez utiliser pour entraîner un modèle, ainsi qu'un modèle de démonstration et une liste d'autorisation. Vous pouvez utiliser ces ressources pour créer un profil de conversation et tester les fonctionnalités de la fonctionnalité sans avoir à fournir vos propres données. Si vous fournissez vos propres données, elles doivent être au format spécifié.

Utiliser les données de conversation d'exemple pour la fonctionnalité Réponse suggérée

L'exemple d'ensemble de données de conversation est dérivé d'une source externe et est stocké dans un bucket Google Cloud Storage. Les données contiennent des dialogues axés sur les tâches portant sur six domaines: "Réservations", "restaurant", "hôtel", "attraction", "taxi" et "train". Pour entraîner votre propre modèle à l'aide de cet ensemble de données, suivez la procédure permettant de créer un ensemble de données de conversation à l'aide de la console Agent Assist. Dans le champ Données de conversation, saisissez gs://smart_messaging_integration_test_data/*.json pour utiliser l'ensemble de données de test. Si vous effectuez des appels d'API directs au lieu d'utiliser la console, vous pouvez créer un ensemble de données de conversation en pointant l'API vers le bucket Cloud Storage ci-dessus.

Utiliser le modèle de réponse suggérée et la liste d'autorisations de démonstration

Pour tester le modèle de réponse suggérée de démonstration et ajouter à la liste d'autorisation à l'aide de la console (aucun ensemble de données n'est nécessaire), accédez à la console Agent Assist, puis cliquez sur le bouton Commencer sous la fonctionnalité de réponse suggérée. Les tutoriels de la console vous permettent d'utiliser vos propres données, des données fournies ou le modèle de démonstration.

Si vous appelez directement l'API au lieu d'utiliser la console, vous trouverez le modèle et la liste d'autorisation aux emplacements suivants:

  • Modèle : projects/ccai-shared-external/conversationModels/c671dd72c5e4656f
  • Liste d'autorisations : projects/ccai-shared-external/knowledgeBases/smart_messaging_kb/documents/NzU1MDYzOTkxNzU0MjQwODE5Mg

Pour tester la fonctionnalité, nous vous conseillons de commencer par utiliser les messages d'utilisateur final suivants pour déclencher une réponse:

  • "Pouvez-vous m'indiquer un endroit coûteux où séjourner dans l'est ?"
  • "Je recherche un restaurant coûteux qui sert des plats Thailandais."
  • "Bonjour, j'ai besoin d'un hôtel avec Wi-Fi gratuit dans le nord de Cambridge."

Format des données de résumé

La fonctionnalité de résumé peut être utilisée avec n'importe quelle fonctionnalité Agent Assist ou en tant que fonctionnalité autonome. Pour implémenter la fonctionnalité de résumé, vous devez fournir à Agent Assist des données de conversation qui incluent des annotations. Une annotation est un résumé d'une transcription de conversation associée. Les annotations servent à entraîner un modèle que vous pouvez utiliser pour générer des résumés pour vos agents à la fin de chaque conversation avec un utilisateur final.

Utiliser l'exemple de données de synthèse de conversation et le modèle de démonstration

Agent Assist fournit également des exemples de données de conversation annotées que vous pouvez utiliser pour entraîner un modèle. Nous vous recommandons de choisir cette option si vous souhaitez tester la fonctionnalité de résumé avant de mettre en forme votre propre ensemble de données. L'ensemble de données de test se trouve dans le bucket Cloud Storage suivant : gs://summarization_integration_test_data/data. Si vous utilisez l'exemple de données, vous pouvez entraîner un modèle de résumé à l'aide de la console ou de l'API. Saisissez gs://summarization_integration_test_data/data/* dans le champ URI de l'ensemble de données pour utiliser l'exemple d'ensemble de données.

Pour tester le modèle de résumé de démonstration (aucun ensemble de données n'est nécessaire), accédez à la console d'assistance de l'agent, puis cliquez sur le bouton Commencer sous la fonctionnalité de résumé. Les tutoriels de la console vous permettent d'utiliser vos propres données, des données fournies ou le modèle de démonstration.

Mettre en forme les annotations

Les modèles personnalisés de synthèse Agent Assist sont entraînés à l'aide d'ensembles de données de conversation. Un ensemble de données de conversation contient vos propres données de transcription et d'annotation importées.

Avant de pouvoir commencer à importer des données, vous devez vous assurer que chaque transcription de conversation est au format JSON, qu'elle est associée à une annotation et qu'elle est stockée dans un bucket Google Cloud Storage.

Pour créer des annotations, ajoutez les chaînes key et value attendues au champ annotation associé à chaque conversation de votre ensemble de données. Pour obtenir des résultats optimaux, les données d'entraînement d'annotation doivent respecter les consignes suivantes:

  1. Le nombre minimal recommandé d'annotations d'entraînement est de 1 000. Le nombre minimal appliqué est de 100.
  2. Les données d'entraînement ne doivent pas contenir d'informations personnelles.
  3. Les annotations ne doivent pas inclure d'informations sur le genre, la race ou l'âge.
  4. Les annotations ne doivent pas utiliser de langage toxique ou grossier.
  5. Les annotations ne doivent pas contenir d'informations qui ne peuvent pas être déduites de la transcription de la conversation correspondante.
  6. Chaque annotation peut contenir jusqu'à trois sections. Vous pouvez choisir vos propres noms de sections.
  7. Les annotations doivent respecter les règles d'orthographe et de grammaire.

Voici un exemple illustrant le format d'une transcription de conversation avec une annotation associée:

{
  "entries": [
    {
      "text": "How can I help?",
      "role": "AGENT"
    },
    {
      "text": "I cannot login",
      "role": "CUSTOMER"
    },
    {
      "text": "Ok, let me confirm. Are you experiencing issues accessing your account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "CUSTOMER"
    },
    {
      "text": "Got it. Do you still have access to the registered email for the account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "AGENT"
    },
    {
      "text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
      "role": "AGENT"
    },
    {
      "text": "That's nice",
      "role": "CUSTOMER"
    },
    {
      "text": "Is there anything else I can help",
      "role": "AGENT"
    },
    {
      "text": "No that's all",
      "role": "CUSTOMER"
    },
    {
      "text": "Thanks for calling. You have a nice day",
      "role": "AGENT"
    }
  ],
  "conversation_info": {
    "annotations": [
      {
        "annotation": {
          "conversation_summarization_suggestion": {
            "text_sections": [
              {
                "key": "Situation",
                "value": "Customer was unable to login to account"
              },
              {
                "key": "Action",
                "value": "Agent sent an email with password reset instructions"
              },
              {
                "key": "Outcome",
                "value": "Problem was resolved"
              }
            ]
          }
        }
      }
    ]
  }
}

Données de transcription des conversations

Les données des conversations textuelles doivent être fournies dans des fichiers au format JSON, chaque fichier contenant des données pour une seule conversation. La section suivante décrit le format JSON requis.

Conversation

Objet de premier niveau pour les données de conversation.

Champ Type Description
conversation_info ConversationInfo { } Facultatif. Métadonnées de la conversation.
entries Entrée [ ] Obligatoire. Messages de conversation classés dans l'ordre chronologique.

ConversationInfo

Métadonnées d'une conversation.

Champ Type Description
catégories Catégorie [ ] Facultatif. Catégories personnalisées pour les données de conversation

Catégorie

Catégorie de données de conversation. Si vous fournissez des catégories avec vos données de conversation, elles seront utilisées pour identifier les sujets de vos conversations. Si vous ne fournissez pas de catégories, le système les classe automatiquement en fonction du contenu.

Champ Type Description
display_name chaîne Obligatoire. Nom à afficher pour la catégorie.

Entrée

Données pour un seul message de conversation.

Champ Type Description
text chaîne Obligatoire. Texte de ce message de conversation. Tout le texte doit être correctement mis en majuscules. La qualité du modèle peut être considérablement affectée si toutes les lettres du texte sont en majuscules ou en minuscules. Une erreur est renvoyée si ce champ est laissé vide.
user_id Entier Facultatif. Numéro qui identifie le participant à la conversation. Chaque participant doit disposer d'un user_id unique, utilisé à plusieurs reprises s'il participe à plusieurs conversations.
role chaîne Obligatoire. Rôle du participant à la conversation. Au choix: "AGENT", "CLIENT".
start_timestamp_usec entier Facultatif si la conversation n'est utilisée que pour FAQ Assist, Suggestion d'article et Résumé. Sinon, obligatoire. L'horodatage du début de la conversation est exprimé en microsecondes.

Exemple

Vous trouverez ci-dessous un exemple de fichier de données de conversation.

{
  "conversation_info":{
    "categories":[
      {
        "display_name":"Category 1"
      }
    ]
  },
  "entries": [
    {
      "start_timestamp_usec": 1000000,
      "text": "Hello, I'm calling in regards to ...",
      "role": "CUSTOMER",
      "user_id": 1
    },
    {
      "start_timestamp_usec": 5000000,
      "text": "Yes, I can answer your question ...",
      "role": "AGENT",
      "user_id": 2
    },
    ...
  ]
}

Importer des conversations dans Cloud Storage

Vous devez fournir vos données de conversation dans un bucket Cloud Storage hébergé dans votre projet Google Cloud Platform. Lors de la création du bucket:

  • Assurez-vous d'avoir sélectionné le projet Google Cloud Platform que vous utilisez pour Dialogflow.
  • Utilisez la classe Stockage standard.
  • Définissez l'emplacement du bucket sur l'emplacement le plus proche du vôtre. Vous aurez besoin de l'ID d'emplacement (par exemple, us-west1) pour fournir les données de conversation. Prenez donc note de votre choix.
  • Vous aurez également besoin du nom du bucket pour fournir les données de conversation.

Suivez les instructions de la page Démarrage rapide de Cloud Storage pour créer un bucket et importer des fichiers.