Sube datos de conversaciones

Los datos de conversación se aceptan como transcripciones (Respuesta inteligente) y transcripciones más datos de anotación (Resumen). De manera opcional, puedes usar los datos de conversación y los modelos de demostración proporcionados por Agent Assist para probar la funcionalidad o la integración sin tener que proporcionar tus propios datos. Para usar la Respuesta inteligente y el Resumen durante el tiempo de ejecución, debes proporcionar tus propios datos de conversación.

En esta página, se te guía a través de los pasos necesarios para usar los conjuntos de datos públicos y darle formato a tus propios datos para subirlos a Cloud Storage. Debes proporcionar tus datos de conversación como archivos de texto con formato JSON.

Formato de datos de la Respuesta inteligente

La Respuesta inteligente se puede usar junto con cualquier función de Asistente de agentes o como función independiente. Para implementar la Respuesta inteligente, debes proporcionarle datos de conversación a Agent Assist.

Agent Assist proporciona datos de conversación de muestra que puedes usar para entrenar un modelo, además de un modelo de demostración y una lista de entidades permitidas. Puedes usar estos recursos para crear un perfil de conversación y probar la funcionalidad de las funciones sin necesidad de proporcionar tus propios datos. Si proporcionas tus propios datos, deben estar en el formato especificado.

Usa los datos de conversación de muestra de la Respuesta inteligente

El conjunto de datos de conversación de muestra se obtiene de una fuente externa y se almacena en un bucket de Google Cloud Storage. Los datos contienen diálogos orientados a tareas que abarcan seis dominios: "Reserva", "restaurante", "hotel", "atracción", "taxi" y "tren". Para entrenar tu propio modelo con este conjunto de datos, sigue los pasos para crear un conjunto de datos de conversación con la consola de Agent Assist. En el campo Datos de conversación, ingresa gs://smart_messaging_integration_test_data/*.json para usar el conjunto de datos de prueba. Si realizas llamadas directas a la API en lugar de usar la Consola, puedes crear un conjunto de datos de conversación si diriges la API al bucket de Cloud Storage que se indicó anteriormente.

Usa el modelo de Respuesta inteligente de demostración y la lista de entidades permitidas

Para probar el modelo de Smart Reply de demostración y la lista de entidades permitidas con la Consola (no es necesario tener un conjunto de datos), navega a la consola de Agent Assist y haz clic en el botón Get started en la función Smart Reply. Los instructivos de Console te brindan opciones para usar tus propios datos, los datos proporcionados o el modelo de demostración.

Si realizas llamadas a la API directamente en lugar de usar la consola, el modelo y la lista de entidades permitidas se pueden encontrar en las siguientes ubicaciones:

  • Modelo: projects/ccai-shared-external/conversationModels/c671dd72c5e4656f
  • Lista de entidades permitidas: projects/ccai-shared-external/knowledgeBases/smart_messaging_kb/documents/NzU1MDYzOTkxNzU0MjQwODE5Mg

Para probar la funcionalidad de la función, te sugerimos que comiences por usar los siguientes mensajes para el usuario final para activar una respuesta:

  • "¿Puedes encontrarme un lugar costoso para hospedarme que esté ubicado en el este?"
  • "Busco un restaurante costoso que sirva comida tailandesa".
  • "Hola, necesito un hotel que incluya Wi-Fi gratis en el norte de Cambridge".

Formato de datos de resumen

El resumen se puede usar junto con cualquier función de Agent Assist o como función independiente. Para implementar el resumen, debes proporcionar a Agent Assist datos de conversación que incluyan anotaciones. Una anotación es un resumen de una transcripción de conversación asociada. Las anotaciones se usan para entrenar un modelo que puedes usar para generar resúmenes para tus agentes al final de cada conversación con un usuario final.

Usa los datos de conversación de resumen de muestra y el modelo de demostración

Agent Assist también proporciona datos de conversaciones anotados de muestra que puedes usar para entrenar un modelo. Te recomendamos que elijas esta opción si deseas probar la función de resumen antes de dar formato a tu propio conjunto de datos. El conjunto de datos de prueba se encuentra en el siguiente bucket de Cloud Storage: gs://summarization_integration_test_data/data. Si usas los datos de muestra, puedes entrenar un modelo de resumen con la consola o la API. Ingresa gs://summarization_integration_test_data/data/* en el campo de URI del conjunto de datos para usar el conjunto de datos de muestra.

Para probar el modelo de resumen de demostración (no se necesita un conjunto de datos), navigate a la consola de Agent Assist y haz clic en el botón Get started en la función de resumen. Los instructivos de Console te brindan opciones para usar tus propios datos, los datos proporcionados o el modelo de demostración.

Cómo aplicar formato a las anotaciones

Los modelos personalizados de resúmenes de Agent Assist se entrenan con conjuntos de datos de conversaciones. Un conjunto de datos de conversación contiene tu propia transcripción subida y datos de anotación.

Antes de comenzar a subir datos, debes asegurarte de que cada transcripción de conversación esté en formato JSON, tenga una anotación asociada y se almacene en un bucket de Google Cloud Storage.

Para crear anotaciones, agrega cadenas key y value esperadas al campo annotation asociado con cada conversación de tu conjunto de datos. Para obtener los mejores resultados, los datos de entrenamiento de anotaciones deben cumplir con los siguientes lineamientos:

  1. La cantidad mínima recomendada de anotaciones de entrenamiento es de 1,000. La cantidad mínima obligatoria es de 100.
  2. Los datos de entrenamiento no deben contener PII.
  3. Las anotaciones no deben incluir información sobre el género, la raza ni la edad.
  4. Las anotaciones no deben usar lenguaje tóxico ni profano.
  5. Las anotaciones no deben contener información que no se pueda inferir de la transcripción de la conversación correspondiente.
  6. Cada anotación puede contener hasta 3 secciones. Puedes elegir tus propios nombres de sección.
  7. Las anotaciones deben tener una ortografía y gramática correctas.

A continuación, se muestra un ejemplo que demuestra el formato de una transcripción de conversación con la anotación asociada:

{
  "entries": [
    {
      "text": "How can I help?",
      "role": "AGENT"
    },
    {
      "text": "I cannot login",
      "role": "CUSTOMER"
    },
    {
      "text": "Ok, let me confirm. Are you experiencing issues accessing your account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "CUSTOMER"
    },
    {
      "text": "Got it. Do you still have access to the registered email for the account",
      "role": "AGENT"
    },
    {
      "text": "Yes",
      "role": "AGENT"
    },
    {
      "text": "I have sent an email with reset steps. You can follow the instructions in the email to reset your login password",
      "role": "AGENT"
    },
    {
      "text": "That's nice",
      "role": "CUSTOMER"
    },
    {
      "text": "Is there anything else I can help",
      "role": "AGENT"
    },
    {
      "text": "No that's all",
      "role": "CUSTOMER"
    },
    {
      "text": "Thanks for calling. You have a nice day",
      "role": "AGENT"
    }
  ],
  "conversation_info": {
    "annotations": [
      {
        "annotation": {
          "conversation_summarization_suggestion": {
            "text_sections": [
              {
                "key": "Situation",
                "value": "Customer was unable to login to account"
              },
              {
                "key": "Action",
                "value": "Agent sent an email with password reset instructions"
              },
              {
                "key": "Outcome",
                "value": "Problem was resolved"
              }
            ]
          }
        }
      }
    ]
  }
}

Datos de la transcripción de la conversación

Los datos de conversación de texto se deben proporcionar en archivos con formato JSON, en los que cada archivo contiene datos de una sola conversación. A continuación, se describe el formato JSON requerido.

Conversación

Es el objeto de nivel superior para los datos de conversación.

Campo Tipo Descripción
conversation_info ConversationInfo { } Opcional. Metadatos de la conversación.
entradas Entrada [ ] Obligatorio. Los mensajes de la conversación ordenados cronológicamente

ConversationInfo

Son los metadatos de una conversación.

Campo Tipo Descripción
categorías Categoría [ ] Opcional. Son categorías personalizadas para los datos de la conversación.

Categoría

Categoría de datos de conversación. Si proporcionas categorías con tus datos de conversación, se usarán para identificar los temas de tus conversaciones. Si no proporcionas categorías, el sistema categorizará automáticamente las conversaciones en función del contenido.

Campo Tipo Descripción
display_name string Obligatorio. Es un nombre visible para la categoría.

Entrada

Datos de un solo mensaje de conversación.

Campo Tipo Descripción
texto string Obligatorio. El texto de este mensaje de conversación. Todo el texto debe estar en mayúsculas correctamente. La calidad del modelo puede verse afectada de forma significativa si todas las letras del texto están en mayúsculas o en minúsculas. Se mostrará un error si este campo se deja vacío.
user_id integer Opcional. Es un número que identifica al participante de la conversación. Cada participante debe tener un solo user_id, que se usa de forma reiterada si participa en varias conversaciones.
rol string Obligatorio. El rol de participante de la conversación. Puede ser uno de los siguientes: "AGENT" o "CUSTOMER".
start_timestamp_usec integer Es opcional si la conversación solo se usa para la asistencia con preguntas frecuentes, la sugerencia de artículos y el resumen; de lo contrario, es obligatorio. Es la marca de tiempo del inicio de este turno de conversación en microsegundos.

Ejemplo

A continuación, se muestra un ejemplo de un archivo de datos de conversación.

{
  "conversation_info":{
    "categories":[
      {
        "display_name":"Category 1"
      }
    ]
  },
  "entries": [
    {
      "start_timestamp_usec": 1000000,
      "text": "Hello, I'm calling in regards to ...",
      "role": "CUSTOMER",
      "user_id": 1
    },
    {
      "start_timestamp_usec": 5000000,
      "text": "Yes, I can answer your question ...",
      "role": "AGENT",
      "user_id": 2
    },
    ...
  ]
}

Sube conversaciones a Cloud Storage

Debes proporcionar los datos de tus conversaciones en un bucket de Cloud Storage que se encuentre dentro de tu proyecto de Google Cloud Platform. Cuando crees el bucket, haz lo siguiente:

  • Asegúrate de seleccionar el proyecto de Google Cloud Platform que usas para Dialogflow.
  • Usa la clase Standard Storage.
  • Como ubicación de bucket, selecciona la opción más cercana a la ubicación en la que te encuentres. Necesitarás el ID de ubicación (por ejemplo, us-west1) cuando proporciones los datos de la conversación, así que toma nota de tu elección.
  • También necesitarás el nombre del bucket cuando proporciones los datos de la conversación.

Sigue las instrucciones de la guía de inicio rápido de Cloud Storage para crear un bucket y subir archivos.