대화 데이터 세트 만들기

대화 데이터 세트에는 대화 스크립트 데이터가 포함되며 스마트 답장 또는 요약 커스텀 모델을 학습시키는 데 사용됩니다. 스마트 답장은 대화 스크립트를 사용하여 최종 사용자와 대화하는 상담사에게 텍스트 응답을 추천합니다. 요약 맞춤 모델은 스크립트와 주석 데이터가 모두 포함된 대화 데이터 세트를 기반으로 학습됩니다. 주석을 사용하여 대화가 완료된 후 상담사에게 대화 요약을 생성합니다.

데이터 세트를 만드는 방법에는 두 가지가 있습니다. Console 튜토리얼 워크플로를 사용하거나 Console에서 데이터 -> 데이터 세트 탭을 사용하여 데이터 세트를 수동으로 만드는 방법입니다. Console 튜토리얼을 첫 번째 옵션으로 사용하는 것이 좋습니다. Console 튜토리얼을 사용하려면 Agent Assist Console로 이동하여 테스트하려는 기능 아래에 있는 시작하기 버튼을 클릭합니다.

이 페이지에서는 데이터 세트를 수동으로 만드는 방법을 보여줍니다.

시작하기 전에

  1. Dialogflow 설정의 안내에 따라 Google Cloud Platform 프로젝트에서 Dialogflow를 사용 설정합니다.

  2. 이 튜토리얼을 시작하기 전에 Agent Assist 기본 페이지를 읽는 것이 좋습니다.

  3. 자체 스크립트 데이터를 사용하여 스마트 답장을 구현하는 경우 스크립트가 지정된 형식JSON에 있고 Google Cloud Storage 버킷에 저장되어 있어야 합니다. 대화 데이터 세트에 30,000개 이상의 대화가 포함되어 있어야 합니다. 그렇지 않은 경우 모델 학습이 실패합니다. 일반적으로 대화가 많을수록 모델 품질이 향상됩니다. 메시지가 20개 미만이거나 대화 차례(참여자의 발언 기회 전환)가 3회 미만인 대화는 모두 삭제하는 것이 좋습니다. 또한 봇 메시지 또는 시스템에서 자동으로 생성된 메시지 (예: '상담사가 채팅방에 입장함')는 모두 삭제하는 것이 좋습니다. 최대한 많은 사용 사례에 적용되도록 적어도 3개월 간의 대화를 업로드하는 것이 좋습니다. 대화 데이터 세트의 최대 대화 수는 1,000,000개입니다.

  4. 자체 스크립트 및 주석 데이터를 사용하여 요약을 구현하는 경우 스크립트가 지정된 형식이고 Google Cloud Storage 버킷에 저장되어 있어야 합니다. 권장되는 최소 학습 주석 수는 1,000개입니다. 적용되는 최소 개수는 100개입니다.

  5. Agent Assist 콘솔로 이동합니다. Google Cloud Platform 프로젝트를 선택한 다음 페이지 왼쪽 가장자리에 있는 데이터 메뉴 옵션을 클릭합니다. 데이터 메뉴에는 모든 데이터가 표시됩니다. 대화 데이터 세트기술 자료용 탭이 각각 하나씩 있습니다.

  6. 대화 데이터 세트 탭을 클릭한 후 대화 데이터 세트 페이지 오른쪽 상단에 있는 +새로 만들기 버튼을 클릭합니다.

대화 데이터 세트 만들기

  1. 새 데이터 세트의 이름설명(선택사항)을 입력합니다. 대화 데이터 필드에 대화 스크립트가 포함된 저장소 버킷의 URI를 입력합니다. Agent Assist는 와일드 카드 일치에 * 기호를 사용할 수 있도록 지원합니다. URI의 형식은 다음과 같아야 합니다.

    gs://<bucket name>/<object name>
    

    예를 들면 다음과 같습니다.

    gs://mydata/conversationjsons/conv0*.json
    gs://mydatabucket/test/conv.json
    
  2. 만들기를 클릭합니다. 이제 새 데이터 세트가 대화 데이터 세트 탭의 데이터 메뉴 페이지에 있는 데이터 세트 목록에 표시됩니다.

다음 단계

Agent Assist 콘솔을 사용하여 하나 이상의 대화 데이터 세트로 스마트 답장 또는 요약 모델을 학습시킵니다.