会話データセットの作成

会話データセットには、会話の文字起こしデータが含まれます。このデータを使用して、スマート リプライ モデルをトレーニングし、エンドユーザーと会話している人間のエージェントにテキスト レスポンスを推奨します。Agent Assist で使用できるデータの種類の詳細については、データの概要ページをご覧ください。独自のデータをアップロードせずに API の統合または特徴の機能をテストする場合は、Agent Assist によって提供される会話データを使用できます。

始める前に

  1. Dialogflow の設定手順に沿って、Google Cloud Platform(GCP)プロジェクトで Dialogflow を有効にします。
  2. プロジェクトで Data Labeling API を有効にします。
  3. このチュートリアルを開始する前に、Agent Assist の基本ページをご覧ください。
  4. (省略可)スマート リプライ機能を独自のデータなしでテストする場合は、一般公開されている会話データとモデルの使用に関するドキュメントをご確認ください。この方法を選択した場合は、ここを飛ばして、一般公開されている会話データセットと事前トレーニング済みモデルを使用して、会話プロファイルを作成できます。
  5. 独自の会話データを使用してスマート リプライを実装する場合は、文字起こしが指定された形式JSONGoogle Cloud Storage バケットに保存されていることを確認します。会話データセットには少なくとも 30,000 件の会話を含める必要があります。そうでない場合、モデル トレーニングは失敗します。一般に、会話が多いほどモデルの品質は向上します。メッセージが 20 件未満、または会話のターン(参加者が行っている発話の転換点)が 3 回の会話は削除することをおすすめします。できるだけ多くのユースケースを網羅するため、少なくとも 3 か月間の会話のアップロードをおすすめします。会話データセット内の最大会話数は 1,000,000 件です。

  6. Agent Assist コンソールに移動します。 GCP プロジェクトを選択し、ページの左端の余白にある [データ] メニュー オプションをクリックします。

    [データ] メニューには、すべてのデータが表示されます。[会話データセット] と [ナレッジベース] の 2 つのタブがあります。

  7. [会話データセット] タブをクリックし、会話データセット ページの右上にある [+ 新規作成] ボタンをクリックします。

会話データセットを作成する

  1. 新しい会話データセットを作成すると、次のページが表示されます。

  2. 新しいデータセットの [名前] と [説明](省略可)を入力します。[会話データ] フィールドに、会話の文字起こしを含むストレージ バケットの URI を入力します。Agent Assist は、* 記号を使用したワイルドカード マッチングに対応しています。URI は、次の形式にする必要があります。

    gs://<bucket name>/<object name>
    

    例:

    gs://mydata/conversationjsons/conv0*.json
    gs://mydatabucket/test/conv.json
    
  3. ページの下部に、プルダウンの [目標] メニューが表示されます。

    スマート リプライ モデルのトレーニングにデータセットが使用されることが確実な場合は、ここで選択できます。それ以外の場合は、モデルタイプに割り当てせずにデータセットを作成できます。選択して [作成] をクリックします。新しいデータセットが、[会話データセット] タブの [データ] メニューページのデータセット リストに表示されます。

次のステップ

Agent Assist コンソールを使用して、1 つ以上の会話データセットでスマート リプライ モデルをトレーニングします。