会話データセットの作成

会話データセットには、会話の音声文字変換データが含まれています。このデータは、スマート リプライ モデルをトレーニングし、エンドユーザーと会話する人間のエージェントにテキスト レスポンスを推奨するために使用されます。Agent Assist で使用できるデータの種類の詳細については、データの概要ページをご覧ください。独自のデータをアップロードせずに API 統合または機能の機能をテストするには、Agent Assist によって提供される会話データを使用できます。

始める前に

  1. Dialogflow の設定の手順に従って、Google Cloud Platform(GCP)プロジェクトで Dialogflow を有効にします。
  2. プロジェクトで Data Labeling API を有効にします。
  3. このチュートリアルを開始する前に、Agent Assist の基本ページをご覧ください。
  4. (省略可)独自のデータを提供せずにスマート リプライ機能をテストする場合は、一般公開されている会話データとモデルの使用に関するドキュメントを確認してください。このオプションを選択した場合は、一般公開されている会話データセットと事前トレーニング済みモデルを使用して、会話プロファイルを作成できます。
  5. 独自の会話データを使用してスマート リプライを実装する場合は、音声文字変換が指定された形式での JSON で、Google Cloud Storage バケットに保存されていることを確認します。会話データセットには少なくとも 30,000 個の会話を含める必要があります。そうしないとモデルのトレーニングに失敗します。一般に、会話が多いほどモデルの品質は向上します。メッセージが 20 件未満、または会話のターンが 3 回(参加者の発話の変更)の会話を削除することをおすすめします。できるだけ多くのユースケースを網羅するため、少なくとも 3 か月間の会話のアップロードをおすすめします。会話データセット内の会話の最大数は 1,000,000 です。

  6. Agent Assist コンソールに移動します。 GCP プロジェクトを選択し、ページの左端の余白にある [データ] メニュー オプションをクリックします。

    [データ] メニューには、すべてのデータが表示されます。2 つのタブがあり、それぞれ会話データセットナレッジベースに使用されます。

  7. [会話データセット] タブをクリックし、会話データセット ページの右上にある [+ 新規作成] ボタンをクリックします。

会話データセットの作成

  1. 新しい会話データセットを作成すると、次のページが表示されます。

  2. 新しいデータセットの [名前] と [説明] を入力します(省略可)。[会話データ] フィールドに、会話の音声文字変換を含むストレージ バケットの URI を入力します。Agent Assist では、ワイルドカード マッチングに * 記号を使用できます。URI は、次の形式にする必要があります。

    gs://<bucket name>/<object name>
    

    例:

    gs://mydata/conversationjsons/conv0*.json
    gs://mydatabucket/test/conv.json
    
  3. ページの下部には、プルダウンの [目的] メニューがあります。

    データセットをスマート リプライ モデルのトレーニングに使用することがわかっている場合は、ここで選択できます。それ以外の場合は、モデルタイプに割り当てせずにデータセットを作成できます。選択したら、[作成] をクリックします。新しいデータセットが、[会話データセット] タブの [データ] メニューページのデータセット リストに表示されます。

次のステップ

Agent Assist コンソールを使用して、1 つ以上の会話データセットでスマート リプライ モデルをトレーニングします。