会話データセットには会話の文字起こしデータが含まれており、スマート リプライ モデルまたは要約カスタムモデルのトレーニングに使用されます。スマート リプライは、会話の文字起こしを使用して、エンドユーザーと会話している人間のエージェントにテキスト レスポンスを推奨します。要約カスタムモデルは、文字起こしとアノテーション データの両方を含む会話データセットでトレーニングされます。エージェントは、会話が終了した後に、アノテーションを使用して人間のエージェント向けの会話の要約を生成します。
データセットを作成するには、Console チュートリアル ワークフローを使用する方法と、[データ] -> [データセット] タブを使用して Console でデータセットを手動で作成する方法の 2 つがあります。最初にコンソールのチュートリアルを使用することをおすすめします。コンソールのチュートリアルを使用するには、エージェント アシスト コンソールに移動し、テストする機能の下にある [使ってみる] ボタンをクリックします。
このページでは、データセットを手動で作成する方法について説明します。
始める前に
Dialogflow の設定の手順に沿って、Google Cloud Platform プロジェクトで Dialogflow を有効にします。
このチュートリアルを始める前に、Agent Assist の基本ページを読むことをおすすめします。
独自の文字起こしデータを使用してスマート返信を実装する場合は、文字起こしが指定された形式の
JSON
にあり、Google Cloud Storage バケットに保存されていることを確認してください。会話データセットには 30,000 件以上の会話が含まれている必要があります。含まれていない場合、モデルのトレーニングは失敗します。一般に、会話の数が多いほど、モデルの品質は高くなります。20 件未満のメッセージまたは 3 回の会話ターン(参加者が発話する変化)の会話を削除することをおすすめします。また、bot メッセージやシステムによって自動生成されたメッセージ(「エージェントがチャットルームに移動しました」など)は削除することをおすすめします。できるだけ多くのユースケースをカバーできるように、少なくとも 3 か月間の会話をアップロードすることをおすすめします。会話データセット内の会話の最大数は 1,000,000 です。独自の文字変換データとアノテーション データを使用して要約を実装する場合は、文字変換が指定された形式で、Google Cloud Storage バケットに保存されていることを確認してください。トレーニング アノテーションの最小数は 1,000 です。適用される最小数は 100 です。
Agent Assist コンソールに移動します。 Google Cloud Platform プロジェクトを選択し、ページの左端の余白にある [データ] メニュー オプションをクリックします。[データ] メニューには、すべてのデータが表示されます。会話データセットとナレッジベースの 2 つのタブがあります。
[会話データセット] タブをクリックし、会話データセット ページの右上にある [+ 新規作成] ボタンをクリックします。
会話データセットを作成する
新しいデータセットの [名前] と [説明](省略可)を入力します。[会話データ] フィールドに、会話の文字起こしを含むストレージ バケットの URI を入力します。Agent Assist は、ワイルドカード マッチングに
*
記号の使用をサポートしています。URI の形式は次のとおりです。gs://<bucket name>/<object name>
次に例を示します。
gs://mydata/conversationjsons/conv0*.json gs://mydatabucket/test/conv.json
[作成] をクリックします。新しいデータセットが、[データ] メニューページの [会話データセット] タブのデータセット リストに表示されます。
次のステップ
Agent Assist コンソールを使用して、1 つ以上の会話データセットでスマート リプライまたは要約モデルをトレーニングします。