Hello テキストデータ: テキスト分類データセットの作成とドキュメントのインポート

2024 年 9 月 15 日以降、分類、エンティティ抽出、感情分析の目標をカスタマイズするには、Vertex AI Gemini のプロンプトとチューニングに移行する必要があります。Vertex AI AutoML Text のモデルを、分類、エンティティ抽出、感情分析の目標に向けてトレーニングまたは更新することはできなくなります。既存の Vertex AI AutoML Text モデルは、2025 年 6 月 15 日まで引き続き使用できます。AutoML Text と Gemini の比較については、AutoML Text ユーザー向けの Gemini をご覧ください。プロンプト機能の向上による Gemini のユーザーエクスペリエンスの改善について詳しくは、チューニングの概要をご覧ください。チューニングを開始するには、Gemini テキストモデルのモデルチューニングをご覧ください。

Vertex AI のコンソールを使用して、テキスト分類データセットを作成します。データセットを作成したら、Cloud Storage バケットにコピーした CSV を使用して、これらのドキュメントをデータセットにインポートします。

このチュートリアルには複数のページが含まれます。

各ページは、前のページのチュートリアルの手順をすでに実施していることを前提としています。

Vertex AI コンソールに移動します。
[Vertex AI スタートガイド] ページで [データセットを作成] をクリックします。
データセットの詳細を指定します。
1. このデータセットの名前を指定します（例: text_classification_tutorial）。
2. [データタイプと目標の選択] セクションで、[テキスト] をクリックして [テキスト分類（単一ラベル）] を選択します。
3. [リージョン] で [us-central1] を選択します。
  
  このチュートリアルでは us-central1 を使用しますが、Vertex AI は europe-west4 などの他のリージョンもサポートしています。
4. [作成] をクリックして空のデータセットを作成し、ドキュメントをインポートします。
インポートページで、[ インポートファイルを Cloud Storage から選択] を選択し、CSV ファイルの Cloud Storage の場所を指定します。ヒント: [参照] をクリックして、[オブジェクトの選択] ダイアログで happiness.csv ファイルを選択し、[選択] をクリックします。

このチュートリアルでは、CSV ファイルの場所は gs://${BUCKET}/text/happiness.csv にあります。このチュートリアルのバケットは、データセットと同じリージョンにありますが、どのリージョンにあるバケットも指定できます。
データ分割はデフォルトのままにします。

Vertex AI が、トレーニングセット、検証セット、テストセットにドキュメントを自動的に割り当てます。詳細については、AutoML モデルのデータ分割についてをご覧ください。
[続行] をクリックして、インポートを開始します。

インポートには数分かかります。インポートが完了したら、データセットの [参照] タブで、インポートされたすべてのドキュメントとそれに関連付けられたラベルを参照できます。

次のステップ

このチュートリアルの次のページの手順に沿って AutoML モデルのトレーニングジョブを開始する。

プロジェクトと環境を設定する

AutoML テキスト分類モデルのトレーニング

Hello テキストデータ: テキスト分類データセットの作成とドキュメントのインポート コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

次のステップ

Hello テキストデータ: テキスト分類データセットの作成とドキュメントのインポート