Vertex AI と Python SDK を使用してモデルをトレーニングする

このチュートリアルは、Vertex AI SDK for Python を使用してカスタム トレーニング モデルを作成する方法を示す入門ガイドです。Jupyter ノートブックで、Docker コンテナを使用してモデルの作成とトレーニングを行うコードを実行します。このチュートリアルは、Vertex AI の利用が初めてで、ノートブック、Python、ML ワークフローに精通しているデータ サイエンティスト向けのものです。

このプロセスでは、最初に Google Cloud コンソールを使用して、作業内容を含むプロジェクトを作成します。プロジェクトでは、Vertex AI Workbench を使用して Jupyter ノートブックを作成します。ノートブック環境では、データセットをダウンロードして準備するコードを実行してから、そのデータセットを使用してモデルを作成、トレーニングします。チュートリアルの最後に、トレーニング済みモデルが予測を生成します。

このチュートリアルの目標は、予測の作成に必要なすべてのステップを 1 時間未満で説明することです。使用されるデータセットは比較的小さいため、モデルのトレーニングにそれほど時間はかかりません。チュートリアルを完了したら、学習した内容をより大きなデータセットに適用できます。データセットが大きければ大きいほど、予測は正確になります。

チュートリアルのステップ

  1. 前提条件 - Google Cloud アカウントとプロジェクトを作成します。

  2. Jupyter ノートブックを作成する - Jupyter ノートブックとその環境を作成して準備します。ノートブックを使用して、データセットの作成、モデルの作成とトレーニング、予測の生成を行うコードを実行します。

  3. データセットを作成する - 一般公開されている BigQuery データセットをダウンロードして、そのデータセットを使用して Vertex AI の表形式のデータセットを作成します。このデータセットには、モデルのトレーニングに使用するデータが含まれています。

  4. トレーニング スクリプトを作成する - トレーニング ジョブに渡す Python スクリプトを作成します。このスクリプトは、トレーニング ジョブがモデルをトレーニングして作成すると実行されます。

  5. モデルをトレーニングする - 表形式のデータセットを使用してモデルをトレーニングし、デプロイします。このモデルを使用して予測を作成します。

  6. 予測を行う - モデルを使用して予測を作成します。このセクションでは、このチュートリアルの実行中に、作成したリソースを削除して不要な請求が発生しないようにする手順も説明します。

学習内容

このチュートリアルでは、Vertex AI SDK for Python を使用して次の操作を行う方法について説明します。

  • データセットを保存する Cloud Storage バケットを作成する
  • トレーニング用のデータを前処理する
  • 処理されたデータを使用して BigQuery にデータセットを作成する
  • BigQuery データセットを使用して Vertex AI の表形式のデータセットを作成する
  • カスタム トレーニング モデルを作成してトレーニングする
  • カスタム トレーニング モデルをエンドポイントにデプロイする
  • 予測を生成する
  • モデルのデプロイを解除する
  • チュートリアルで作成したすべてのリソースを削除して、以後に請求が発生しないようにする

使用する課金対象のリソース

このチュートリアルでは、Vertex AI、BigQuery、Cloud Storage の Google Cloud サービスに関連付けられた課金対象のリソースを使用します。Google Cloud を初めて使用する場合は、これらのサービスを 1 つ以上無料でご利用いただける場合があります。Vertex AI の新規のお客様には $300 分の無料クレジットを差し上げます。Cloud Storage と BigQuery には無料枠が用意されています。詳しくは以下をご覧ください。

追加の請求の発生を回避するため、このチュートリアルの最後のステップでは、作成した課金対象の Google Cloud リソースをすべて削除する手順について説明します。