Vertex AI と Python SDK を使用してモデルをトレーニングする

このチュートリアルは、Vertex AI SDK for Python を使用してカスタム トレーニング モデルを作成する方法を示す入門ガイドです。Docker コンテナを使用してモデルの作成とトレーニングを行うコードをノートブック(IPYNB)ファイルで実行します。このチュートリアルは、Vertex AI の利用が初めてで、ノートブック、Python、ML ワークフローに精通しているデータ サイエンティスト向けのものです。

このプロセスでは、最初に Google Cloud コンソールを使用して、作業内容を含むプロジェクトを作成します。プロジェクトでは、Vertex AI Workbench を使用して Jupyter ノートブックを作成します。ノートブック環境では、データセットをダウンロードして準備するコードを実行してから、そのデータセットを使用してモデルを作成、トレーニングします。チュートリアルの最後に、トレーニング済みモデルが予測を生成します。

このチュートリアルの目標は、予測の作成に必要なすべてのステップを 1 時間未満で説明することです。使用されるデータセットは比較的小さいため、モデルのトレーニングにそれほど時間はかかりません。チュートリアルを完了したら、学習した内容をより大きなデータセットに適用できます。データセットが大きければ大きいほど、予測は正確になります。

チュートリアルのステップ

  1. 前提条件 - Google Cloud アカウントとプロジェクトを作成します。

  2. ノートブックを作成する - Jupyter ノートブックとその環境を作成して準備します。ノートブックを使用して、データセットの作成、モデルの作成とトレーニング、予測の生成を行うコードを実行します。

  3. データセットを作成する - 一般公開されている BigQuery データセットをダウンロードして、そのデータセットを使用して Vertex AI の表形式のデータセットを作成します。このデータセットには、モデルのトレーニングに使用するデータが含まれています。

  4. トレーニング スクリプトを作成する - トレーニング ジョブに渡す Python スクリプトを作成します。このスクリプトは、トレーニング ジョブがモデルをトレーニングして作成すると実行されます。

  5. モデルをトレーニングする - 表形式のデータセットを使用し、モデルをトレーニングしてデプロイします。このモデルを使用して予測を作成します。

  6. 予測を行う - モデルを使用して予測を作成します。このセクションでは、このチュートリアルの実行中に作成したリソースを削除して、不要な請求が発生しないようにする手順も説明します。

学習内容

このチュートリアルでは、Vertex AI SDK for Python を使用して次の操作を行う方法について説明します。

  • データセットを保存する Cloud Storage バケットを作成する
  • トレーニング用のデータを前処理する
  • 処理されたデータを使用して BigQuery にデータセットを作成する
  • BigQuery データセットを使用して Vertex AI の表形式のデータセットを作成する
  • カスタム トレーニング モデルを作成してトレーニングする
  • カスタム トレーニング モデルをエンドポイントにデプロイする
  • 予測を生成する
  • モデルのデプロイを解除する
  • チュートリアルで作成したすべてのリソースを削除して、以後に請求が発生しないようにする

使用する課金対象のリソース

このチュートリアルでは、Vertex AI、BigQuery、Cloud Storage の Google Cloud サービスに関連付けられた課金対象のリソースを使用します。Google Cloud を初めて使用する場合は、これらのサービスを 1 つ以上無料でご利用いただける場合があります。Vertex AI の新規のお客様には $300 分の無料クレジットを差し上げます。Cloud Storage と BigQuery には無料枠が用意されています。詳しくは以下をご覧ください。

追加の請求の発生を回避するため、このチュートリアルの最後のステップでは、作成した課金対象の Google Cloud リソースをすべて削除する手順について説明します。