Vertex AI と Python SDK を使用してモデルをトレーニングする

このチュートリアルは、Vertex AI SDK for Python を使用してカスタムトレーニングモデルを作成する方法を示す入門ガイドです。Docker コンテナを使用してモデルの作成とトレーニングを行うコードをノートブック（IPYNB）ファイルで実行します。このチュートリアルは、Vertex AI の利用が初めてで、ノートブック、Python、ML ワークフローに精通しているデータサイエンティスト向けのものです。

このプロセスでは、最初に Google Cloud コンソールを使用して、作業内容を含むプロジェクトを作成します。プロジェクトでは、Vertex AI Workbench を使用して Jupyter ノートブックを作成します。ノートブック環境では、データセットをダウンロードして準備するコードを実行してから、そのデータセットを使用してモデルを作成、トレーニングします。チュートリアルの最後に、トレーニング済みモデルが予測を生成します。

このチュートリアルの目標は、予測の作成に必要なすべてのステップを 1 時間未満で説明することです。使用されるデータセットは比較的小さいため、モデルのトレーニングにそれほど時間はかかりません。チュートリアルを完了したら、学習した内容をより大きなデータセットに適用できます。データセットが大きければ大きいほど、予測は正確になります。

チュートリアルのステップ

前提条件 - Google Cloudアカウントとプロジェクトを作成します。
ノートブックを作成する - Jupyter ノートブックとその環境を作成して準備します。ノートブックを使用して、データセットの作成、モデルの作成とトレーニング、予測の生成を行うコードを実行します。
データセットを作成する - 一般公開されている BigQuery データセットをダウンロードして、そのデータセットを使用して Vertex AI の表形式のデータセットを作成します。このデータセットには、モデルのトレーニングに使用するデータが含まれています。
トレーニングスクリプトを作成する - トレーニングジョブに渡す Python スクリプトを作成します。このスクリプトは、トレーニングジョブがモデルをトレーニングして作成すると実行されます。
モデルをトレーニングする - 表形式のデータセットを使用し、モデルをトレーニングしてデプロイします。このモデルを使用して予測を作成します。
予測を行う - モデルを使用して予測を作成します。このセクションでは、このチュートリアルの実行中に作成したリソースを削除して、不要な請求が発生しないようにする手順も説明します。

学習内容

このチュートリアルでは、Vertex AI SDK for Python を使用して次の操作を行う方法について説明します。

データセットを保存する Cloud Storage バケットを作成する
トレーニング用のデータを前処理する
処理されたデータを使用して BigQuery にデータセットを作成する
BigQuery データセットを使用して Vertex AI の表形式のデータセットを作成する
カスタムトレーニングモデルを作成してトレーニングする
カスタムトレーニングモデルをエンドポイントにデプロイする
予測を生成する
モデルのデプロイを解除する
チュートリアルで作成したすべてのリソースを削除して、以後に請求が発生しないようにする

使用する課金対象のリソース

このチュートリアルでは、Vertex AI、BigQuery、Cloud Storage の Google Cloud サービスに関連付けられた課金対象のリソースを使用します。 Google Cloudを初めて使用する場合は、これらのサービスを 1 つ以上無料でご利用いただける場合があります。Vertex AI の新規のお客様には $300 分の無料クレジットを差し上げます。Cloud Storage と BigQuery には無料枠が用意されています。詳しくは以下をご覧ください。

追加の請求の発生を回避するため、このチュートリアルの最後のステップでは、作成した課金対象の Google Cloud リソースをすべて削除する手順について説明します。

前提条件