Vertex AI では、大規模なモデル トレーニングの運用を可能にするマネージド トレーニング サービスを利用できます。Vertex AI SDK for Python を使用してテスト追跡を有効にすると、カスタム トレーニング ジョブを送信するときにパラメータとパフォーマンス指標をキャプチャできます。
以下の操作を行う場合には、この機能は使用できません。
- Google Cloud コンソールまたは Google Cloud CLI を使用してトレーニング ジョブを送信する。
- トレーニング ジョブで TPU を使用する。
- トレーニング ジョブで分散トレーニングを使用する。
ビルド済みのトレーニング コンテナとカスタム コンテナは、どちらもサポートされています。google-cloud-aiplatform 用に Vertex AI SDK for Python のバージョン 1.24.1 以降がインストールされている必要があります。Tensorflow を使用してトレーニングする場合は、競合を避けるために、バージョン 4.0 よりも前の protobuf がインストールされていることを確認してください。
Vertex AI Experiments へのデータロギングには、自動ロギングと手動ロギングの 2 つの方法があります。
サポートされているフレームワーク(Fastai、Gluon、Keras、LightGBM、Pytorch Lightning、Scikit-learn、Spark、Statsmodels、XGBoost)のいずれかを使用している場合は、自動ロギングをおすすめします。お使いのフレームワークがサポートされていない場合や、テスト実行に記録するカスタム指標がある場合は、トレーニング スクリプトをログパラメータ、指標、アーティファクトに手動で適用できます。
データの自動ログ
自動ロギングを有効にするには、enable_autolog=True
を設定します。from_local_script
をご覧ください。テスト実行を作成するかどうかは選択できます。テスト名を指定しない場合は、テスト名が自動的に作成されます。
ExperimentRun リソースの作成は、Vertex AI SDK for Python により処理されます。
Python
project
: 実際のプロジェクト ID。これらのプロジェクト ID は、Google Cloud コンソールの [ようこそ] ページで確認できます。location
: 利用可能なロケーションの一覧をご覧ください。staging_bucket
: バケットに付けた名前(例:my_bucket
)。display_name
: CustomJob のユーザー定義名。script_path
: ローカル ファイル システム上の作業ディレクトリを基準にした、トレーニング コードのエントリ ポイントとなるスクリプトの相対パス。container_uri
: トレーニング コンテナ イメージの URI は、Vertex AI のビルド済みトレーニング コンテナまたはカスタム コンテナです。service_account
: 必要な権限を持つサービス アカウントを作成するをご覧ください。experiment
: テストの名前を指定します。テストには TensorBoard インスタンスが必要です。Google Cloud コンソールで、セクション ナビゲーションの [テスト] を選択すると、テストのリストを見つけることができます。experiment_run
:(省略可)実行名を指定します。指定しない場合は、実行が自動的に作成されます。
データを手動でログに記録する
データの手動ロギング オプションを使用して、トレーニング スクリプトを組み込みます。
トレーニング スクリプトを変更する方法は次のとおりです。
import os
import pickle
import pandas as pd
from sklearn.linear_model import LinearRegression
# To use manual logging APIs, import aiplatform
from google.cloud import aiplatform
# Create Dataset
data = {'A': [1.1,2.2,4.1,5.2],
'B': [200, 212.12, 22, 123],
'Y': [1,0,1,0]}
df = pd.DataFrame(data)
X = df[['A', 'B']]
Y = df['Y']
# Train model
model = LinearRegression().fit(X, Y)
# Save the model to gcs
model_dir = os.getenv('AIP_MODEL_DIR')
model_gcs = model_dir.replace('gs://', '/gcs/')
model_name = 'model.pkl'
os.mkdir(model_gcs)
f = open(os.path.join(model_gcs, model_name), 'wb')
pickle.dump(model, f)
f = open(os.path.join(model_gcs, model_name), 'wb')
pickle.dump(model, f)
# Call aiplatform's logging APIs to save data to Vertex AI Experiments.
params = model.get_params()
aiplatform.log_params(params)
metrics = {"training_accuracy": model.score(X,Y)}
aiplatform.log_metrics(metrics)
テスト実行を作成するかどうかは選択できます。テスト名を指定しない場合は、テスト名が自動的に作成されます。
詳細については、テスト実行にデータを手動で記録するをご覧ください。
Python
project
: 実際のプロジェクト ID。これらのプロジェクト ID は、Google Cloud コンソールの [ようこそ] ページで確認できます。location
: 利用可能なロケーションの一覧をご覧ください。staging_bucket
: バケットに付けた名前(例:my_bucket
)。display_name
: CustomJob のユーザー定義名。script_path
: ローカル ファイル システム上の作業ディレクトリを基準にした、トレーニング コードのエントリ ポイントとなるスクリプトの相対パス。container_uri
: トレーニング コンテナ イメージの URI は、Vertex AI のビルド済みトレーニング コンテナまたはカスタム コンテナです。カスタム コンテナを使用している場合は、google-cloud-aiplatform>=1.24.0
がインストールされていることを確認してください。service_account
: 必要な権限を持つサービス アカウントを作成するをご覧ください。experiment
: テストの名前を指定します。Google Cloud コンソールで、セクション ナビゲーションの [テスト] を選択すると、テストのリストを見つけることができます。experiment_run
: 実行名を指定します。指定しない場合は、実行が自動的に作成されます。
ログに自動的に記録されたパラメータと指標を表示する
Vertex AI SDK for Python を使用して、実行を比較して実行データを取得します。Google Cloud コンソールでは、これらの実行を簡単に比較できます。