トレーニングパイプラインの作成

トレーニングパイプラインを使用すると、カスタム機械学習（ML）のトレーニングを実行し、トレーニング出力に基づいて Model リソースを自動的に作成できます。

パイプラインを作成する前に

トレーニングパイプラインを Vertex AI に作成する前に、Python トレーニングアプリケーションまたはカスタムコンテナを作成して、Vertex AI で実行するトレーニングコードと依存関係を定義する必要があります。PyTorch、TensorFlow、scikit-learn、または XGBoost を使用して Python トレーニングアプリケーションを作成する場合は、ビルド済みのコンテナを使用してコードを実行できます。どちらを選択すればよいかわからない場合は、トレーニングコードの要件をご覧ください。

トレーニングパイプラインのオプション

トレーニングパイプラインは、追加のステップでトレーニングジョブをカプセル化します。このガイドでは、2 つの異なるトレーニングパイプラインについて説明します。

CustomJob を起動して、生成されたモデルを Vertex AI にアップロードする
ハイパーパラメータ調整ジョブを起動して、生成されたモデルを Vertex AI にアップロードする

また、トレーニングパイプラインでマネージドデータセットを使用することもできます。マネージドデータセットを使用するようにトレーニングパイプラインを構成する方法をご覧ください。

`CustomJob` の内容

カスタムジョブを作成する場合、Vertex AI がトレーニングコードを実行するために必要な設定を指定します。次のような設定になります。

単一ノードトレーニング用のワーカープール（WorkerPoolSpec）または分散トレーニング用の複数のワーカープール
ジョブスケジューリングの構成のオプション設定（Scheduling）、トレーニングコード用の特定の環境変数の設定、カスタムサービスアカウントの使用、VPC ネットワークピアリングの使用

ワーカープールでは次の設定を指定できます。

マシンタイプとアクセラレータ
ワーカープールで実行するトレーニングコードの種類の構成: Python トレーニングアプリケーション（PythonPackageSpec）またはカスタムコンテナ（ContainerSpec）のいずれか

Vertex AI Training パイプラインの外部でスタンドアロンカスタムジョブを作成する場合は、カスタムジョブのガイドをご覧ください。

マネージドデータセットを使用するようにパイプラインを構成する

トレーニングパイプライン内では、マネージドデータセットを使用するようにカスタムトレーニングジョブまたはハイパーパラメータ調整ジョブを構成できます。マネージドデータセットでは、トレーニングアプリケーションとモデルを使用してデータセットを管理できます。

トレーニングパイプラインでマネージドデータセットを使用するには:

データセットを作成します。
マネージドデータセットを使用するようにトレーニングアプリケーションを更新します。詳細については、Vertex AI がデータセットをトレーニングアプリケーションに渡す方法をご覧ください。
トレーニングパイプラインを作成するときに、マネージドデータセットを指定します。たとえば、REST API を使用してトレーニングパイプラインを作成する場合は、inputDataConfig セクションにデータセット設定を指定します。

トレーニングパイプラインは、データセットを作成したリージョンと同じリージョンに作成する必要があります。

詳しくは、TrainingPipeline の API リファレンスをご覧ください。

分散トレーニングを構成する

トレーニングパイプライン内では、複数のワーカープールを指定して、分散トレーニング用のカスタムトレーニングジョブまたはハイパーパラメータ調整ジョブを構成できます。

このページの例はすべて、1 つのワーカープールを持つ単一レプリカトレーニングジョブを示しています。分散トレーニング用に変更するには:

最初のワーカープールを使用してプライマリレプリカを構成し、レプリカ数を 1 に設定します。
機械学習フレームワークが分散トレーニング用のこれらの追加クラスタタスクをサポートしている場合は、ワーカープールを追加して、ワーカーレプリカ、パラメータサーバーレプリカ、またはエバリュエータレプリカを構成します。

分散トレーニングの使用方法の詳細。

CustomJob とモデルのアップロード

このトレーニングパイプラインでは、追加された便利な手順によりカスタムジョブがカプセル化されます。これにより、トレーニング後にモデルを Vertex AI に簡単にデプロイできます。このトレーニングパイプラインは、次の 2 つの主要な処理を行います。

トレーニングパイプラインは CustomJob リソースを作成します。カスタムジョブは、指定したコンピューティングリソースを使用してトレーニングアプリケーションを実行します。
カスタムジョブが完了すると、トレーニングパイプラインにより、トレーニングアプリケーションが Cloud Storage バケットに指定した出力ディレクトリに作成するモデルアーティファクトが検出されます。これらのアーティファクトを使用して、モデルのデプロイ用に設定するモデルリソースを作成します。

モデルアーティファクトの場所を設定するには、次の 2 つの方法があります。

トレーニングジョブに baseOutputDirectory を設定する場合は、Vertex AI によって設定された $AIP_MODEL_DIR 環境変数を使用して、トレーニングコードがモデルアーティファクトをこの場所に保存するようにします。トレーニングジョブが完了すると、Vertex AI は gs://BASE_OUTPUT_DIRECTORY/model で結果のモデルアーティファクトを検索します。
注: Vertex AI SDK for Python を使用している場合は、base_output_dir 属性を省略できます。この場合、Vertex AI はステージングディレクトリのタイムスタンプ付きのディレクトリにモデルアーティファクトを出力します。詳細については、次を参照してください。
modelToUpload.artifactUri フィールドを設定すると、トレーニングパイプラインは、その URI からモデルアーティファクトをアップロードします。baseOutputDirectory を設定していない場合は、このフィールドを設定する必要があります。

baseOutputDirectory と modelToUpload.artifactUri の両方を指定している場合、Vertex AI は modelToUpload.artifactUri を使用します。

このタイプのトレーニングパイプラインを作成するには:

コンソール

Google Cloud コンソールの [Vertex AI] セクションで、[トレーニングパイプライン] ページに移動します。

[トレーニングパイプライン] に移動
[作成] をクリックして、[新しいモデルのトレーニング] ペインを開きます。
トレーニング方法のステップで、次の設定を指定します。
1. マネージドデータセットをトレーニングに使用する場合は、データセットとアノテーションセットを指定します。
  
  それ以外の場合は、[Dataset] プルダウンリストで、[管理されているデータセットなし] を選択します。
2. [カスタムトレーニング（上級者向け）] を選択します。
[続行] をクリックします。
[モデルの詳細] ステップで、[新しいモデルをトレーニング] または [新しいバージョンをトレーニング] を選択します。新しいモデルをトレーニングする場合は、モデルに任意の名前（MODEL_NAME）を入力します。[続行] をクリックします。
[トレーニングコンテナ] ステップで、次の設定を指定します。
1. トレーニングにビルド済みのコンテナとカスタムコンテナのどちらを使用するかを選択します。
2. 選択した内容に応じて、次のいずれかを行います。
  - ビルド済みのコンテナをトレーニングに使用する場合は、Cloud Storage にアップロードしたトレーニングパッケージを使用するために必要な情報を Vertex AI に提供します。
    1. [モデルフレームワーク] と [モデルフレームワークのバージョン] のプルダウンリストから、使用するビルド済みのコンテナを指定します。
    2. [パッケージの場所] フィールドで、作成およびアップロードした Python トレーニングアプリケーションの Cloud Storage URI を指定します。通常、このファイルは .tar.gz で終わります。
    3. [Python モジュール] フィールドに、トレーニングアプリケーションのエントリポイントのモジュール名を入力します。
  - トレーニングにカスタムコンテナを使用する場合は、[コンテナイメージ] フィールドにコンテナイメージの Artifact Registry または Docker Hub の URI を指定します。
3. [Model output directory] フィールドに、アクセス権があるバケット内のディレクトリの Cloud Storage URI を指定します。そのディレクトリがまだ存在していなくてもかまいません。
  
  この値は、Vertex AI の baseOutputDirectory API フィールドに渡されます。この値に基づいて、トレーニングアプリケーションが実行時にアクセスする複数の環境変数が設定されます。
  
  トレーニングが終了すると、Vertex AI はこの URI のサブディレクトリでモデルアーティファクトを探して Model を作成します（このサブディレクトリは、トレーニングコードで AIP_MODEL_DIR 環境変数として使用できます）。
  
  ハイパーパラメータ調整を使用しない場合、Vertex AI は BASE_OUTPUT_DIRECTORY/model/ にモデルアーティファクトがあると想定します。
4. 省略可: [引数] フィールドに、Vertex AI がトレーニングコードの実行開始時に使用する引数を指定できます。すべての引数の合計長は 100,000 文字以下にする必要があります。これらの引数の動作は、使用しているコンテナの種類によって異なります。
  - ビルド済みのコンテナを使用する場合、Vertex AI は引数をコマンドラインフラグとして Python モジュールに渡します。
  - カスタムコンテナを使用している場合、Vertex AI はコンテナの CMD 命令を引数でオーバーライドします。
[続行] をクリックします。
[ハイパーパラメータ調整] ステップで、[Enable hyperparameter tuning] チェックボックスがオフになっていることを確認します。[続行] をクリックします。
[コンピューティングと料金] ステップで、次の設定を指定します。
1. [リージョン] プルダウンリストで、カスタムトレーニングをサポートするリージョンを選択します。
2. [Worker pool 0] セクションで、トレーニングに使用するコンピューティングリソースを指定します。
  
  アクセラレータを指定する場合は、選択したアクセラレータが選択したリージョンで使用できることを確認してください。
  
  分散トレーニングを行う場合は、[ADD MORE WORKER POOLS] をクリックし、追加のワーカープールごとに追加のコンピューティングリソースのセットを指定します。
[続行] をクリックします。
[予測コンテナ] ステップで、次の設定を指定します。
1. トレーニング済みモデルから予測を提供するには、ビルド済みのコンテナとカスタムコンテナのどちらを使用するかを選択します。
2. 選択した内容に応じて、次のいずれかを行います。
  - ビルド済みのコンテナを使用して予測を行う場合は、[モデルフレームワーク]、[モデルフレームワークのバージョン]、[アクセラレータタイプ] フィールドを使用して、予測に使用するビルド済みの予測コンテナを選択します。
    
    モデルフレームワークとモデルフレームワークのバージョンをトレーニングに使用した機械学習フレームワークと照合します。後でオンライン予測またはバッチ予測に GPU を使用する場合にのみ、アクセラレータタイプを指定します。
  - カスタムコンテナを使用して予測を行う場合は、次の操作を行います。
    1. [コンテナイメージ] フィールドに、コンテナイメージの Artifact Registry の URI を指定します。
    2. 必要に応じて、コマンドを指定して、コンテナの ENTRYPOINT 命令をオーバーライドすることもできます。
3. [モデルディレクトリ] フィールドには、トレーニングコンテナのステップの [Model output directory] で設定した値が含まれています。どちらのフィールドを変更しても影響は同じです。このフィールドの詳細については、前の手順をご覧ください。
4. [予測 schemata] セクションのフィールドは空白のままにします。
[トレーニングを開始] をクリックして、カスタムトレーニングパイプラインを開始します。

REST

次のコードサンプルを使用して、trainingPipeline リソースの create メソッドを使用してトレーニングパイプラインを作成します。

注: このパイプラインを設定して新しいモデルバージョンを作成する場合は、必要に応じて trainingPipeline フィールドに PARENT_MODEL を追加できます。

詳細については、Vertex AI Model Registry を使用したモデルのバージョニングをご覧ください。

リクエストのデータを使用する前に、次のように置き換えます。

LOCATION_ID: トレーニングコードが実行され、Model が保存されるリージョン。
PROJECT_ID: 実際のプロジェクト ID。
TRAINING_PIPELINE_NAME: 必須。trainingPipeline の表示名。
トレーニングアプリケーションで Vertex AI データセットを使用する場合は、以下を指定します。
- DATASET_ID: データセットの ID。
- ANNOTATIONS_FILTER: 指定したアノテーションでデータセットをフィルタします。
- ANNOTATION_SCHEMA_URI: 指定したアノテーションスキーマ URI でデータセットをフィルタします。
- 次のいずれかのオプションを使用して、データ項目をトレーニングセット、検証セット、テストセットに分割する方法を指定します。
  - 各セットのサイズを定義する割合に基づいてデータセットを分割するには、以下を指定します。
    - TRAINING_FRACTION: モデルのトレーニングに使用するデータセットの割合。
    - VALIDATION_FRACTION: モデルの検証に使用するデータセットの割合。
    - TEST_FRACTION: モデルの評価に使用するデータセットの割合。
  - フィルタに基づいてデータセットを分割するには、次のように指定します。
    - TRAINING_FILTER: モデルのトレーニングに使用するデータ項目にデータセットをフィルタします。
    - VALIDATION_FILTER: モデルの検証に使用するデータ項目にデータセットをフィルタします。
    - TEST_FILTER: モデルの評価に使用するデータ項目にデータセットをフィルタします。
  - 事前定義された分割を使用するには、次のように指定します。
    - PREDEFINED_SPLIT_KEY: データセットの分割に使用する列の名前。この列に指定できる値は、「training」、「validation」、「test」です。
  - dataitems のタイムスタンプに基づいてデータセットを分割するには、次のように指定します。
    - TIMESTAMP_TRAINING_FRACTION: モデルのトレーニングに使用するデータセットの割合。
    - TIMESTAMP_VALIDATION_FRACTION: モデルの検証に使用するデータセットの割合。
    - TIMESTAMP_TEST_FRACTION: モデルの評価に使用するデータセットの割合。
    - TIMESTAMP_SPLIT_KEY: データセットの分割に使用するタイムスタンプ列の名前。
- OUTPUT_URI_PREFIX: Vertex AI でトレーニングデータセットがトレーニングセット、検証セット、テストセットに分割された後にエクスポートされる Cloud Storage の場所。
カスタムトレーニングジョブを定義します。
- MACHINE_TYPE: マシンのタイプ。トレーニングで使用可能なマシンタイプをご覧ください。
- ACCELERATOR_TYPE: 省略可。各トライアルに接続するアクセラレータのタイプ。
- ACCELERATOR_COUNT: 省略可。各トライアルに接続するアクセラレータの数。
- REPLICA_COUNT: 各トライアルで使用するワーカーレプリカの数。
- トレーニングアプリケーションがカスタムコンテナで実行される場合は、次のように指定します。
  - CUSTOM_CONTAINER_IMAGE_URI: 各ワーカーレプリカで実行される Artifact Registry または Docker Hub 内のコンテナイメージの URI。
  - CUSTOM_CONTAINER_COMMAND: 省略可。コンテナの起動時に呼び出されるコマンド。このコマンドは、コンテナのデフォルトのエントリポイントをオーバーライドします。
  - CUSTOM_CONTAINER_ARGS: 省略可。コンテナの起動時に渡される引数。すべての引数の合計長は 100,000 文字以下にする必要があります。
- トレーニングアプリケーションが事前ビルド済みのコンテナで実行される Python パッケージの場合は、以下を指定します。
  - PYTHON_PACKAGE_EXECUTOR_IMAGE_URI: 提供された Python パッケージを実行するコンテナイメージの URI。トレーニングに使用可能なビルド済みのコンテナをご確認ください。
  - PYTHON_PACKAGE_URIS: トレーニングプログラムとその依存パッケージである Python パッケージファイルの Cloud Storage 上のロケーション。パッケージ URI の最大数は 100 です。
  - PYTHON_MODULE: パッケージのインストール後に実行する Python モジュール名。
  - PYTHON_PACKAGE_ARGS: 省略可。Python モジュールに渡すコマンドライン引数。すべての引数の合計長は 100,000 文字以下にする必要があります。
- TIMEOUT: 省略可。ジョブの最大実行時間。
MODEL_NAME: TrainingPipeline によってアップロード（作成）されたモデルの表示名。
MODEL_DESCRIPTION: モデルの説明。
IMAGE_URI: 予測の実行に使用するコンテナイメージの URI。例: us-docker.pkg.dev/vertex-ai/prediction/tf2-cpu.2-1:latestビルド済みのコンテナまたはカスタムコンテナを使用します。
modelToUpload.labels: モデルを整理するための任意の Key-Value ペアのセット。例:
- "env": "prod"
- "tier": "backend"
このトレーニングパイプラインに適用するラベルの LABEL_NAME と LABEL_VALUE を指定します。

HTTP メソッドと URL:

POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/trainingPipelines

リクエストの本文（JSON）:

{
  "displayName": "TRAINING_PIPELINE_NAME",
  "inputDataConfig": {
    "datasetId": DATASET_ID,
    "annotationsFilter": ANNOTATIONS_FILTER,
    "annotationSchemaUri": ANNOTATION_SCHEMA_URI,

    // Union field split can be only one of the following:
    "fractionSplit": {
      "trainingFraction": TRAINING_FRACTION,
      "validationFraction": VALIDATION_FRACTION,
      "testFraction": TEST_FRACTION
    },
    "filterSplit": {
      "trainingFilter": TRAINING_FILTER,
      "validationFilter": VALIDATION_FILTER,
      "testFilter": TEST_FILTER
    },
    "predefinedSplit": {
      "key": PREDEFINED_SPLIT_KEY
    },
    "timestampSplit": {
      "trainingFraction": TIMESTAMP_TRAINING_FRACTION,
      "validationFraction": TIMESTAMP_VALIDATION_FRACTION,
      "testFraction": TIMESTAMP_TEST_FRACTION,
      "key": TIMESTAMP_SPLIT_KEY
    }
    // End of list of possible types for union field split.
    "gcsDestination": {
      "outputUriPrefix": OUTPUT_URI_PREFIX
    }
  },
  "trainingTaskDefinition": "gs://google-cloud-aiplatform/schema/trainingjob/definition/custom_task_1.0.0.yaml",
  "trainingTaskInputs": {
    "workerPoolSpecs": [
        {
          "machineSpec": {
            "machineType": MACHINE_TYPE,
            "acceleratorType": ACCELERATOR_TYPE,
            "acceleratorCount": ACCELERATOR_COUNT
          },
          "replicaCount": REPLICA_COUNT,

          // Union field task can be only one of the following:
          "containerSpec": {
            "imageUri": CUSTOM_CONTAINER_IMAGE_URI,
            "command": [
              CUSTOM_CONTAINER_COMMAND
            ],
            "args": [
              CUSTOM_CONTAINER_ARGS
            ]
          },
          "pythonPackageSpec": {
            "executorImageUri": PYTHON_PACKAGE_EXECUTOR_IMAGE_URI,
            "packageUris": [
              PYTHON_PACKAGE_URIS
            ],
            "pythonModule": PYTHON_MODULE,
            "args": [
              PYTHON_PACKAGE_ARGS
            ]
          }
          // End of list of possible types for union field task.
        }
      ],
      "scheduling": {
        "TIMEOUT": TIMEOUT
      }
    }
  },
  "modelToUpload": {
    "displayName": "MODEL_NAME",
    "predictSchemata": {},
    "containerSpec": {
      "imageUri": "IMAGE_URI"
    }
  },
  "labels": {
    LABEL_NAME_1": LABEL_VALUE_1,
    LABEL_NAME_2": LABEL_VALUE_2
  }
}

リクエストを送信するには、次のいずれかのオプションを選択します。

curl

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ユーザーアカウントで gcloud CLI にログインしているか、Cloud Shell を使用して自動的に gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/trainingPipelines"

PowerShell

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ご自分のユーザーアカウントで gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/trainingPipelines" | Select-Object -Expand Content

レスポンスには、仕様と TRAININGPIPELINE_ID に関する情報が含まれています。

レスポンス


{
  "name": "projects/PROJECT_ID/locations/LOCATION_ID/trainingPipelines/TRAININGPIPELINE_ID",
  "displayName": "TRAINING_PIPELINE_NAME",
  "input_data_config" {
    "dataset_id": "1234567891011121314"
    "gcs_destination" {
      "output_uri_prefix": "gs://BUCKET_NAME/data/20200915191342"
    }
    "annotation_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/annotation/image_classification_1.0.0.yaml"
  },
  "trainingTaskDefinition": "gs://google-cloud-aiplatform/schema/trainingjob/definition/custom_task_1.0.0.yaml",
  "trainingTaskInputs": {
    "workerPoolSpecs": [
      {
        "machineSpec": {
          "machineType": "n1-standard-4"
        },
        "replicaCount": "1",
        "pythonPackageSpec": {
          "executorImageUri": "us-docker.pkg.dev/vertex-ai/training/training-tf-cpu.2-1:latest",
          "packageUris": [
            "gs://BUCKET_NAME/training/hello-custom-training-1.0.tar.gz"
          ],
          "pythonModule": "trainer.task",
          "args": [
            "--model-dir=gs://BUCKET_NAME/output/"
          ]
        }
      }
    ]
  },
  "trainingTaskMetadata": {
    "backingCustomJob": "projects/PROJECT_ID/locations/LOCATION_ID/customJobs/CUSTOM_JOB_ID"
  },
  "modelToUpload": {
    "displayName": "MODEL_NAME",
    "predictSchemata": {},
    "containerSpec": {
      "imageUri": "us-docker.pkg.dev/vertex-ai/prediction/tf2-cpu.2-1:latest"
    }
  },
  "state": "PIPELINE_STATE_PENDING",
  "createTime": "2020-09-15T19:09:54.342080Z",
  "startTime": "2020-09-15T19:13:42.991045Z",
}

Java

このサンプルを試す前に、Vertex AI クイックスタート: クライアントライブラリの使用にある Java の設定手順を完了してください。詳細については、Vertex AI Java API のリファレンスドキュメントをご覧ください。

Vertex AI に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。詳細については、ローカル開発環境の認証を設定するをご覧ください。

import com.google.cloud.aiplatform.v1.LocationName;
import com.google.cloud.aiplatform.v1.Model;
import com.google.cloud.aiplatform.v1.ModelContainerSpec;
import com.google.cloud.aiplatform.v1.PipelineServiceClient;
import com.google.cloud.aiplatform.v1.PipelineServiceSettings;
import com.google.cloud.aiplatform.v1.TrainingPipeline;
import com.google.gson.JsonArray;
import com.google.gson.JsonObject;
import com.google.protobuf.Value;
import com.google.protobuf.util.JsonFormat;
import java.io.IOException;

public class CreateTrainingPipelineCustomJobSample {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String project = "PROJECT";
    String displayName = "DISPLAY_NAME";
    String modelDisplayName = "MODEL_DISPLAY_NAME";
    String containerImageUri = "CONTAINER_IMAGE_URI";
    String baseOutputDirectoryPrefix = "BASE_OUTPUT_DIRECTORY_PREFIX";
    createTrainingPipelineCustomJobSample(
        project, displayName, modelDisplayName, containerImageUri, baseOutputDirectoryPrefix);
  }

  static void createTrainingPipelineCustomJobSample(
      String project,
      String displayName,
      String modelDisplayName,
      String containerImageUri,
      String baseOutputDirectoryPrefix)
      throws IOException {
    PipelineServiceSettings settings =
        PipelineServiceSettings.newBuilder()
            .setEndpoint("us-central1-aiplatform.googleapis.com:443")
            .build();
    String location = "us-central1";

    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests. After completing all of your requests, call
    // the "close" method on the client to safely clean up any remaining background resources.
    try (PipelineServiceClient client = PipelineServiceClient.create(settings)) {
      JsonObject jsonMachineSpec = new JsonObject();
      jsonMachineSpec.addProperty("machineType", "n1-standard-4");

      // A working docker image can be found at
      // gs://cloud-samples-data/ai-platform/mnist_tfrecord/custom_job
      // This sample image accepts a set of arguments including model_dir.
      JsonObject jsonContainerSpec = new JsonObject();
      jsonContainerSpec.addProperty("imageUri", containerImageUri);
      JsonArray jsonArgs = new JsonArray();
      jsonArgs.add("--model_dir=$(AIP_MODEL_DIR)");
      jsonContainerSpec.add("args", jsonArgs);

      JsonObject jsonJsonWorkerPoolSpec0 = new JsonObject();
      jsonJsonWorkerPoolSpec0.addProperty("replicaCount", 1);
      jsonJsonWorkerPoolSpec0.add("machineSpec", jsonMachineSpec);
      jsonJsonWorkerPoolSpec0.add("containerSpec", jsonContainerSpec);

      JsonArray jsonWorkerPoolSpecs = new JsonArray();
      jsonWorkerPoolSpecs.add(jsonJsonWorkerPoolSpec0);

      JsonObject jsonBaseOutputDirectory = new JsonObject();
      // The GCS location for outputs must be accessible by the project's AI Platform
      // service account.
      jsonBaseOutputDirectory.addProperty("output_uri_prefix", baseOutputDirectoryPrefix);

      JsonObject jsonTrainingTaskInputs = new JsonObject();
      jsonTrainingTaskInputs.add("workerPoolSpecs", jsonWorkerPoolSpecs);
      jsonTrainingTaskInputs.add("baseOutputDirectory", jsonBaseOutputDirectory);

      Value.Builder trainingTaskInputsBuilder = Value.newBuilder();
      JsonFormat.parser().merge(jsonTrainingTaskInputs.toString(), trainingTaskInputsBuilder);
      Value trainingTaskInputs = trainingTaskInputsBuilder.build();
      String trainingTaskDefinition =
          "gs://google-cloud-aiplatform/schema/trainingjob/definition/custom_task_1.0.0.yaml";
      String imageUri = "gcr.io/cloud-aiplatform/prediction/tf-cpu.1-15:latest";
      ModelContainerSpec containerSpec =
          ModelContainerSpec.newBuilder().setImageUri(imageUri).build();
      Model modelToUpload =
          Model.newBuilder()
              .setDisplayName(modelDisplayName)
              .setContainerSpec(containerSpec)
              .build();
      TrainingPipeline trainingPipeline =
          TrainingPipeline.newBuilder()
              .setDisplayName(displayName)
              .setTrainingTaskDefinition(trainingTaskDefinition)
              .setTrainingTaskInputs(trainingTaskInputs)
              .setModelToUpload(modelToUpload)
              .build();
      LocationName parent = LocationName.of(project, location);
      TrainingPipeline response = client.createTrainingPipeline(parent, trainingPipeline);
      System.out.format("response: %s\n", response);
      System.out.format("Name: %s\n", response.getName());
    }
  }
}

Vertex AI SDK for Python

Vertex AI SDK for Python のインストールまたは更新の方法については、Vertex AI SDK for Python をインストールするをご覧ください。詳細については、Vertex AI SDK for Python API のリファレンスドキュメントをご覧ください。

次の例では、Vertex AI SDK for Python を使用してカスタムトレーニングパイプラインを作成する方法を示します。トレーニングにカスタムコンテナを使用するか、ビルド済みのコンテナを使用するかを選択します。

ビルド済みコンテナ

Vertex AI SDK for Python を使用して、ビルド済みのコンテナで Python コードを実行するトレーニングパイプラインを作成する場合は、次のいずれかの方法でトレーニングコードを提供できます。

Cloud Storage の Python ソース配布パッケージの URI を指定します。

（このオプションは、Vertex AI SDK for Python を使用せずにトレーニングパイプラインを作成する場合にも使用できます）。
ローカルマシン上の Python スクリプトへのパスを指定します。トレーニングパイプラインを作成する前に、Vertex AI SDK for Python がスクリプトをソースディストリビューションとしてパッケージ化し、選択した Cloud Storage バケットにアップロードします。

（このオプションは、Vertex AI SDK for Python を使用している場合にのみ使用できます）。

各オプションのコードサンプルを確認するには、対応するタブを選択してください。

パッケージ

次のサンプルでは、CustomPythonPackageTrainingJob クラスを使用しています。

def create_training_pipeline_custom_package_job_sample(
    project: str,
    location: str,
    staging_bucket: str,
    display_name: str,
    python_package_gcs_uri: str,
    python_module_name: str,
    container_uri: str,
    model_serving_container_image_uri: str,
    dataset_id: Optional[str] = None,
    model_display_name: Optional[str] = None,
    args: Optional[List[Union[str, float, int]]] = None,
    replica_count: int = 1,
    machine_type: str = "n1-standard-4",
    accelerator_type: str = "ACCELERATOR_TYPE_UNSPECIFIED",
    accelerator_count: int = 0,
    training_fraction_split: float = 0.8,
    validation_fraction_split: float = 0.1,
    test_fraction_split: float = 0.1,
    sync: bool = True,
    tensorboard_resource_name: Optional[str] = None,
    service_account: Optional[str] = None,
):
    aiplatform.init(project=project, location=location, staging_bucket=staging_bucket)

    job = aiplatform.CustomPythonPackageTrainingJob(
        display_name=display_name,
        python_package_gcs_uri=python_package_gcs_uri,
        python_module_name=python_module_name,
        container_uri=container_uri,
        model_serving_container_image_uri=model_serving_container_image_uri,
    )

    # This example uses an ImageDataset, but you can use another type
    dataset = aiplatform.ImageDataset(dataset_id) if dataset_id else None

    model = job.run(
        dataset=dataset,
        model_display_name=model_display_name,
        args=args,
        replica_count=replica_count,
        machine_type=machine_type,
        accelerator_type=accelerator_type,
        accelerator_count=accelerator_count,
        training_fraction_split=training_fraction_split,
        validation_fraction_split=validation_fraction_split,
        test_fraction_split=test_fraction_split,
        sync=sync,
        tensorboard=tensorboard_resource_name,
        service_account=service_account,
    )

    model.wait()

    print(model.display_name)
    print(model.resource_name)
    print(model.uri)
    return model

スクリプト

次のサンプルでは、CustomTrainingJob クラスを使用しています。

def create_training_pipeline_custom_job_sample(
    project: str,
    location: str,
    staging_bucket: str,
    display_name: str,
    script_path: str,
    container_uri: str,
    model_serving_container_image_uri: str,
    dataset_id: Optional[str] = None,
    model_display_name: Optional[str] = None,
    args: Optional[List[Union[str, float, int]]] = None,
    replica_count: int = 0,
    machine_type: str = "n1-standard-4",
    accelerator_type: str = "ACCELERATOR_TYPE_UNSPECIFIED",
    accelerator_count: int = 0,
    training_fraction_split: float = 0.8,
    validation_fraction_split: float = 0.1,
    test_fraction_split: float = 0.1,
    sync: bool = True,
    tensorboard_resource_name: Optional[str] = None,
    service_account: Optional[str] = None,
):
    aiplatform.init(project=project, location=location, staging_bucket=staging_bucket)

    job = aiplatform.CustomTrainingJob(
        display_name=display_name,
        script_path=script_path,
        container_uri=container_uri,
        model_serving_container_image_uri=model_serving_container_image_uri,
    )

    # This example uses an ImageDataset, but you can use another type
    dataset = aiplatform.ImageDataset(dataset_id) if dataset_id else None

    model = job.run(
        dataset=dataset,
        model_display_name=model_display_name,
        args=args,
        replica_count=replica_count,
        machine_type=machine_type,
        accelerator_type=accelerator_type,
        accelerator_count=accelerator_count,
        training_fraction_split=training_fraction_split,
        validation_fraction_split=validation_fraction_split,
        test_fraction_split=test_fraction_split,
        sync=sync,
        tensorboard=tensorboard_resource_name,
        service_account=service_account,
    )

    model.wait()

    print(model.display_name)
    print(model.resource_name)
    print(model.uri)
    return model

カスタムコンテナ

次のサンプルでは、CustomContainerTrainingJob クラスを使用しています。

def create_training_pipeline_custom_container_job_sample(
    project: str,
    location: str,
    staging_bucket: str,
    display_name: str,
    container_uri: str,
    model_serving_container_image_uri: str,
    dataset_id: Optional[str] = None,
    model_display_name: Optional[str] = None,
    args: Optional[List[Union[str, float, int]]] = None,
    replica_count: int = 1,
    machine_type: str = "n1-standard-4",
    accelerator_type: str = "ACCELERATOR_TYPE_UNSPECIFIED",
    accelerator_count: int = 0,
    training_fraction_split: float = 0.8,
    validation_fraction_split: float = 0.1,
    test_fraction_split: float = 0.1,
    sync: bool = True,
    tensorboard_resource_name: Optional[str] = None,
    service_account: Optional[str] = None,
):
    aiplatform.init(project=project, location=location, staging_bucket=staging_bucket)

    job = aiplatform.CustomContainerTrainingJob(
        display_name=display_name,
        container_uri=container_uri,
        model_serving_container_image_uri=model_serving_container_image_uri,
    )

    # This example uses an ImageDataset, but you can use another type
    dataset = aiplatform.ImageDataset(dataset_id) if dataset_id else None

    model = job.run(
        dataset=dataset,
        model_display_name=model_display_name,
        args=args,
        replica_count=replica_count,
        machine_type=machine_type,
        accelerator_type=accelerator_type,
        accelerator_count=accelerator_count,
        training_fraction_split=training_fraction_split,
        validation_fraction_split=validation_fraction_split,
        test_fraction_split=test_fraction_split,
        sync=sync,
        tensorboard=tensorboard_resource_name,
        service_account=service_account,
    )

    model.wait()

    print(model.display_name)
    print(model.resource_name)
    print(model.uri)
    return model

ハイパーパラメータ調整ジョブとモデルのアップロード

このトレーニングパイプラインでは、追加された便利な手順によりハイパーパラメータ調整ジョブがカプセル化されます。これにより、トレーニング後にモデルを Vertex AI に簡単にデプロイできます。このトレーニングパイプラインは、次の 2 つの主要な処理を行います。

トレーニングパイプラインは、ハイパーパラメータ調整ジョブのリソースを作成します。ハイパーパラメータ調整ジョブは複数のトライアルを作成します。トライアルごとに、カスタムジョブは、指定したコンピューティングリソースとハイパーパラメータを使用してトレーニングアプリケーションを実行します。
ハイパーパラメータ調整ジョブが完了すると、トレーニングパイプラインにより、Cloud Storage バケットに指定した出力ディレクトリ（baseOutputDirectory）内で、最適なトライアルからモデルアーティファクトが検出されます。トレーニングパイプラインは、これらのアーティファクトを使用して、モデルのデプロイ用に設定するモデルリソースを作成します。

このトレーニングパイプラインでは、Vertex AI が最適なトライアルからモデルアーティファクトを検索する baseOutputDirectory を指定する必要があります。

ハイパーパラメータ調整ジョブを構成するには、追加の設定があります。詳しくは、HyperparameterTuningJob の設定についての説明をご覧ください。

REST

次のコードサンプルを使用して、trainingPipeline リソースの create メソッドを使用してトレーニングパイプラインを作成します。

リクエストのデータを使用する前に、次のように置き換えます。

LOCATION_ID: プロジェクトのリージョン。
PROJECT_ID: 実際のプロジェクト ID。
TRAINING_PIPELINE_NAME: 必須。trainingPipeline の表示名。
トレーニングアプリケーションで Vertex AI データセットを使用する場合は、以下を指定します。
- DATASET_ID: データセットの ID。
- ANNOTATIONS_FILTER: 指定したアノテーションでデータセットをフィルタします。
- ANNOTATION_SCHEMA_URI: 指定したアノテーションスキーマ URI でデータセットをフィルタします。
- 次のいずれかのオプションを使用して、データ項目をトレーニングセット、検証セット、テストセットに分割する方法を指定します。
  - 各セットのサイズを定義する割合に基づいてデータセットを分割するには、以下を指定します。
    - TRAINING_FRACTION: モデルのトレーニングに使用するデータセットの割合。
    - VALIDATION_FRACTION: モデルの検証に使用するデータセットの割合。
    - TEST_FRACTION: モデルの評価に使用するデータセットの割合。
  - フィルタに基づいてデータセットを分割するには、次のように指定します。
    - TRAINING_FILTER: モデルのトレーニングに使用するデータ項目にデータセットをフィルタします。
    - VALIDATION_FILTER: モデルの検証に使用するデータ項目にデータセットをフィルタします。
    - TEST_FILTER: モデルの評価に使用するデータ項目にデータセットをフィルタします。
  - 事前定義された分割を使用するには、次のように指定します。
    - PREDEFINED_SPLIT_KEY: データセットの分割に使用する列の名前。この列に指定できる値は、「training」、「validation」、「test」です。
  - dataitems のタイムスタンプに基づいてデータセットを分割するには、次のように指定します。
    - TIMESTAMP_TRAINING_FRACTION: モデルのトレーニングに使用するデータセットの割合。
    - TIMESTAMP_VALIDATION_FRACTION: モデルの検証に使用するデータセットの割合。
    - TIMESTAMP_TEST_FRACTION: モデルの評価に使用するデータセットの割合。
    - TIMESTAMP_SPLIT_KEY: データセットの分割に使用するタイムスタンプ列の名前。
- OUTPUT_URI_PREFIX: Vertex AI でトレーニングデータセットがトレーニングセット、検証セット、テストセットに分割された後にエクスポートされる Cloud Storage 上のロケーション。
ハイパーパラメータ調整ジョブを指定します。
- 次のように指標を指定します。
  - METRIC_ID: この指標の名前。
  - METRIC_GOAL: この指標の目標。MAXIMIZE または MINIMIZE です。
- ハイパーパラメータを指定します。
  - PARAMETER_ID: このハイパーパラメータの名前。
  - PARAMETER_SCALE: 省略可。パラメータのスケーリング方法。CATEGORICAL パラメータには設定しないでください。UNIT_LINEAR_SCALE、UNIT_LOG_SCALE、UNIT_REVERSE_LOG_SCALE または SCALE_TYPE_UNSPECIFIED のいずれかです。
  - このハイパーパラメータのタイプが DOUBLE の場合は、このハイパーパラメータの最小値（DOUBLE_MIN_VALUE）と最大値（DOUBLE_MAX_VALUE）を指定します。
  - このハイパーパラメータのタイプが INTEGER の場合は、このハイパーパラメータの最小値（INTEGER_MIN_VALUE）と最大値（INTEGER_MAX_VALUE）を指定します。
  - このハイパーパラメータのタイプが CATEGORICAL の場合は、許容値（CATEGORICAL_VALUES）を文字列の配列として指定します。
  - このハイパーパラメータのタイプが DISCRETE の場合は、許容値（DISCRETE_VALUES）を数値の配列として指定します。
- ALGORITHM: 省略可。このハイパーパラメータ調整ジョブで使用する検索アルゴリズム。ALGORITHM_UNSPECIFIED、GRID_SEARCH または RANDOM_SEARCH のいずれかです。
- MAX_TRIAL_COUNT: このジョブで実行するトライアルの最大数。
- PARALLEL_TRIAL_COUNT: 並列実行できるトライアルの最大数。
- MAX_FAILED_TRIAL_COUNT: ハイパーパラメータ調整ジョブが失敗する前に失敗する可能性があるジョブの数。
- トライアルのカスタムトレーニングジョブを定義します。
  - MACHINE_TYPE: マシンのタイプ。トレーニングで使用可能なマシンタイプをご覧ください。
  - ACCELERATOR_TYPE: 省略可。各トライアルに接続するアクセラレータのタイプ。
  - ACCELERATOR_COUNT: 省略可。各トライアルに接続するアクセラレータの数。
  - REPLICA_COUNT: 各トライアルで使用するワーカーレプリカの数。
  - トレーニングアプリケーションがカスタムコンテナで実行される場合は、次のように指定します。
    - CUSTOM_CONTAINER_IMAGE_URI: 各ワーカーレプリカで実行される Artifact Registry または Docker Hub 内のコンテナイメージの URI。
    - CUSTOM_CONTAINER_COMMAND: 省略可。コンテナの起動時に呼び出されるコマンド。このコマンドは、コンテナのデフォルトのエントリポイントをオーバーライドします。
    - CUSTOM_CONTAINER_ARGS: 省略可。コンテナの起動時に渡される引数。
  - トレーニングアプリケーションがビルド済みのコンテナで実行される Python パッケージの場合は、以下を指定します。
    - PYTHON_PACKAGE_EXECUTOR_IMAGE_URI: 提供された Python パッケージを実行するコンテナイメージの URI。トレーニングに使用可能なビルド済みのコンテナをご確認ください。
    - PYTHON_PACKAGE_URIS: トレーニングプログラムとその依存パッケージである Python パッケージファイルの Cloud Storage 上のロケーション。パッケージ URI の最大数は 100 です。
    - PYTHON_MODULE: パッケージのインストール後に実行する Python モジュール名。
    - PYTHON_PACKAGE_ARGS: 省略可。Python モジュールに渡すコマンドライン引数。
- ジョブスケジュールオプションをご覧ください。
- TIMEOUT: 省略可。トライアルごとの最大実行時間。
- このハイパーパラメータ調整ジョブに適用するラベルの LABEL_NAME と LABEL_VALUE を指定します。
MODEL_NAME: TrainingPipeline によってアップロード（作成）されたモデルの表示名。
MODEL_DESCRIPTION: 省略可。モデルの説明。
PREDICTION_IMAGE_URI: 必須。次の 2 つのオプションのいずれかを指定します。
- 予測に使用するビルド済みのコンテナのイメージ URI（「tf2-cpu.2-1:latest」など）。
- 独自の予測に使用するカスタムコンテナのイメージ URI。
modelToUpload.labels: 省略可。モデルを整理するための任意の Key-Value ペア。例:
- "env": "prod"
- "tier": "backend"
このトレーニングパイプラインに適用するラベルの LABEL_NAME と LABEL_VALUE を指定します。

HTTP メソッドと URL:

POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/trainingPipelines

リクエストの本文（JSON）:

{
  "displayName": "TRAINING_PIPELINE_NAME",
  "inputDataConfig": {
    "datasetId": DATASET_ID,
    "annotationsFilter": ANNOTATIONS_FILTER,
    "annotationSchemaUri": ANNOTATION_SCHEMA_URI,

    // Union field split can be only one of the following:
    "fractionSplit": {
      "trainingFraction": TRAINING_FRACTION,
      "validationFraction": VALIDATION_FRACTION,
      "testFraction": TEST_FRACTION
    },
    "filterSplit": {
      "trainingFilter": TRAINING_FILTER,
      "validationFilter": VALIDATION_FILTER,
      "testFilter": TEST_FILTER
    },
    "predefinedSplit": {
      "key": PREDEFINED_SPLIT_KEY
    },
    "timestampSplit": {
      "trainingFraction": TIMESTAMP_TRAINING_FRACTION,
      "validationFraction": TIMESTAMP_VALIDATION_FRACTION,
      "testFraction": TIMESTAMP_TEST_FRACTION,
      "key": TIMESTAMP_SPLIT_KEY
    }
    // End of list of possible types for union field split.
    "gcsDestination": {
      "outputUriPrefix": OUTPUT_URI_PREFIX
    }
  },
  "trainingTaskDefinition": "gs://google-cloud-aiplatform/schema/trainingjob/definition/hyperparameter_tuning_task_1.0.0.yaml",
  "trainingTaskInputs": {
    "studySpec": {
    "metrics": [
      {
        "metricId": METRIC_ID,
        "goal": METRIC_GOAL
      }
    ],
    "parameters": [
      {
        "parameterId": PARAMETER_ID,
        "scaleType": PARAMETER_SCALE,

        // Union field parameter_value_spec can be only one of the following:
        "doubleValueSpec": {
            "minValue": DOUBLE_MIN_VALUE,
            "maxValue": DOUBLE_MAX_VALUE
        },
        "integerValueSpec": {
            "minValue": INTEGER_MIN_VALUE,
            "maxValue": INTEGER_MAX_VALUE
        },
        "categoricalValueSpec": {
            "values": [
              CATEGORICAL_VALUES
            ]
        },
        "discreteValueSpec": {
            "values": [
              DISCRETE_VALUES
            ]
        }
        // End of list of possible types for union field parameter_value_spec.
      }
    ],
    "ALGORITHM": ALGORITHM
  },
  "maxTrialCount": MAX_TRIAL_COUNT,
  "parallelTrialCount": PARALLEL_TRIAL_COUNT,
  "maxFailedTrialCount": MAX_FAILED_TRIAL_COUNT,
  "trialJobSpec": {
      "workerPoolSpecs": [
        {
          "machineSpec": {
            "machineType": MACHINE_TYPE,
            "acceleratorType": ACCELERATOR_TYPE,
            "acceleratorCount": ACCELERATOR_COUNT
          },
          "replicaCount": REPLICA_COUNT,

          // Union field task can be only one of the following:
          "containerSpec": {
            "imageUri": CUSTOM_CONTAINER_IMAGE_URI,
            "command": [
              CUSTOM_CONTAINER_COMMAND
            ],
            "args": [
              CUSTOM_CONTAINER_ARGS
            ]
          },
          "pythonPackageSpec": {
            "executorImageUri": PYTHON_PACKAGE_EXECUTOR_IMAGE_URI,
            "packageUris": [
              PYTHON_PACKAGE_URIS
            ],
            "pythonModule": PYTHON_MODULE,
            "args": [
              PYTHON_PACKAGE_ARGS
            ]
          }
          // End of list of possible types for union field task.
        }
      ],
      "scheduling": {
        "TIMEOUT": TIMEOUT
      }
    },
    "labels": {
      LABEL_NAME_1": LABEL_VALUE_1,
      LABEL_NAME_2": LABEL_VALUE_2
    }
  },
  "modelToUpload": {
    "displayName": "MODEL_NAME",
    "description": "MODEL_DESCRIPTION",
    "predictSchemata": {},
    "containerSpec": {
      "imageUri": "PREDICTION_IMAGE_URI"
    }
  },
  "labels": {
    LABEL_NAME_1": LABEL_VALUE_1,
    LABEL_NAME_2": LABEL_VALUE_2
  }
}

リクエストを送信するには、次のいずれかのオプションを選択します。

curl

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/trainingPipelines"

PowerShell

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/trainingPipelines" | Select-Object -Expand Content

レスポンスには、仕様と TRAININGPIPELINE_ID に関する情報が含まれています。

レスポンス


{
  "name": "projects/PROJECT_ID/locations/LOCATION_ID/trainingPipelines/TRAININGPIPELINE_ID",
  "displayName": "TRAINING_PIPELINE_NAME",
  "input_data_config" {
    "dataset_id": "1234567891011121314"
    "gcs_destination" {
      "output_uri_prefix": "gs://BUCKET_NAME/data/20200915191342"
    }
    "annotation_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/annotation/image_classification_1.0.0.yaml"
  },
  "trainingTaskDefinition": "gs://google-cloud-aiplatform/schema/trainingjob/definition/custom_task_1.0.0.yaml",
  "trainingTaskInputs": {
    "name": "projects/12345/locations/us-central1/hyperparameterTuningJobs/6789",
  "displayName": "myHyperparameterTuningJob",
  "studySpec": {
    "metrics": [
      {
        "metricId": "myMetric",
        "goal": "MINIMIZE"
      }
    ],
    "parameters": [
      {
        "parameterId": "myParameter1",
        "integerValueSpec": {
          "minValue": "1",
          "maxValue": "128"
        },
        "scaleType": "UNIT_LINEAR_SCALE"
      },
      {
        "parameterId": "myParameter2",
        "doubleValueSpec": {
          "minValue": 1e-07,
          "maxValue": 1
        },
        "scaleType": "UNIT_LINEAR_SCALE"
      }
    ],
    "ALGORITHM": "RANDOM_SEARCH"
  },
  "maxTrialCount": 20,
  "parallelTrialCount": 1,
  "trialJobSpec": {
    "workerPoolSpecs": [
      {
        "machineSpec": {
          "machineType": "n1-standard-4"
        },
        "replicaCount": "1",
        "pythonPackageSpec": {
          "executorImageUri": "us-docker.pkg.dev/vertex-ai/training/training-tf-cpu.2-1:latest",
          "packageUris": [
            "gs://my-bucket/my-training-application/trainer.tar.bz2"
          ],
          "pythonModule": "my-trainer.trainer"
        }
      }
    ]
  },
  "state": "PIPELINE_STATE_PENDING",
  "createTime": "2020-09-15T19:09:54.342080Z",
  "startTime": "2020-09-15T19:13:42.991045Z",
}

トレーニングをモニタリングする

トレーニングログを表示する方法は次のとおりです。

Google Cloud コンソールの Vertex AI セクションで、[トレーニング] ページに移動します。

[トレーニング] ページに移動
ジョブの名前をクリックして、[CUSTOM JOB] に移動します。
[ログを表示] をクリックします。

インタラクティブシェルを使用して、トレーニングパイプライアンの実行中にトレーニングコンテナを検査することもできます。

トレーニング済みのモデルを表示する

カスタムトレーニングパイプラインが完了すると、Google Cloud コンソールの [Vertex AI] セクションの [モデル] ページにトレーニング済みモデルが表示されます。

[モデル] ページに移動

次のステップ

Cloud Profiler を使用して、トレーニングパフォーマンスのボトルネックを特定し、モデルをより迅速かつ低コストでトレーニングする方法を学習する。
モデルをエンドポイントにデプロイする。
ハイパーパラメータチューニングジョブを作成する。
リソースの可用性に基づいてカスタムトレーニングジョブをスケジュールする方法を学習する。

トレーニング パイプラインの作成 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

パイプラインを作成する前に

トレーニング パイプラインのオプション

CustomJob の内容

マネージド データセットを使用するようにパイプラインを構成する

分散トレーニングを構成する

CustomJob とモデルのアップロード

コンソール

REST

curl

PowerShell

レスポンス

Java

Vertex AI SDK for Python

ビルド済みコンテナ

パッケージ

スクリプト

カスタム コンテナ

ハイパーパラメータ調整ジョブとモデルのアップロード

REST

curl

PowerShell

レスポンス

トレーニングをモニタリングする

トレーニング済みのモデルを表示する

次のステップ

トレーニングパイプラインの作成

トレーニングパイプラインのオプション

`CustomJob` の内容

マネージドデータセットを使用するようにパイプラインを構成する

カスタムコンテナ