このページでは、Google Cloud CLI、Vertex AI SDK for Python、REST API を使用して、永続リソースでカスタム トレーニング ジョブを実行する方法について説明します。
通常、カスタム トレーニング ジョブを作成するときは、ジョブが作成して実行するコンピューティング リソースを指定する必要があります。永続リソースを作成した後では、代わりに永続リソースの 1 つ以上のリソースプールで実行するよう、カスタム トレーニング ジョブを構成できます。永続リソースでカスタム トレーニング ジョブを実行すると、コンピューティング リソースの作成に必要なジョブの起動時間が大幅に短縮されます。
必要なロール
永続リソースに対してカスタム トレーニング ジョブを実行するために必要な権限を取得するには、プロジェクトに対する Vertex AI ユーザー(roles/aiplatform.user
)IAM ロールの権限の付与を管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
この事前定義ロールには、 aiplatform.customJobs.create
権限が含まれています。この権限は、永続リソースに対してカスタム トレーニング ジョブを実行する場合に必要です。
カスタムロールや他の事前定義ロールを使用して、この権限を取得することもできます。
永続リソースで実行するトレーニング ジョブを作成する
永続リソースで実行するカスタム トレーニング ジョブを作成するには、カスタム トレーニング ジョブの作成の標準手順に次の変更を加えます。
gcloud
--persistent-resource-id
フラグを指定し、使用する永続リソースの ID(PERSISTENT_RESOURCE_ID)をその値に設定します。machine-type
とdisk-type
の値が永続リソースの対応するリソースプールと完全に一致するように、--worker-pool-spec
フラグを指定します。単一ノード トレーニングの場合は 1 つの--worker-pool-spec
を指定し、分散トレーニングの場合は複数指定します。- 対応するリソースプールの
replica-count
またはmax-replica-count
以下のreplica-count
を指定します。
Python
Vertex AI SDK for Python のインストールまたは更新の方法については、Vertex AI SDK for Python をインストールするをご覧ください。 詳細については、Python API リファレンス ドキュメントをご覧ください。
REST
persistent_resource_id
パラメータを指定し、使用する永続リソースの ID(PERSISTENT_RESOURCE_ID)をその値に設定します。- 各リソースプールの
machine_spec
とdisk_spec
の値が、永続リソースの対応するリソースプールと完全に一致するように、worker_pool_specs
パラメータを指定します。単一ノード トレーニングの場合は 1 つのmachine_spec
を指定し、分散トレーニングの場合は複数指定します。 - 対応するリソースプールの
replica_count
またはmax_replica_count
以下のreplica_count
を指定します。ただし、そのリソースプールで実行されている他のジョブのレプリカ数を除きます。