コンピューティングプロファイルを管理する

コンピューティングプロファイルは、パイプラインを実行する方法と場所を指定します。パイプラインの物理的な実行環境の設定と削除に必要な情報をカプセル化します。コンピューティングプロファイルには、プロビジョナー名とそのプロビジョナーの構成設定を指定します。

各コンピューティングプロファイルには、システムまたはユーザーのスコープがあります。システムコンピューティングプロファイルは、その下の任意の名前空間に使用できます。ユーザーコンピューティングプロファイルは名前空間内に存在し、その名前空間内のパイプラインのみがユーザーコンピューティングプロファイルを使用できます。コンピューティングプロファイルはバッチパイプラインに割り当てることができます。コンピューティングプロファイルがパイプラインに割り当てられると、プロファイルで指定されたプロビジョナーを使用して、パイプラインを実行するクラスタが作成されます。

たとえば、管理者は小、中、大のコンピューティングプロファイルを作成できます。各プロファイルは、会社の Google Cloud アカウントで Dataproc クラスタを作成および削除するために必要な Google Cloud 認証情報を使用して構成します。

小規模なプロファイルは、5 ノードクラスタを作成するように構成されています。
中規模なプロファイルは、20 ノードクラスタを作成するように構成されています。
大規模なプロファイルは、50 ノードクラスタを作成するように構成されています。

管理者は、少量のデータに対して 1 時間ごとに実行されるスケジュール設定されたパイプラインに小規模なプロファイルを割り当てます。管理者は、大量のデータに対して毎日実行されるスケジュール設定されたパイプラインに大規模なプロファイルを割り当てます。

デフォルトのコンピューティングプロファイル

デフォルトでは、Cloud Data Fusion はコンピューティングプロファイルとして Autoscale を使用します。ワークロードに対するクラスタワーカー（ノード）の適切数を見積もることは困難であり、パイプライン全体で単一のクラスタサイズを使用することは多くの場合、理想的ではありません。Dataproc の自動スケーリングは、クラスタリソースの管理を自動化するメカニズムを提供して、クラスタワーカー VM の自動スケーリングを実現します。詳細については、自動スケーリングをご覧ください。

プロファイルのリストが表示されているアプリケーションの [コンピューティング構成] ページに、[合計コア数] 列があります。この列には、プロファイルのスケールアップが可能な最大 vCPU（例: Up to 84）が表示されています。

システムとユーザーのコンピューティングプロファイル

コンピューティングプロファイルは、クラスタの作成時に使用するプロビジョナーを示し、クラスタ構成を指定します。また、クラスタの作成時に使用するプロビジョナー構成も指定します。

システムコンピューティングプロファイルを作成するには、Cloud Data Fusion Studio の [システム管理] ページに移動します。このページには、すべてのシステムコンピューティングプロファイルが一覧表示され、新しいシステムコンピューティングプロファイルを作成できます。
ユーザーコンピューティングプロファイルを作成するには、Cloud Data Fusion Studio の [名前空間の管理] ページに移動し、プロファイルを作成する名前空間を選択します。その後、その名前空間内にのみ存在するプロファイルを作成できます。

コンピューティングプロファイルの割り当て

コンピューティングプロファイルをバッチパイプラインに割り当てる方法は次のとおりです。

Cloud Data Fusion インスタンスのデフォルトプロファイルを割り当てます。
特定の名前空間にデフォルトプロファイルを割り当てます。
手動で開始する実行に使用するプロファイルをバッチパイプラインに割り当てます。
パイプラインスケジュールにプロファイルを割り当てます。

実行をトリガーするスケジュールでプロファイルが設定されている場合、またはパイプラインを手動で実行し、そのパイプラインにプロファイルが割り当てられている場合、Cloud Data Fusion はそのコンピューティングプロファイルを使用します。

プロファイルが設定されていない場合、Cloud Data Fusion は名前空間のデフォルトプロファイルを使用します。名前空間にデフォルトプロファイルが設定されていない場合、

Cloud Data Fusion はシステムのデフォルトプロファイルを使用します。システムのデフォルトが設定されていない場合は、組み込みプロファイルが使用されます。

デフォルトのコンピューティングプロファイルを割り当てる

Cloud Data Fusion の名前空間またはインスタンスにデフォルトプロファイルを割り当てるには、Cloud Data Fusion Studio に移動し、[システム管理] > [構成] > [システムコンピューティングプロファイル] をクリックします。デフォルトを選択するには、プロファイル名の横にあるスターをクリックします。

省略可: 設定マイクロサービスを使用してデフォルトプロファイルを設定する

デフォルトプロファイルを設定するには、キー system.profile.name と値 system:<profile-name> を使用して Cloud Data Fusion インスタンスで設定を設定します。
名前空間のデフォルトプロファイルを設定するには、選択した名前空間にキー system.profile.name と値 <scope>:<profile-name> を使用して設定を設定します。

手動実行用のコンピューティングプロファイルを割り当てる

手動パイプラインの実行に使用するプロファイルを割り当てる手順は次のとおりです。

[パイプラインの詳細] ページに移動します。
[構成] > [コンピューティング構成] をクリックします。
プロファイルを選択して [保存] をクリックします。選択したプロファイルは、パイプラインが手動で実行されるたびに使用されます。

また、設定マイクロサービスを使用して、DataPipelineWorkflow エンティティにキー system.profile.name と値 <scope>:<profile-name> を指定して設定することで、手動実行のプロファイルを設定することもできます。

コンピューティングプロファイルをスケジュールに割り当てる

パイプラインのスケジュールを作成するときに、プロファイルを割り当てることができます。スケジュールがパイプラインの実行をトリガーするたびに、そのプロファイルが実行に使用されます。これは、時間のスケジュールと、他のパイプラインがトリガーするスケジュールに当てはまります。

コンピューティングプロファイルの構成をオーバーライドする

プロファイルを作成するときに、各構成設定をロックして不変にすることができます。ただし、構成設定がロックされていない場合、ランタイムでオーバーライドできます。プロファイル構成をオーバーライドする手順は次のとおりです。

[パイプラインのリスト] ページで、実行するデプロイ済みパイプラインを選択します。
[パイプラインの詳細] ページで [構成] をクリックします。
コンピューティングプロファイルを選択して、[カスタマイズ] をクリックします。
設定を変更して、[保存] をクリックします。

ランタイム引数とスケジュールプロパティを使用して、クラスタサイズなどの設定を変更できます。

使用されるプロファイルをオーバーライドするには、キー system.profile.name と値 <scope>:<profile-name> を使用してランタイム引数を設定します。
プロファイルプロパティをオーバーライドするには、キー system.profile.properties.<property-name> と、そのプロパティの値と同じ値を持つランタイム引数を設定します。

たとえば、numWorkerssetting を 10 の値にオーバーライドするには、キー system.profile.properties.numWorkers と値 10 を使用して設定またはランタイム引数を設定します。

次のステップ

Cloud Data Fusion のネットワーキングについて学習する。
Dataproc クラスタの構成の詳細を確認する。

コンピューティング プロファイルを管理する

デフォルトのコンピューティング プロファイル

システムとユーザーのコンピューティング プロファイル

コンピューティング プロファイルの割り当て

デフォルトのコンピューティング プロファイルを割り当てる

省略可: 設定マイクロサービスを使用してデフォルト プロファイルを設定する

手動実行用のコンピューティング プロファイルを割り当てる

コンピューティング プロファイルをスケジュールに割り当てる

コンピューティング プロファイルの構成をオーバーライドする