コンピューティング プロファイルは、パイプラインを実行する方法と場所を指定します。パイプラインの物理的な実行環境の設定と削除に必要な情報をカプセル化します。コンピューティング プロファイルには、プロビジョナー名とそのプロビジョナーの構成設定を指定します。
各コンピューティング プロファイルには、システムまたはユーザーのスコープがあります。システム コンピューティング プロファイルは、その下の任意の名前空間に使用できます。ユーザー コンピューティング プロファイルは名前空間内に存在し、その名前空間内のパイプラインのみがユーザー コンピューティング プロファイルを使用できます。コンピューティング プロファイルはバッチ パイプラインに割り当てることができます。コンピューティング プロファイルがパイプラインに割り当てられると、プロファイルで指定されたプロビジョナーを使用して、パイプラインを実行するクラスタが作成されます。
たとえば、管理者は小、中、大のコンピューティング プロファイルを作成できます。各プロファイルは、会社の Google Cloud アカウントで Dataproc クラスタを作成および削除するために必要な Google Cloud 認証情報を使用して構成します。
- 小規模なプロファイルは、5 ノードクラスタを作成するように構成されています。
- 中規模なプロファイルは、20 ノードクラスタを作成するように構成されています。
- 大規模なプロファイルは、50 ノードクラスタを作成するように構成されています。
管理者は、少量のデータに対して 1 時間ごとに実行されるスケジュール設定されたパイプラインに小規模なプロファイルを割り当てます。管理者は、大量のデータに対して毎日実行されるスケジュール設定されたパイプラインに大規模なプロファイルを割り当てます。
デフォルトのコンピューティング プロファイル
デフォルトでは、Cloud Data Fusion はコンピューティング プロファイルとして Autoscale を使用します。ワークロードに対するクラスタ ワーカー(ノード)の適切数を見積もることは困難であり、パイプライン全体で単一のクラスタサイズを使用することは多くの場合、理想的ではありません。Dataproc の自動スケーリングは、クラスタ リソースの管理を自動化するメカニズムを提供して、クラスタ ワーカー VM の自動スケーリングを実現します。詳細については、自動スケーリングをご覧ください。
プロファイルのリストが表示されているアプリケーションの [コンピューティング構成] ページに、[合計コア数] 列があります。この列には、プロファイルのスケールアップが可能な最大 vCPU(例: Up to 84
)が表示されています。
システムとユーザーのコンピューティング プロファイル
コンピューティング プロファイルは、クラスタの作成時に使用するプロビジョナーを示し、クラスタ構成を指定します。また、クラスタの作成時に使用するプロビジョナー構成も指定します。
- システム コンピューティング プロファイルを作成するには、Cloud Data Fusion Studio の [システム管理] ページに移動します。このページには、すべてのシステム コンピューティング プロファイルが一覧表示され、新しいシステム コンピューティング プロファイルを作成できます。
- ユーザー コンピューティング プロファイルを作成するには、Cloud Data Fusion Studio の [名前空間の管理] ページに移動し、プロファイルを作成する名前空間を選択します。その後、その名前空間内にのみ存在するプロファイルを作成できます。
コンピューティング プロファイルの割り当て
コンピューティング プロファイルをバッチ パイプラインに割り当てる方法は次のとおりです。
- Cloud Data Fusion インスタンスのデフォルト プロファイルを割り当てます。
- 特定の名前空間にデフォルト プロファイルを割り当てます。
- 手動で開始する実行に使用するプロファイルをバッチ パイプラインに割り当てます。
- パイプライン スケジュールにプロファイルを割り当てます。
実行をトリガーするスケジュールでプロファイルが設定されている場合、またはパイプラインを手動で実行し、そのパイプラインにプロファイルが割り当てられている場合、Cloud Data Fusion はそのコンピューティング プロファイルを使用します。
プロファイルが設定されていない場合、Cloud Data Fusion は名前空間のデフォルト プロファイルを使用します。名前空間にデフォルト プロファイルが設定されていない場合、
Cloud Data Fusion はシステムのデフォルト プロファイルを使用します。システムのデフォルトが設定されていない場合は、組み込みプロファイルが使用されます。
デフォルトのコンピューティング プロファイルを割り当てる
Cloud Data Fusion の名前空間またはインスタンスにデフォルト プロファイルを割り当てるには、Cloud Data Fusion Studio に移動し、[システム管理] > [構成] > [システム コンピューティング プロファイル] をクリックします。デフォルトを選択するには、プロファイル名の横にある スターをクリックします。
省略可: 設定マイクロサービスを使用してデフォルト プロファイルを設定する
- デフォルト プロファイルを設定するには、キー system.profile.name と値
system:<profile-name>
を使用して Cloud Data Fusion インスタンスで設定を設定します。 - 名前空間のデフォルト プロファイルを設定するには、選択した名前空間にキー
system.profile.name
と値<scope>:<profile-name>
を使用して設定を設定します。
手動実行用のコンピューティング プロファイルを割り当てる
手動パイプラインの実行に使用するプロファイルを割り当てる手順は次のとおりです。
- [パイプラインの詳細] ページに移動します。
- [構成] > [コンピューティング構成] をクリックします。
- プロファイルを選択して [保存] をクリックします。選択したプロファイルは、パイプラインが手動で実行されるたびに使用されます。
また、設定マイクロサービスを使用して、DataPipelineWorkflow
エンティティにキー system.profile.name
と値 <scope>:<profile-name>
を指定して設定することで、手動実行のプロファイルを設定することもできます。
コンピューティング プロファイルをスケジュールに割り当てる
パイプラインのスケジュールを作成するときに、プロファイルを割り当てることができます。スケジュールがパイプラインの実行をトリガーするたびに、そのプロファイルが実行に使用されます。これは、時間のスケジュールと、他のパイプラインがトリガーするスケジュールに当てはまります。
コンピューティング プロファイルの構成をオーバーライドする
プロファイルを作成するときに、各構成設定をロックして不変にすることができます。ただし、構成設定がロックされていない場合、ランタイムでオーバーライドできます。プロファイル構成をオーバーライドする手順は次のとおりです。
- [パイプラインのリスト] ページで、実行するデプロイ済みパイプラインを選択します。
- [パイプラインの詳細] ページで [構成] をクリックします。
- コンピューティング プロファイルを選択して、[カスタマイズ] をクリックします。
- 設定を変更して、[保存] をクリックします。
ランタイム引数とスケジュール プロパティを使用して、クラスタサイズなどの設定を変更できます。
- 使用されるプロファイルをオーバーライドするには、キー
system.profile.name
と値<scope>:<profile-name>
を使用してランタイム引数を設定します。 - プロファイル プロパティをオーバーライドするには、キー
system.profile.properties.<property-name>
と、そのプロパティの値と同じ値を持つランタイム引数を設定します。
たとえば、numWorkerssetting
を 10
の値にオーバーライドするには、キー system.profile.properties.numWorkers
と値 10
を使用して設定またはランタイム引数を設定します。
次のステップ
- Cloud Data Fusion のネットワーキングについて学習する。
- Dataproc クラスタの構成の詳細を確認する。