Dataproc プリンシパル

Dataproc サービスを使用してクラスタを作成し、クラスタでジョブを実行すると、サービスはプロジェクトで必要な Dataproc ロールと権限を設定し、タスクの完了に必要な Google Cloud リソースにアクセスして使用します。ただし、複数のプロジェクトにわたって作業（たとえば、別のプロジェクトのデータにアクセスするなど）を行う場合、プロジェクトをまたぐリソースにアクセスするためのロールと権限を設定する必要があります。

複数のプロジェクトにわたる作業の実現に役立つように、このドキュメントでは、Dataproc サービスを使用するプリンシパルと、 Google Cloud リソースにアクセスして使用するためにプリンシパルが必要とする権限を含むロールを示します。

Dataproc にアクセスして使用するプリンシパル（ID）は 3 つあります。

ユーザー ID
コントロールプレーン ID
データプレーン ID

Dataproc API ユーザー（ユーザー ID）

例: username@example.com

これは、Dataproc サービスを呼び出してクラスタの作成、ジョブの送信、サービスに対する他のリクエストを行うユーザーです。通常、ユーザーは個人ですが、API クライアントや別のGoogle Cloud サービス（Compute Engine、Cloud Run functions、Cloud Composer など）から Dataproc を呼び出す場合にはサービスアカウントにすることもできます。

関連するロール

Dataproc のロール、プロジェクトのロール

注

Dataproc API が送信するジョブは、Linux で root として実行されます。
クラスタの作成時に --metadata=block-project-ssh-keys=true を設定して明示的にブロックしない限り、Dataproc クラスタはプロジェクト全体で Compute Engine SSH メタデータを継承します（クラスタメタデータを参照してください）。
プロジェクトレベルの SSH ユーザーごとに HDFS ユーザーディレクトリが作成されます。これらの HDFS ディレクトリはクラスタのデプロイ時に作成され、新しい（デプロイ後の）SSH ユーザーには、既存のクラスタの HDFS ディレクトリは指定されません。

Dataproc サービスエージェント（コントロールプレーン ID）

例: service-project-number@dataproc-accounts.iam.gserviceaccount.com

Dataproc サービスエージェントサービスアカウントは、Dataproc クラスタが作成されたプロジェクト内のリソースに対して、幅広いシステムオペレーションを実行するために使用されます。たとえば、次の場合に使用されます。

VM インスタンス、インスタンスグループ、インスタンステンプレートなどの Compute Engine リソースの作成
イメージ、ファイアウォール、Dataproc 初期化アクション、Cloud Storage バケットなどのリソースの構成を確認する get と list のオペレーション
Dataproc ステージングバケットと一時バケットの自動作成（ユーザーによってステージングバケットまたは一時バケットが指定されていない場合）
ステージングバケットへのクラスタ構成メタデータの書き込み
ホストプロジェクトの VPC ネットワークへのアクセス

関連するロール

Dataproc サービスエージェント

Dataproc VM サービスアカウント（データプレーン ID）

例: project-number-compute@developer.gserviceaccount.com

アプリケーションコードは、Dataproc VM で VM サービスアカウントとして実行されます。ユーザージョブには、このサービスアカウントのロール（および関連付けられている権限）が付与されます。

VM サービスアカウントは次の処理を行います。

Dataproc コントロールプレーンと通信します。
Dataproc ステージングバケットと一時バケットとの間でデータを読み書きします。
Dataproc ジョブで必要な場合は、Cloud Storage、BigQuery、Cloud Logging、その他の Google Cloud リソースとの間でデータの読み取りと書き込みを行います。

関連するロール

次のステップ

Dataproc のロールと権限について確認する。
Dataproc サービスアカウントの詳細を確認する。
BigQuery アクセス制御を確認する。
Cloud Storage のアクセス制御オプションを確認する。

Dataproc プリンシパル コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

Dataproc API ユーザー（ユーザー ID）

Dataproc サービス エージェント（コントロール プレーン ID）

Dataproc VM サービス アカウント（データプレーン ID）

次のステップ

Dataproc プリンシパル

Dataproc サービスエージェント（コントロールプレーン ID）

Dataproc VM サービスアカウント（データプレーン ID）