Esta página se ha traducido con Cloud Translation API.

Roles de gestión de identidades y accesos e identidades de Dataproc en GKE

Identidad del plano de datos

Dataproc en GKE usa Identidad de carga de trabajo de GKE para permitir que los pods del clúster de Dataproc en GKE actúen con la autoridad de la cuenta de servicio de VM de Dataproc predeterminada (identidad del plano de datos). Identidad de carga de trabajo requiere los siguientes permisos para actualizar las políticas de gestión de identidades y accesos en la cuenta de servicio de Google que usa tu clúster virtual de Dataproc en GKE:

compute.projects.get
iam.serviceAccounts.getIamPolicy
iam.serviceAccounts.setIamPolicy

Workload Identity de GKE vincula las siguientes cuentas de servicio de GKE (KSAs) a la cuenta de servicio de la VM de Dataproc:

agent KSA (interactúa con el plano de control de Dataproc):
serviceAccount:${PROJECT}.svc.id.goog[${DPGKE_NAMESPACE}/agent]
spark-driver KSA (ejecuta controladores de Spark):
serviceAccount:${PROJECT}.svc.id.goog[${DPGKE_NAMESPACE}/spark-driver]
spark-executor KSA (ejecuta ejecutores de Spark):
serviceAccount:${PROJECT}.svc.id.goog[${DPGKE_NAMESPACE}/spark-executor]

Usa la marca gcloud dataproc clusters gke create --setup-workload-identity cuando crees un clúster de Dataproc en GKE para crear los enlaces de identidad de carga de trabajo necesarios para el clúster.

Asignar roles

Concede permisos a la cuenta de servicio de la VM de Dataproc para permitir que spark-driver y spark-executor accedan a los recursos del proyecto, las fuentes de datos, los receptores de datos y cualquier otro servicio que necesite tu carga de trabajo.

Ejemplo:

El siguiente comando asigna roles a la cuenta de servicio de VM de Dataproc predeterminada para permitir que las cargas de trabajo de Spark que se ejecutan en las VMs del clúster de Dataproc en GKE accedan a los cubos de Cloud Storage y a los conjuntos de datos de BigQuery del proyecto.

gcloud projects add-iam-policy-binding \
    --role=roles/storage.objectAdmin \
    --role=roles/bigquery.dataEditor \
    --member="project-number-compute@developer.gserviceaccount.com" \
    "${PROJECT}"

Configuración de gestión de identidades y accesos personalizada

Dataproc en GKE usa Workload Identity de GKE para vincular la cuenta de servicio de VM de Dataproc predeterminada (identidad del plano de datos) a las tres cuentas de servicio de GKE (KSAs).

Para crear y usar otra cuenta de servicio de Google (GSA) para vincularla a las KSAs, sigue estos pasos:

Crea la cuenta de servicio de Google (consulta Crear y gestionar cuentas de servicio).

Ejemplo de la CLI gcloud:
```
gcloud iam service-accounts create "dataproc-${USER}" \
    --description "Used by Dataproc on GKE workloads."
```
Notas:
- En el ejemplo, se asigna el nombre "dataproc-${USER}" a la cuenta de servicio de Google, pero puedes usar otro nombre.
Define las variables de entorno:
```
PROJECT=project-id \
  DPGKE_GSA="dataproc-${USER}@${PROJECT}.iam.gserviceaccount.com"
  DPGKE_NAMESPACE=GKE namespace
```
Notas:
- DPGKE_GSA: en los ejemplos se define y se usa DPGKE_GSA como nombre de la variable que contiene la dirección de correo de tu GSA. Puedes definir y usar otro nombre de variable.
- DPGKE_NAMESPACE: El espacio de nombres de GKE predeterminado es el nombre de tu clúster de Dataproc en GKE.

Cuando cree el clúster de Dataproc en GKE, añada las siguientes propiedades para que Dataproc use su cuenta de servicio de Google en lugar de la predeterminada:

--properties "dataproc:dataproc.gke.agent.google-service-account=${DPGKE_GSA}" \
--properties "dataproc:dataproc.gke.spark.driver.google-service-account=${DPGKE_GSA}" \
--properties "dataproc:dataproc.gke.spark.executor.google-service-account=${DPGKE_GSA}" \

Run the following commands to assign necessary Workload Identity permissions to the service accounts:

Assign your GSA the dataproc.worker role to allow it to act as agent:

gcloud projects add-iam-policy-binding \
    --role=roles/dataproc.worker \
    --member="serviceAccount:${DPGKE_GSA}" \
    "${PROJECT}"

Asigna el rol agent iam.workloadIdentityUser a la KSA para que pueda actuar como tu GSA:

gcloud iam service-accounts add-iam-policy-binding \
    --role=roles/iam.workloadIdentityUser \
    --member="serviceAccount:${PROJECT}.svc.id.goog[${DPGKE_NAMESPACE}/agent]" \
    "${DPGKE_GSA}"

Concede el rol iam.workloadIdentityUser a la spark-driver para que pueda actuar como tu GSA:

gcloud iam service-accounts add-iam-policy-binding \
    --role=roles/iam.workloadIdentityUser \
    --member="serviceAccount:${PROJECT}.svc.id.goog[${DPGKE_NAMESPACE}/spark-driver]" \
    "${DPGKE_GSA}"

Concede el rol iam.workloadIdentityUser a la spark-executor para que pueda actuar como tu GSA:

gcloud iam service-accounts add-iam-policy-binding \
    --role=roles/iam.workloadIdentityUser \
    --member="serviceAccount:${PROJECT}.svc.id.goog[${DPGKE_NAMESPACE}/spark-executor]" \
    "${DPGKE_GSA}"

Roles de gestión de identidades y accesos e identidades de Dataproc en GKE Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Identidad del plano de datos

Asignar roles

Configuración de gestión de identidades y accesos personalizada

Roles de gestión de identidades y accesos e identidades de Dataproc en GKE