Se usó la API de Cloud Translation para traducir esta página.

Crea una imagen personalizada de Dataproc

Puedes crear un clúster de Dataproc con una imagen personalizada que incluya los paquetes ya instalados. En esta página, se muestra cómo crear una imagen personalizada y, luego, instalarla en un clúster de Dataproc.

Limitaciones y consideraciones de uso

Duración de la imagen personalizada: Para garantizar que los clústeres reciban las últimas actualizaciones de servicio y correcciones de errores, la creación de clústeres con una imagen personalizada se limita a 365 días desde la fecha de creación de la imagen personalizada. Ten en cuenta que los clústeres existentes creados con una imagen personalizada pueden ejecutarse de forma indefinida.

Es posible que debas usar la automatización si deseas crear clústeres con una imagen personalizada específica por un período superior a 365 días. Para obtener más información, consulta Cómo crear un clúster con una imagen personalizada vencida.
Solo para Linux: Las instrucciones de este documento se aplican solo a sistemas operativos de Linux. Es posible que otros sistemas operativos sean compatibles con versiones de Dataproc futuras.
Imágenes base compatibles: Las compilaciones de imágenes personalizadas requieren que se comience desde una imagen base de Dataproc. Se admiten las siguientes imágenes base: Debian, Rocky Linux y Ubuntu.
- Disponibilidad de imágenes base: Las imágenes nuevas anunciadas en las notas de la versión de Dataproc no están disponibles para usarse como base de imágenes personalizadas hasta una semana después de su fecha de anuncio.
Cómo usar componentes opcionales:
- Imágenes base 2.2 y anteriores: De forma predeterminada, todos los componentes opcionales de Dataproc (paquetes y configuraciones del SO) se instalan en la imagen personalizada. Puedes personalizar las versiones y las configuraciones de los paquetes del SO.
- Imágenes base de 2.3 y versiones posteriores: Solo se instalan los componentes opcionales seleccionados en la imagen personalizada (consulta la marca generate_custom_image.py --optional-components).
Independientemente de la imagen base que se use para tu imagen personalizada, cuando crees tu clúster, debes enumerar o seleccionar los componentes opcionales.

Ejemplo: Comando de Google Cloud CLI para crear un clúster:
```
gcloud dataproc clusters create CLUSTER_NAME
    --image=CUSTOM_IMAGE_URI  \
    --optional-components=COMPONENT_NAME \
    ... other flags
```
Si el nombre del componente no se especifica cuando creas el clúster, se borrará el componente opcional, incluidos los paquetes y las configuraciones del SO personalizados.
Usa imágenes personalizadas alojadas: Si usas una imagen personalizada alojada en otro proyecto, la cuenta de servicio del agente de servicios de Dataproc en tu proyecto debe tener el permiso compute.images.get en la imagen del proyecto host. Para ello, otorga el rol roles/compute.imageUser en la imagen alojada a la cuenta de servicio del agente de servicio de Dataproc de tu proyecto (consulta Comparte imágenes personalizadas dentro de una organización).
Usa secretos de MOK (clave del propietario de la máquina) de arranque seguro: Para habilitar el arranque seguro con tu imagen personalizada de Dataproc, haz lo siguiente:
1. Habilita la API de Secret Manager (secretmanager.googleapis.com). Dataproc genera y administra un par de claves con el servicio de Secret Manager.
2. Agrega la marca --service-account="SERVICE_ACCOUNT" al comando generate_custom_image.py cuando generes una imagen personalizada. Nota: Debes otorgar a la cuenta de servicio el rol de visualizador de Secret Manager (roles/secretmanager.viewer) en el proyecto y el rol de usuario con acceso a Secret Manager (roles/secretmanager.secretAccessor) en los secretos públicos y privados.
  
  Para obtener más información con ejemplos, consulta README.md y otros archivos en el directorio examples/secure-boot del repositorio GoogleCloudDataproc/custom-images en GitHub.
  
  Para inhabilitar el arranque seguro: De forma predeterminada, las secuencias de comandos de imágenes personalizadas de Dataproc generan y administran un par de claves con Secret Manager cuando se ejecutan desde un clúster de Dataproc. Si no quieres usar el arranque seguro con tu imagen personalizada, incluye --trusted-cert="" (valor de marca vacío) en el comando generate_custom_image.py cuando generes tu imagen personalizada.

Antes de comenzar

Asegúrate de configurar tu proyecto antes de generar tu imagen personalizada.

Configura tu proyecto

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API, Compute Engine API, and Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Install the Google Cloud CLI.

Si usas un proveedor de identidad externo (IdP), primero debes acceder a gcloud CLI con tu identidad federada.

Para inicializar gcloud CLI, ejecuta el siguiente comando:

gcloud init

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API, Compute Engine API, and Cloud Storage APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Install the Google Cloud CLI.

Si usas un proveedor de identidad externo (IdP), primero debes acceder a gcloud CLI con tu identidad federada.

Para inicializar gcloud CLI, ejecuta el siguiente comando:

gcloud init

Instala Python 3.11 o una versión posterior
Prepara una secuencia de comandos de personalización que instale paquetes personalizados o actualice la configuración, por ejemplo:
```
  #! /usr/bin/bash
  apt-get -y update
  apt-get install python-dev
  apt-get install python-pip
  pip install numpy
  
```

Crea un bucket de Cloud Storage en tu proyecto

In the Google Cloud console, go to the Cloud Storage Buckets page.
Go to Buckets
Click Create.
On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
1. In the Get started section, do the following:
  - Enter a globally unique name that meets the bucket naming requirements.
  - To add a bucket label, expand the Labels section (), click Add label, and specify a key and a value for your label.
2. In the Choose where to store your data section, do the following:
  1. Select a Location type.
  2. Choose a location where your bucket's data is permanently stored from the Location type drop-down menu.
    - If you select the dual-region location type, you can also choose to enable turbo replication by using the relevant checkbox.
  3. To set up cross-bucket replication, select Add cross-bucket replication via Storage Transfer Service and follow these steps:
    Set up cross-bucket replication
    
    In the Bucket menu, select a bucket.
    
    In the Replication settings section, click Configure to configure settings for the replication job.
    
    The Configure cross-bucket replication pane appears.
    
    To filter objects to replicate by object name prefix, enter a prefix that you want to include or exclude objects from, then click Add a prefix.
    
    To set a storage class for the replicated objects, select a storage class from the Storage class menu. If you skip this step, the replicated objects will use the destination bucket's storage class by default.
    
    Click Done.
3. In the Choose how to store your data section, do the following:
  1. Select a default storage class for the bucket or Autoclass for automatic storage class management of your bucket's data.
  2. To enable hierarchical namespace, in the Optimize storage for data-intensive workloads section, select Enable hierarchical namespace on this bucket.
    Note: You cannot enable hierarchical namespace in existing buckets.
4. In the Choose how to control access to objects section, select whether or not your bucket enforces public access prevention, and select an access control method for your bucket's objects.
  Note: You cannot change the Prevent public access setting if this setting is enforced at an organization policy.
5. In the Choose how to protect object data section, do the following:
  - Select any of the options under Data protection that you want to set for your bucket.
    - To enable soft delete, click the Soft delete policy (For data recovery) checkbox, and specify the number of days you want to retain objects after deletion.
    - To set Object Versioning, click the Object versioning (For version control) checkbox, and specify the maximum number of versions per object and the number of days after which the noncurrent versions expire.
    - To enable the retention policy on objects and buckets, click the Retention (For compliance) checkbox, and then do the following:
      - To enable Object Retention Lock, click the Enable object retention checkbox.
      - To enable Bucket Lock, click the Set bucket retention policy checkbox, and choose a unit of time and a length of time for your retention period.
  - To choose how your object data will be encrypted, expand the Data encryption section (), and select a Data encryption method.
Click Create.

Genera una imagen personalizada

Usarás generate_custom_image.py, un programa de Python, para crear una imagen personalizada de Dataproc.

Cómo funciona

El programa generate_custom_image.py inicia una instancia de VM de Compute Engine temporal con la imagen base de Dataproc especificada y, luego, ejecuta la secuencia de comandos de personalización dentro de la instancia de VM para instalar paquetes personalizados o actualizar la configuración. Una vez que finaliza la secuencia de comandos de personalización, se cierra la instancia de VM y se crea una imagen personalizada de Dataproc a partir del disco de la instancia de VM. La VM temporal se borra después de que se crea la imagen personalizada. La imagen personalizada se guarda y se puede usar para crear clústeres de Dataproc.

El programa generate_custom_image.py usa gcloud CLI para ejecutar flujos de trabajo de varios pasos en Compute Engine.

Ejecuta el código

Bifurca o clona los archivos en GitHub en Imágenes personalizadas de Dataproc.

Luego, ejecuta la secuencia de comandos generate_custom_image.py para que Dataproc genere y guarde tu imagen personalizada.

python3 generate_custom_image.py \
    --image-name=CUSTOM_IMAGE_NAME \
    [--family=CUSTOM_IMAGE_FAMILY_NAME] \
    --dataproc-version=IMAGE_VERSION \
    --customization-script=LOCAL_PATH \
    --zone=ZONE \
    --gcs-bucket=gs://BUCKET_NAME \
    [--no-smoke-test]

Marcas necesarias

--image-name: Es el nombre de salida de tu imagen personalizada.

Nota: El nombre de la imagen debe coincidir con la expresión regular [a-z](?:[-a-z0-9]{0,61}[a-z0-9]) sin guiones bajos ni espacios, y tener menos de 64 caracteres.
--dataproc-version: La versión de la imagen de Dataproc que se usará en tu imagen personalizada. Especifica la versión en formato x.y.z-os o x.y.z-rc-os, por ejemplo, "2.0.69-debian10".
Limitación de imágenes personalizadas: Las imágenes nuevas anunciadas en Notas de la versión de Dataproc no están disponibles para usarse como base de imágenes personalizadas hasta una semana antes su fecha de anuncio.
--customization-script: Es una ruta de acceso local a tu secuencia de comandos que la herramienta ejecutará para instalar tus paquetes personalizados o realizar otras personalizaciones. Esta secuencia de comandos se ejecuta como una secuencia de comandos de inicio de Linux solo en la VM temporal que se usa para crear la imagen personalizada. Puedes especificar una secuencia de comandos de inicialización diferente para otras acciones de inicialización que quieras realizar cuando creas un clúster con tu imagen personalizada.

Imágenes entre proyectos: Si tu imagen personalizada se usa para crear clústeres en diferentes proyectos, puede ocurrir un error debido a la caché de comandos gcloud o gsutil almacenada dentro de la imagen. Para evitar este problema, incluye el siguiente comando en tu secuencia de comandos de personalización para borrar las credenciales almacenadas en caché.
```
rm -r /root/.gsutil /root/.config/gcloud
```
--zone: La zona de Compute Engine en la que generate_custom_image.py creará una VM temporal para usarla en la creación de tu imagen personalizada.
--gcs-bucket: Es un URI, en el formato gs://BUCKET_NAME, que apunta a tu bucket de Cloud Storage. generate_custom_image.py escribe archivos de registro en este bucket.

Marcas opcionales

--family: Es la familia de imágenes de la imagen personalizada. Las familias de imágenes se usan para agrupar imágenes similares y se pueden usar cuando se crea un clúster como un puntero a la imagen más reciente de la familia. Por ejemplo, custom-2-2-debian12
--no-smoke-test: Es una marca opcional que inhabilita las pruebas de humo en la imagen personalizada recién compilada. La prueba de humo crea un clúster de prueba de Dataproc con la imagen recién compilada, ejecuta un trabajo pequeño y, luego, borra el clúster al final de la prueba. La prueba de humo se ejecuta de forma predeterminada para verificar que la imagen personalizada recién compilada pueda crear un clúster de Dataproc funcional. Si inhabilitas este paso con la marca --no-smoke-test, se acelerará el proceso de compilación de la imagen personalizada, pero no se recomienda usarla.
--subnet: Es la subred que se usará para crear la VM que compila la imagen personalizada de Dataproc. Si tu proyecto forma parte de una VPC compartida, debes especificar la URL completa de la subred con el siguiente formato: projects/HOST_PROJECT_ID/regions/REGION/subnetworks/SUBNET.
--optional-components: Esta marca solo está disponible cuando se usan versiones de imágenes base 2.3 y posteriores. Es una lista de componentes opcionales, como SOLR, RANGER, TRINO, DOCKER, FLINK, HIVE_WEBHCAT, ZEPPELIN, HUDI, ICEBERG y PIG (PIG está disponible como componente opcional en las versiones de imagen 2.3 y posteriores), para instalar en la imagen.

Nota: También debes enumerar o seleccionar los componentes opcionales cuando crees el clúster con la consola deGoogle Cloud , Google Cloud CLI o la API de Dataproc.

Ejemplo: Comando de creación de clúster de Google Cloud CLI:
```
gcloud dataproc clusters create CLUSTER_NAME
    --image=CUSTOM_IMAGE_URI  \
    --optional-components=COMPONENT_NAME \
    ... other flags
```

Para obtener una lista de las marcas opcionales disponibles, consulta Optional Arguments en GitHub.

Si generate_custom_image.py se ejecuta correctamente, el imageURI de la imagen personalizada se mostrará en el resultado de la ventana de la terminal (el imageUri completo se muestra en negrita a continuación):

...
managedCluster:
    clusterName: verify-image-20180614213641-8308a4cd
    config:
      gceClusterConfig:
        zoneUri: ZONE
      masterConfig:
        imageUri: https://www.googleapis.com/compute/beta/projects/PROJECT_ID/global/images/CUSTOM_IMAGE_NAME
...

INFO:__main__:Successfully built Dataproc custom image: CUSTOM_IMAGE_NAME
INFO:__main__:

#####################################################################
  WARNING: DATAPROC CUSTOM IMAGE 'CUSTOM_IMAGE_NAME'
           WILL EXPIRE ON 2018-07-14 21:35:44.133000.
#####################################################################

Etiquetas de versión de imagen personalizadas (uso avanzado)

Cuando se usa la herramienta de imágenes personalizadas estándar de Dataproc, esta establece una etiqueta goog-dataproc-version en la imagen personalizada creada. La etiqueta refleja las capacidades de la función y los protocolos que usa Dataproc para administrar el software en la imagen.

Uso avanzado: Si usas tu propio proceso para crear una imagen personalizada de Dataproc, debes agregar la etiqueta goog-dataproc-version manualmente a tu imagen personalizada, de la siguiente manera:

Extrae la etiqueta goog-dataproc-version de la imagen base de Dataproc que se usó para crear la imagen personalizada.

gcloud compute images describe ${BASE_DATAPROC_IMAGE} \
    --project cloud-dataproc \
    --format="value(labels.goog-dataproc-version)"

Establece la etiqueta en la imagen personalizada.

gcloud compute images add-labels IMAGE_NAME --labels=[KEY=VALUE,...]

Usar una imagen personalizada

La imagen personalizada se especifica cuando creas un clúster de Dataproc. Una imagen personalizada se guarda en Imágenes de Cloud Compute y es válida para crear un clúster de Dataproc por 365 días desde la fecha de su creación (consulta Cómo crear un clúster con una imagen personalizada vencida si quieres usar una imagen después de la fecha de vencimiento de 365 días).

URI de la imagen personalizada

Pasa el imageUri de la imagen personalizada a la operación de creación de clúster. Este URI se puede especificar de alguna de las tres formas a continuación:

URI completo:
https://www.googleapis.com/compute/beta/projects/PROJECT_ID/global/images/`gs://`BUCKET_NAME`
URI parcial: projects/PROJECT_ID/global/images/CUSTOM_IMAGE_NAME
Nombre corto: CUSTOM_IMAGE_NAME

Las imágenes personalizadas también se pueden especificar por su URI de familia, que siempre elige la imagen más reciente dentro de la familia de imágenes.

URI completo:
https://www.googleapis.com/compute/beta/projects/PROJECT_ID/global/images/family/CUSTOM_IMAGE_FAMILY_NAME/var>
URI parcial: projects/PROJECT_ID/global/images/family/CUSTOM_IMAGE_FAMILY_NAME

Cómo encontrar el URI de la imagen personalizada

Google Cloud CLI

Ejecuta el siguiente comando para enumerar los nombres de tus imágenes personalizadas.

gcloud compute images list

Pasa el nombre de tu imagen personalizada al siguiente comando para enumerar el URI (selfLink) de tu imagen personalizada.

gcloud compute images describe custom-image-name

Fragmento de salida:

...
name: CUSTOM_IMAGE_NAME
selfLink: https://www.googleapis.com/compute/v1/projects/PROJECT_ID/global/images/CUSTOM_IMAGE_NAME
...

Console

Abre la página Compute Engine→Imágenes en la consola de Google Cloud y, luego, haz clic en el nombre de la imagen. Puedes insertar una consulta en el campo filter images para limitar la cantidad de imágenes que se muestran.
Se abrirá la página Detalles de imágenes. Haz clic en Equivalent REST.

La respuesta de REST enumera información adicional sobre la imagen, incluido el selfLink, que es el URI de la imagen.

{
  ...
  "name": "my-custom-image",
  "selfLink": "projects/PROJECT_ID/global/images/CUSTOM_IMAGE_NAME",
  "sourceDisk": ...,
  ...
}

Crea un clúster con una imagen personalizada

Crea un clúster con gcloud CLI, la API de Dataproc o laGoogle Cloud consola.

gcloud CLI

Crea un clúster de Dataproc con una imagen personalizada usando el comando dataproc clusters create con la marca --image.

Ejemplo:

gcloud dataproc clusters create CLUSTER-NAME \
    --image=CUSTOM_IMAGE_URI \
    --region=REGION \
    ... other flags

API de REST

Crea un clúster con una imagen personalizada especificando el URI de la imagen personalizada en el campo InstanceGroupConfig.imageUri en el objeto masterConfig, workerConfig y, si corresponde, secondaryWorkerConfig incluido en una solicitud a la API de cluster.create.

Ejemplo: solicitud REST para crear un clúster de Dataproc estándar (un nodo maestro y dos trabajadores) con una imagen personalizada.

POST /v1/projects/PROJECT_ID/regions/REGION/clusters/
{
  "clusterName": "CLUSTER_NAME",
  "config": {
    "masterConfig": {
      "imageUri": "projects/PROJECT_ID/global/images/CUSTOM_IMAGE_NAME"
    },
    "workerConfig": {
      "imageUri": "projects/PROJECT_ID/global/images/CUSTOM_IMAGE_NAME"
    }
  }
}

Console

Abre la página de Dataproc Crear un clúster. Se selecciona el panel Configura el clúster.
En la sección Control de versiones, haz clic en Cambiar. Selecciona la pestaña Imagen personalizada, elige la imagen personalizada que usarás para tu clúster de Dataproc y, luego, haz clic en Seleccionar. Las VMs del clúster se aprovisionarán con la imagen personalizada seleccionada.

Anula las propiedades del clúster de Dataproc con una imagen personalizada

Puedes usar imágenes personalizadas para anular las propiedades del clúster que se establecen durante la creación del clúster. Si creas un clúster con una imagen personalizada y la operación de creación del clúster establece propiedades con valores diferentes de los que establece tu imagen personalizada, tendrán prioridad los valores de propiedad establecidos por tu imagen personalizada.

Para establecer las propiedades del clúster con tu imagen personalizada, haz lo siguiente:

En la secuencia de comandos de personalización de la imagen personalizada, crea un archivo dataproc.custom.properties en /etc/google-dataproc y, luego, establece los valores de propiedad del clúster en el archivo.
- Archivo dataproc.custom.properties de muestra:
```
dataproc.conscrypt.provider.enable=VALUE
dataproc.logging.stackdriver.enable=VALUE
```
- Fragmento de código de creación de archivos de secuencia de comandos de personalización de muestra para anular dos propiedades del clúster:
```
cat <<EOF >/etc/google-dataproc/dataproc.custom.properties
dataproc.conscrypt.provider.enable=true
dataproc.logging.stackdriver.enable=false
EOF
```

Crea un clúster con una imagen personalizada vencida

De forma predeterminada, las imágenes personalizadas vencen 365 días después de la fecha de creación de la imagen. Puedes crear un clúster que use una imagen personalizada vencida si completas los pasos a continuación.

Intenta crear un clúster de Dataproc con una imagen personalizada vencida o una imagen personalizada que vencerá dentro de 10 días.

gcloud dataproc clusters create CLUSTER-NAME \
    --image=CUSTOM-IMAGE-NAME \
    --region=REGION \
    ... other flags

Gcloud CLI emitirá un mensaje de error que incluye el nombre de la propiedad del clúster dataproc:dataproc.custom.image.expiration.token y el valor del token.

dataproc:dataproc.custom.image.expiration.token=TOKEN_VALUE

Copia la cadena TOKEN_VALUE en el portapapeles.

Usa gcloud CLI para volver a crear el clúster de Dataproc y agrega el TOKEN_VALUE copiado como una propiedad del clúster.

gcloud dataproc clusters create CLUSTER-NAME \
    --image=CUSTOM-IMAGE-NAME \
    --properties=dataproc:dataproc.custom.image.expiration.token=TOKEN_VALUE \
    --region=REGION \
    ... other flags

La creación del clúster con la imagen personalizada debería tener éxito.

Crea una imagen personalizada de Dataproc Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Limitaciones y consideraciones de uso

Antes de comenzar

Configura tu proyecto

Crea un bucket de Cloud Storage en tu proyecto

Set up cross-bucket replication

Genera una imagen personalizada

Cómo funciona

Ejecuta el código

Etiquetas de versión de imagen personalizadas (uso avanzado)

Usar una imagen personalizada

URI de la imagen personalizada

Cómo encontrar el URI de la imagen personalizada

Google Cloud CLI

Console

Crea un clúster con una imagen personalizada

gcloud CLI

API de REST

Console

Anula las propiedades del clúster de Dataproc con una imagen personalizada

Crea un clúster con una imagen personalizada vencida

Crea una imagen personalizada de Dataproc