Se usó la API de Cloud Translation para traducir esta página.

Crea y ejecuta un trabajo que use volúmenes de almacenamiento

En este documento, se explica cómo crear y ejecutar un trabajo por lotes que use uno o más volúmenes de almacenamiento externo. Las opciones de almacenamiento externo incluyen disco persistente nuevos o existentes, SSD locales nuevos, buckets de Cloud Storage existentes y un sistema de archivos de red (NFS) existente, como un archivo compartido de Filestore.

Sin importar si agregas volúmenes de almacenamiento externo, cada VM de Compute Engine para un trabajo tiene un disco de arranque, que proporciona almacenamiento para la imagen del sistema operativo (SO) y las instrucciones del trabajo. Si deseas obtener información sobre cómo configurar el disco de arranque para un trabajo, consulta la Descripción general del entorno del SO de VM.

Antes de comenzar

Si no has usado Batch antes, revisa Comienza a usar Batch y completa los requisitos previos para los proyectos y usuarios a fin de habilitar Batch.
Si quieres obtener los permisos que necesitas para crear un trabajo, pídele a tu administrador que te otorgue los siguientes roles de IAM:
- Editor de trabajos por lotes (roles/batch.jobsEditor) en el proyecto
- Usuario de cuenta de servicio (roles/iam.serviceAccountUser) en la cuenta de servicio del trabajo, que de forma predeterminada es la cuenta de servicio predeterminada de Compute Engine
- Crea un trabajo que use un bucket de Cloud Storage: Visualizador de objetos de Storage (roles/storage.objectViewer) en el bucket.
Si quieres obtener más información para otorgar funciones, consulta Administra el acceso.

Es posible que también puedas obtener los permisos necesarios a través de los roles personalizados o de otros roles predefinidos.

Crea un trabajo que use volúmenes de almacenamiento

De manera opcional, un trabajo puede usar uno o más de los siguientes tipos de volúmenes de almacenamiento externo. Para obtener más información sobre todos los tipos de volúmenes de almacenamiento y las diferencias y restricciones de cada uno, consulta la documentación de Opciones de almacenamiento de VM de Compute Engine.

Disco persistente: Almacenamiento en bloque persistente zonal o regional
SSD local: almacenamiento en bloque transitorio de alto rendimiento
Bucket de Cloud Storage: Almacenamiento de objetos asequible
Sistema de archivos de red (NFS): Es un sistema de archivos distribuido que sigue el protocolo del sistema de archivos de red, por ejemplo, un archivo compartido de Filestore, que es un NFS de alto rendimiento alojado en Google Cloud.

Puedes permitir que un trabajo use cada volumen de almacenamiento si lo incluyes en la definición del trabajo y especificas la ruta de activación (mountPath) en los ejecutables. Para aprender a crear un trabajo que use volúmenes de almacenamiento, consulta una o más de las siguientes secciones:

Usa un disco persistente
Usa una SSD local
Usa un bucket de Cloud Storage
Cómo usar un sistema de archivos de red

Usa un disco persistente

Un trabajo que usa discos persistentes tiene las siguientes restricciones:

Todos los discos persistentes: Revisa las restricciones para todos los discos persistentes.

Discos persistentes nuevos en comparación con los existentes: Cada disco persistente en un trabajo puede ser nuevo (definido y creado con el trabajo) o existente (ya creado en tu proyecto y especificado en el trabajo). Para usar un disco persistente, debe formatearse y activar en las VM del trabajo, que deben estar en la misma ubicación que el disco persistente. Por lotes activa los discos persistentes que incluyes en un trabajo y da formato a los discos persistentes nuevos, pero debes formatear y desactivar los discos persistentes existentes que quieras que use un trabajo.

Las opciones de ubicación, las opciones de formato y las opciones de activación admitidas varían entre los discos persistentes nuevos y existentes, como se describe en la siguiente tabla:

Discos persistentes nuevos Discos persistentes existentes

Opciones de formato

	Discos persistentes nuevos	Discos persistentes existentes
Opciones de formato	El disco persistente se formatea de forma automática con un sistema de archivos `ext4`.	Debes formatear el disco persistente para usar un sistema de archivos `ext4` antes de usarlo en un trabajo.
Opciones de montaje	Se admiten todas las opciones.	Se admiten todas las opciones, excepto la escritura. Esto se debe a las restricciones del modo de multiescritura. Debes desconectar el disco persistente de cualquier VM a la que esté conectado antes de usarlo para un trabajo.
Opciones de ubicación	Solo puedes crear discos persistentes zonales. Puedes seleccionar cualquier ubicación del trabajo. Los discos persistentes se crean en la zona en la que se ejecuta tu proyecto.	Puedes seleccionar discos persistentes zonales y regionales. Debes establecer la ubicación del trabajo (o, si se especifica, solo las ubicaciones permitidas del trabajo) para solo las ubicaciones que contengan todos los discos persistentes del trabajo. Por ejemplo, para un disco persistente zonal, la ubicación del trabajo debe ser la zona del disco; para un disco persistente regional, la ubicación del trabajo debe ser la región del disco o, si se especifican zonas, una o ambas zonas específicas en las que se encuentra el disco persistente regional.

El disco persistente se formatea de forma automática con un sistema de archivos ext4.

Debes formatear el disco persistente para usar un sistema de archivos ext4 antes de usarlo en un trabajo.

Opciones de montaje

Se admiten todas las opciones.

Se admiten todas las opciones, excepto la escritura. Esto se debe a las restricciones del modo de multiescritura.

Debes desconectar el disco persistente de cualquier VM a la que esté conectado antes de usarlo para un trabajo.

Opciones de ubicación

Solo puedes crear discos persistentes zonales.

Puedes seleccionar cualquier ubicación del trabajo. Los discos persistentes se crean en la zona en la que se ejecuta tu proyecto.

Puedes seleccionar discos persistentes zonales y regionales.

Debes establecer la ubicación del trabajo (o, si se especifica, solo las ubicaciones permitidas del trabajo) para solo las ubicaciones que contengan todos los discos persistentes del trabajo. Por ejemplo, para un disco persistente zonal, la ubicación del trabajo debe ser la zona del disco; para un disco persistente regional, la ubicación del trabajo debe ser la región del disco o, si se especifican zonas, una o ambas zonas específicas en las que se encuentra el disco persistente regional.

Plantillas de instancias: Si deseas usar una plantilla de instancias de VM mientras creas este trabajo, debes conectar todos los disco persistente a este trabajo en la plantilla de instancias. De lo contrario, si no quieres usar una plantilla de instancias, debes adjuntar los disco persistente directamente en la definición del trabajo.

Puedes crear un trabajo que use un disco persistente con la consola de Google Cloud, gcloud CLI, la API de Batch, Go, Java, Node.js, Python o C++.

Console

Con la consola de Google Cloud, en el siguiente ejemplo, se crea un trabajo que ejecuta una secuencia de comandos para leer un archivo desde un disco persistente zonal existente que se encuentra en la zona us-central1-a. En la secuencia de comandos de ejemplo, se supone que el trabajo tiene un disco persistente zonal existente que contiene un archivo de texto llamado example.txt en el directorio raíz.

Opcional: Crea un disco persistente zonal de ejemplo

Si quieres crear un disco persistente zonal que puedas usar para ejecutar la secuencia de comandos de ejemplo, haz lo siguiente antes de crear tu trabajo:

Adjunta una nueva instancia persistente en blanco llamada example-disk a una VM de Linux en la zona us-central1-a y, luego, ejecuta comandos en la VM para formatear y activar el disco. Para obtener instrucciones, consulta Agrega un disco persistente a tu VM.

Aún no te desconectes de la VM.
Para crear example.txt en el disco persistente, ejecuta los siguientes comandos en la VM:
1. Para cambiar el directorio de trabajo actual al directorio raíz del disco persistente, escribe el siguiente comando:
```
cd VM_MOUNT_PATH
```
  Reemplaza VM_MOUNT_PATH por la ruta de acceso al directorio en el que el disco persistente se activó en esta VM en el paso anterior, por ejemplo, /mnt/disks/example-disk.
2. Presiona Enter.
3. Para crear y definir un archivo llamado example.txt, escribe el siguiente comando:
```
cat > example.txt
```
4. Presiona Enter.
5. Escribe el contenido del archivo. Por ejemplo, escribe Hello world!.
6. Para guardar el archivo, presiona Ctrl+D (o Command+D en macOS).
Cuando hayas terminado, podrás desconectarte de la VM.
Desconectarás el disco persistente de la VM.
- Si ya no necesitas la VM, puedes borrarla, que desconecta automáticamente el disco persistente.
- De lo contrario, desconecta el disco persistente. Para obtener instrucciones, consulta Desconecta y vuelve a conectar discos de arranque y desconecta el disco persistente example-disk en lugar del disco de arranque de la VM.

Crea un trabajo que use el disco persistente zonal existente

Para crear un trabajo que use discos persistentes zonales existentes con la consola de Google Cloud, haz lo siguiente:

En la consola de Google Cloud, ve a la página Lista de trabajos.

Ir a Lista de trabajos
Haz clic en Crear. Se abrirá la página Crear trabajo por lotes. En el panel izquierdo, está seleccionada la página Detalles del trabajo.
Configura la página Detalles del trabajo:
1. Opcional: En el campo Nombre del trabajo, personaliza el nombre del trabajo.
  
  Por ejemplo, ingresa example-disk-job.
2. Configura la sección Detalles de la tarea:
  1. En la ventana Nuevo ejecutable, agrega al menos una secuencia de comandos o un contenedor para que se ejecute este trabajo.
    
    Por ejemplo, para ejecutar una secuencia de comandos que imprime el contenido de un archivo llamado example.txt y ubicado en el directorio raíz del disco persistente que usa este trabajo, haz lo siguiente:
    1. Selecciona la casilla de verificación Script. Aparecerá un cuadro de texto.
    2. En el cuadro de texto, ingresa la siguiente secuencia de comandos:
```
echo "Here is the content of the example.txt file in the persistent disk."
cat MOUNT_PATH/example.txt
```
      Reemplaza MOUNT_PATH por la ruta en la que planeas activar el disco persistente en las VM para este trabajo, por ejemplo, /mnt/disks/example-disk.
    3. Haz clic en Listo.
  2. En el campo Cantidad de tareas, ingresa la cantidad de tareas para este trabajo.
    
    Por ejemplo, ingresa 1 (valor predeterminado).
  3. En el campo Paralelismo, ingresa la cantidad de tareas que se ejecutarán en simultáneo.
    
    Por ejemplo, ingresa 1 (valor predeterminado).
Configura la página Especificaciones de recursos:
1. En el panel izquierdo, haz clic en Especificaciones de recursos. Se abrirá la página Especificaciones de recursos.
2. Selecciona la ubicación para este trabajo. Para usar un disco persistente zonal existente, las VM de un trabajo deben estar ubicadas en la misma zona.
  1. En el campo Región, selecciona una región.
    
    Por ejemplo, para usar el disco persistente zonal de ejemplo, selecciona us-central1 (Iowa) (predeterminado).
  2. En el campo Zona, selecciona una zona.
    
    Por ejemplo, selecciona us-central1-a (Iowa).
Configura la página Parámetros de configuración adicionales:
1. En el panel izquierdo, haz clic en Configuración adicional. Se abrirá la página Configuración adicional.
2. Para cada disco persistente zonal existente que desees activar en este trabajo, haz lo siguiente:
  1. En la sección Volumen de almacenamiento, haz clic en Agregar volumen nuevo. Aparecerá la ventana Volumen nuevo.
  2. En la ventana Volumen nuevo, haz lo siguiente:
    1. En la sección Tipo de volumen, selecciona Disco persistente (predeterminado).
    2. En la lista Disco, selecciona un disco persistente zonal existente que desees activar en este trabajo. El disco debe estar ubicado en la misma zona que este trabajo.
      
      Por ejemplo, selecciona el disco persistente zonal existente que preparaste, que se encuentra en la zona us-central1-a y contiene el archivo example.txt.
    3. Si quieres cambiar el nombre de este disco persistente zonal, haz lo siguiente (opcional):
      1. Selecciona Personalizar el nombre del dispositivo.
      2. En el campo Nombre del dispositivo, ingresa el nombre nuevo del disco.
    4. En el campo Ruta de activación, ingresa la ruta de acceso de activación (MOUNT_PATH) para este disco persistente:
      
      Por ejemplo, ingresa lo siguiente:
```
/mnt/disks/EXISTING_PERSISTENT_DISK_NAME
```
      Reemplaza EXISTING_PERSISTENT_DISK_NAME por el nombre del disco. Si cambiaste el nombre del disco persistente zonal, usa el nombre nuevo.
      
      Por ejemplo, reemplaza EXISTING_PERSISTENT_DISK_NAME por example-disk.
    5. Haz clic en Listo.
Opcional: Configura los otros campos para este trabajo.
Opcional: Para revisar la configuración del trabajo, en el panel izquierdo, haz clic en Vista previa.
Haz clic en Crear.

En la página Detalles del trabajo, se muestra el trabajo que creaste.

gcloud

Con gcloud CLI, en el siguiente ejemplo, se crea un trabajo que conecta y activa un disco persistente existente y un disco persistente nuevo. El trabajo tiene 3 tareas que, cada una, ejecuta una secuencia de comandos para crear un archivo en el nuevo disco persistente llamado output_task_TASK_INDEX.txt, en el que TASK_INDEX es el índice de cada tarea: 0, 1 y 2.

Para crear un trabajo que use discos persistentes con gcloud CLI, usa el comando gcloud batch jobs submit. En el archivo de configuración JSON del trabajo, especifica los discos persistentes en el campo instances y activa el disco persistente en el campo volumes.

Crea un archivo JSON.

Si no usas una plantilla de instancias para este trabajo, crea un archivo JSON con el siguiente contenido:

{
    "allocationPolicy": {
        "instances": [
            {
                "policy": {
                    "disks": [
                        {
                            "deviceName": "EXISTING_PERSISTENT_DISK_NAME",
                            "existingDisk": "projects/PROJECT_ID/EXISTING_PERSISTENT_DISK_LOCATION/disks/EXISTING_PERSISTENT_DISK_NAME"
                        },
                        {
                            "newDisk": {
                                "sizeGb": NEW_PERSISTENT_DISK_SIZE,
                                "type": "NEW_PERSISTENT_DISK_TYPE"
                            },
                            "deviceName": "NEW_PERSISTENT_DISK_NAME"
                        }
                    ]
                }
            }
        ],
        "location": {
            "allowedLocations": [
                "EXISTING_PERSISTENT_DISK_LOCATION"
            ]
        }
    },
    "taskGroups": [
        {
            "taskSpec": {
                "runnables": [
                    {
                        "script": {
                            "text": "echo Hello world from task ${BATCH_TASK_INDEX}. >> /mnt/disks/NEW_PERSISTENT_DISK_NAME/output_task_${BATCH_TASK_INDEX}.txt"
                        }
                    }
                ],
                "volumes": [
                    {
                        "deviceName": "NEW_PERSISTENT_DISK_NAME",
                        "mountPath": "/mnt/disks/NEW_PERSISTENT_DISK_NAME",
                        "mountOptions": "rw,async"
                    },
                    {

                        "deviceName": "EXISTING_PERSISTENT_DISK_NAME",
                        "mountPath": "/mnt/disks/EXISTING_PERSISTENT_DISK_NAME"
                    }
                ]
            },
            "taskCount":3
        }
    ],
    "logsPolicy": {
        "destination": "CLOUD_LOGGING"
    }
}

Reemplaza lo siguiente:

PROJECT_ID: Es el ID del proyecto.
EXISTING_PERSISTENT_DISK_NAME: Es el nombre de un disco persistente existente.
EXISTING_PERSISTENT_DISK_LOCATION: Es la ubicación de un disco persistente existente. En cada disco persistente zonal existente, la ubicación del trabajo debe ser la zona del disco. Para cada disco persistente regional existente, la ubicación del trabajo debe ser la región del disco o, si se especifican zonas, una o ambas zonas específicas en las que se encuentra el disco persistente regional. Si no especificas ningún disco persistente existente, puedes seleccionar cualquier ubicación. Obtén más información sobre el campo allowedLocations.
NEW_PERSISTENT_DISK_SIZE: Es el tamaño del disco persistente nuevo en GB. Los tamaños permitidos dependen del tipo de disco persistente, pero el mínimo suele ser 10 GB (10) y el máximo suele ser 64 TB (64000).
NEW_PERSISTENT_DISK_TYPE: Es el tipo de disco del disco persistente nuevo, ya sea pd-standard, pd-balanced, pd-ssd o pd-extreme. Para los trabajos por lotes, el valor predeterminado es pd-balanced.
NEW_PERSISTENT_DISK_NAME: Es el nombre del disco persistente nuevo.

Si usas una plantilla de instancias de VM para este trabajo, crea un archivo JSON como se mostró antes, excepto reemplaza el campo instances por lo siguiente:
```
"instances": [
    {
        "instanceTemplate": "INSTANCE_TEMPLATE_NAME"
    }
],
```
donde INSTANCE_TEMPLATE_NAME es el nombre de la plantilla de instancias para este trabajo. Para un trabajo que usa discos persistentes, esta plantilla de instancias debe definir y conectar los discos persistentes que deseas que use el trabajo. Para este ejemplo, la plantilla debe definir y conectar un disco persistente nuevo llamado NEW_PERSISTENT_DISK_NAME y conectar un disco persistente existente llamado EXISTING_PERSISTENT_DISK_NAME.

Ejecuta el siguiente comando:
```
gcloud batch jobs submit JOB_NAME \
  --location LOCATION \
  --config JSON_CONFIGURATION_FILE
```
Reemplaza lo siguiente:
- JOB_NAME: Es el nombre del trabajo.
- LOCATION: Es la ubicación del trabajo.
- JSON_CONFIGURATION_FILE: Es la ruta de acceso a un archivo JSON con los detalles de configuración del trabajo.

API

En el siguiente ejemplo, se crea un trabajo que conecta y activa un disco persistente existente y un disco persistente nuevo con la API de Batch. El trabajo tiene 3 tareas que, cada una, ejecuta una secuencia de comandos para crear un archivo en el nuevo disco persistente llamado output_task_TASK_INDEX.txt, en el que TASK_INDEX es el índice de cada tarea: 0, 1 y 2.

Para crear un trabajo que use discos persistentes con la API de Batch, usa el método jobs.create. En la solicitud, especifica los discos persistentes en el campo instances y actívalo en el campo volumes.

Si no usas una plantilla de instancias para este trabajo, realiza la siguiente solicitud:

POST https://batch.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/jobs?job_id=JOB_NAME

{
    "allocationPolicy": {
        "instances": [
            {
                "policy": {
                    "disks": [
                        {
                            "deviceName": "EXISTING_PERSISTENT_DISK_NAME",
                            "existingDisk": "projects/PROJECT_ID/EXISTING_PERSISTENT_DISK_LOCATION/disks/EXISTING_PERSISTENT_DISK_NAME"
                        },
                        {
                            "newDisk": {
                                "sizeGb": NEW_PERSISTENT_DISK_SIZE,
                                "type": "NEW_PERSISTENT_DISK_TYPE"
                            },
                            "deviceName": "NEW_PERSISTENT_DISK_NAME"
                        }
                    ]
                }
            }
        ],
        "location": {
            "allowedLocations": [
                "EXISTING_PERSISTENT_DISK_LOCATION"
            ]
        }
    },
    "taskGroups": [
        {
            "taskSpec": {
                "runnables": [
                    {
                        "script": {
                            "text": "echo Hello world from task ${BATCH_TASK_INDEX}. >> /mnt/disks/NEW_PERSISTENT_DISK_NAME/output_task_${BATCH_TASK_INDEX}.txt"
                        }
                    }
                ],
                "volumes": [
                    {
                        "deviceName": "NEW_PERSISTENT_DISK_NAME",
                        "mountPath": "/mnt/disks/NEW_PERSISTENT_DISK_NAME",
                        "mountOptions": "rw,async"
                    },
                    {

                        "deviceName": "EXISTING_PERSISTENT_DISK_NAME",
                        "mountPath": "/mnt/disks/EXISTING_PERSISTENT_DISK_NAME"
                    }
                ]
            },
            "taskCount":3
        }
    ],
    "logsPolicy": {
        "destination": "CLOUD_LOGGING"
    }
}

Reemplaza lo siguiente:

PROJECT_ID: Es el ID del proyecto.
LOCATION: Es la ubicación del trabajo.
JOB_NAME: Es el nombre del trabajo.
EXISTING_PERSISTENT_DISK_NAME: Es el nombre de un disco persistente existente.
EXISTING_PERSISTENT_DISK_LOCATION: Es la ubicación de un disco persistente existente. Para cada disco persistente zonal existente, la ubicación del trabajo debe ser la zona del disco. Para cada disco persistente regional existente, la ubicación del trabajo debe ser la región del disco o, si se especifican zonas, una o ambas zonas específicas en las que se encuentra el disco persistente regional. Si no especificas ningún disco persistente existente, puedes seleccionar cualquier ubicación. Obtén más información sobre el campo allowedLocations.
NEW_PERSISTENT_DISK_SIZE: Es el tamaño del disco persistente nuevo en GB. Los tamaños permitidos dependen del tipo de disco persistente, pero el mínimo suele ser 10 GB (10) y el máximo suele ser 64 TB (64000).
NEW_PERSISTENT_DISK_TYPE: Es el tipo de disco del disco persistente nuevo, ya sea pd-standard, pd-balanced, pd-ssd o pd-extreme. Para los trabajos por lotes, el valor predeterminado es pd-balanced.
NEW_PERSISTENT_DISK_NAME: Es el nombre del disco persistente nuevo.

Si usas una plantilla de instancias de VM para este trabajo, crea un archivo JSON como se mostró antes, excepto reemplaza el campo instances por lo siguiente:
```
"instances": [
    {
        "instanceTemplate": "INSTANCE_TEMPLATE_NAME"
    }
],
...
```
En el ejemplo anterior, INSTANCE_TEMPLATE_NAME es el nombre de la plantilla de instancias para este trabajo. Para un trabajo que usa discos persistentes, esta plantilla de instancias debe definir y conectar los discos persistentes que deseas que use el trabajo. Para este ejemplo, la plantilla debe definir y conectar un disco persistente nuevo llamado NEW_PERSISTENT_DISK_NAME y conectar un disco persistente existente llamado EXISTING_PERSISTENT_DISK_NAME.