Procesa imágenes satelitales de Landsat con GPU

En este instructivo, se muestra cómo usar GPU en Dataflow para procesar imágenes satelitales de Landsat 8 y procesarlas como archivos JPEG. El instructivo se basa en el ejemplo Procesa imágenes satelitales de Landsat con GPU.

Objetivos

Compilar una imagen de Docker para Dataflow que tenga TensorFlow compatible con GPU
Ejecutar un trabajo de Dataflow con GPU

Costos

En este instructivo, se usan componentes facturables de Google Cloud, que incluyen lo siguiente:

Cloud Storage
Dataflow
Artifact Registry

Usa la calculadora de precios para generar una estimación de los costos según el uso previsto.

Antes de comenzar

Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.

Instala Google Cloud CLI.

Para inicializar la CLI de gcloud, ejecuta el siguiente comando:

gcloud init

Crea o selecciona un proyecto de Google Cloud.

Crea un proyecto de Google Cloud:
```
gcloud projects create PROJECT_ID
```
Reemplaza PROJECT_ID por un nombre para el proyecto de Google Cloud que estás creando.
Selecciona el proyecto de Google Cloud que creaste:
```
gcloud config set project PROJECT_ID
```
Reemplaza PROJECT_ID por el nombre del proyecto de Google Cloud.

Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

Habilita las APIs de Dataflow, Cloud Build, and Artifact Registry:

gcloud services enable dataflow cloudbuild.googleapis.com artifactregistry.googleapis.com

Crea credenciales de autenticación locales para tu Cuenta de Google:

gcloud auth application-default login

Otorga roles a tu Cuenta de Google. Ejecuta el siguiente comando una vez para cada uno de los siguientes roles de IAM: roles/iam.serviceAccountUser

gcloud projects add-iam-policy-binding PROJECT_ID --member="user:EMAIL_ADDRESS" --role=ROLE

Reemplaza PROJECT_ID con el ID del proyecto.
Reemplaza EMAIL_ADDRESS por tu dirección de correo electrónico.
Reemplaza ROLE por cada rol individual.

Instala Google Cloud CLI.

Para inicializar la CLI de gcloud, ejecuta el siguiente comando:

gcloud init

Crea o selecciona un proyecto de Google Cloud.

Crea un proyecto de Google Cloud:
```
gcloud projects create PROJECT_ID
```
Reemplaza PROJECT_ID por un nombre para el proyecto de Google Cloud que estás creando.
Selecciona el proyecto de Google Cloud que creaste:
```
gcloud config set project PROJECT_ID
```
Reemplaza PROJECT_ID por el nombre del proyecto de Google Cloud.

Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

Habilita las APIs de Dataflow, Cloud Build, and Artifact Registry:

gcloud services enable dataflow cloudbuild.googleapis.com artifactregistry.googleapis.com

Crea credenciales de autenticación locales para tu Cuenta de Google:

gcloud auth application-default login

Otorga roles a tu Cuenta de Google. Ejecuta el siguiente comando una vez para cada uno de los siguientes roles de IAM: roles/iam.serviceAccountUser

gcloud projects add-iam-policy-binding PROJECT_ID --member="user:EMAIL_ADDRESS" --role=ROLE

Reemplaza PROJECT_ID con el ID del proyecto.
Reemplaza EMAIL_ADDRESS por tu dirección de correo electrónico.
Reemplaza ROLE por cada rol individual.

Otorga roles a tu cuenta de servicio predeterminada de Compute Engine. Ejecuta el siguiente comando una vez para cada uno de los siguientes roles de IAM: roles/dataflow.admin, roles/dataflow.worker, roles/bigquery.dataEditor, roles/pubsub.editor, roles/storage.objectAdmin y roles/artifactregistry.reader.
```
gcloud projects add-iam-policy-binding PROJECT_ID --member="serviceAccount:PROJECT_NUMBER-compute@developer.gserviceaccount.com" --role=SERVICE_ACCOUNT_ROLE
```
- Reemplaza PROJECT_ID con el ID del proyecto.
- Reemplaza PROJECT_NUMBER por el número del proyecto. Para encontrar el número de tu proyecto, consulta Identifica proyectos.
- Reemplaza SERVICE_ACCOUNT_ROLE por cada rol individual.
Para almacenar los archivos de imagen JPEG de salida de este instructivo, crea un bucket de Cloud Storage:
1. En la consola de Google Cloud, ve a la página Buckets de Cloud Storage.
  Ir a la página Buckets
2. Haga clic en Crear bucket.
3. En la página Crear un bucket, ingresa la información de tu bucket. Para ir al paso siguiente, haz clic en Continuar.
  - En Nombre del bucket, ingresa un nombre de bucket único. No incluyas información sensible en el nombre del bucket porque su espacio de nombres es global y públicamente visible.
  - En Elige dónde almacenar tus datos, haz lo siguiente:
    - Selecciona una opción de Tipo de ubicación.
    - Selecciona una opción de Ubicación.
  - Para Elegir una clase de almacenamiento predeterminado para tus datos, selecciona lo siguiente:Estándar.
  - En Elige cómo controlar el acceso a los objetos, selecciona una opción de Control de acceso.
  - Para la Configuración avanzada (opcional), especifica un método de encriptación, una política de retención o etiquetas de bucket.
4. Haga clic en Crear.

Prepare su entorno de trabajo

Descarga los archivos de inicio y, luego, crea tu repositorio de Artifact Registry.

Descarga los archivos de inicio

Descarga los archivos de inicio y, luego, cambia de directorio.

Clona el repositorio python-docs-samples.

git clone https://github.com/GoogleCloudPlatform/python-docs-samples.git

Dirígete al directorio del código de muestra.

cd python-docs-samples/dataflow/gpu-examples/tensorflow-landsat

Configura Artifact Registry

Crea un repositorio de Artifact Registry para poder subir artefactos. Cada repositorio puede contener artefactos para un formato compatible único.

Todo el contenido del repositorio se encripta con claves de encriptación administradas por Google o administradas por el cliente. Artifact Registry usa claves de encriptación administradas por Google de forma predeterminada y no se requiere ninguna configuración para esta opción.

Debes tener al menos el acceso de escritor de Artifact Registry al repositorio.

Ejecuta el siguiente comando para crear un repositorio nuevo. El comando usa la marca --async y se muestra de inmediato, sin necesidad de esperar a que se complete la operación en curso.

gcloud artifacts repositories create REPOSITORY \
    --repository-format=docker \
    --location=LOCATION \
    --async

Reemplaza REPOSITORY por un nombre para tu repositorio. Para la ubicación de cada repositorio en un proyecto, los nombres de los repositorios deben ser únicos.

Antes de poder enviar o extraer imágenes, configura Docker para autenticar solicitudes de Artifact Registry. Para configurar la autenticación en los repositorios de Docker, ejecuta el siguiente comando:

gcloud auth configure-docker LOCATION-docker.pkg.dev

El comando actualiza tu configuración de Docker. Ahora puedes conectarte con Artifact Registry en tu proyecto de Google Cloud para enviar imágenes.

Compila la imagen de Docker

Cloud Build te permite compilar una imagen de Docker con un Dockerfile y guardarla en Artifact Registry, donde la imagen es accesible para otros productos de Google Cloud.

Compila la imagen de contenedor con el archivo de configuración build.yaml.

gcloud builds submit --config build.yaml

Ejecuta el trabajo de Dataflow con GPU

En el siguiente bloque de código, se muestra cómo iniciar esta canalización de Dataflow con GPU.

Ejecutamos la canalización de Dataflow mediante el archivo de configuración run.yaml.

export PROJECT=PROJECT_NAME
export BUCKET=BUCKET_NAME

export JOB_NAME="satellite-images-$(date +%Y%m%d-%H%M%S)"
export OUTPUT_PATH="gs://$BUCKET/samples/dataflow/landsat/output-images/"
export REGION="us-central1"
export GPU_TYPE="nvidia-tesla-t4"

gcloud builds submit \
    --config run.yaml \
    --substitutions _JOB_NAME=$JOB_NAME,_OUTPUT_PATH=$OUTPUT_PATH,_REGION=$REGION,_GPU_TYPE=$GPU_TYPE \
    --no-source

Reemplaza lo siguiente:

PROJECT_NAME: el nombre del proyecto de Google Cloud
BUCKET_NAME: Es el nombre del bucket de Cloud Storage (sin el prefijo gs://).

Después de ejecutar esta canalización, espera a que el comando termine. Si sales de tu shell, es posible que pierdas las variables de entorno que configuraste.

Para evitar compartir la GPU entre varios procesos de trabajador, en esta muestra se usa un tipo de máquina con 1 CPU virtual. Los requisitos de memoria de la canalización se abordan con 13 GB de memoria extendida. Para obtener más información, consulta Paralelismo de trabajadores y GPU.

Ve los resultados

La canalización en tensorflow-landsat/main.py procesa imágenes satelitales de Landsat 8 y las procesa como archivos JPEG. Para ver estos archivos, sigue los pasos que se indican a continuación:

Enumera los archivos JPEG de salida con detalles mediante gsutil.
```
gsutil ls -lh "gs://$BUCKET/samples/dataflow/landsat/"
```

Copia los archivos en tu directorio local.

mkdir outputs
gsutil -m cp "gs://$BUCKET/samples/dataflow/landsat/*" outputs/

Abre estos archivos de imagen con el visor de imágenes que prefieras.

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste para el instructivo.

Para borrar el proyecto, sigue estos pasos:

Precaución: Borrar un proyecto tiene estas consecuencias:

Se borra todo en el proyecto. Si usaste un proyecto existente para las tareas de este documento, cuando lo borres, también se borrará cualquier otro trabajo que hayas realizado en el proyecto.
Se pierden los ID personalizados de proyectos. Cuando creaste este proyecto, es posible que hayas creado un ID del proyecto personalizado que desees utilizar en el futuro. Para conservar las URL que utilizan el ID del proyecto, como una URL appspot.com, borra los recursos seleccionados dentro del proyecto en lugar de borrar todo el proyecto.

Si planeas explorar varias infraestructuras, instructivos y guías de inicio rápido la reutilización de proyectos puede ayudarte a evitar exceder los límites de las cuotas del proyecto.

En la consola de Google Cloud, ve a la página Administrar recursos.
Ir a Administrar recursos
En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

¿Qué sigue?

Mira un ejemplo mínimo de TensorFlow habilitado para GPU.
Mira un ejemplo de PyTorch con la GPU mínima habilitada
Obtén más información sobre la compatibilidad con GPU en Dataflow.
Examina las tareas para usar GPU.
Explora arquitecturas de referencia, diagramas y prácticas recomendadas sobre Google Cloud. Consulta nuestro Cloud Architecture Center.