Landsat-Satellitenbilder mit GPUs verarbeiten

In dieser Anleitung erfahren Sie, wie Sie GPUs in Dataflow verwenden, um Landsat 8-Satellitenbilder zu verarbeiten und als JPEG-Dateien zu rendern. Die Anleitung basiert auf dem Beispiel Landsat-Satellitenbilder mit GPUs verarbeiten.

Ziele

Docker-Image für Dataflow mit GPU-Unterstützung erstellen
Dataflow-Job mit GPUs ausführen

Kosten

In dieser Anleitung werden kostenpflichtige Komponenten von Google Cloud verwendet, darunter:

Cloud Storage
Dataflow
Artifact Registry

Sie können mithilfe des Preisrechners die Kosten für Ihre voraussichtliche Nutzung kalkulieren.

Hinweise

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

Install the Google Cloud CLI.

If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

To initialize the gcloud CLI, run the following command:

gcloud init

Create or select a Google Cloud project.

Create a Google Cloud project:
```
gcloud projects create PROJECT_ID
```
Replace PROJECT_ID with a name for the Google Cloud project you are creating.
Select the Google Cloud project that you created:
```
gcloud config set project PROJECT_ID
```
Replace PROJECT_ID with your Google Cloud project name.

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataflow, Cloud Build, and Artifact Registry APIs:

gcloud services enable dataflow cloudbuild.googleapis.com artifactregistry.googleapis.com

If you're using a local shell, then create local authentication credentials for your user account:

gcloud auth application-default login

You don't need to do this if you're using Cloud Shell.

Grant roles to your user account. Run the following command once for each of the following IAM roles: roles/iam.serviceAccountUser

gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE

Replace PROJECT_ID with your project ID.
Replace USER_IDENTIFIER with the identifier for your user account. For example, user:myemail@example.com.
Replace ROLE with each individual role.

Install the Google Cloud CLI.

If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

To initialize the gcloud CLI, run the following command:

gcloud init

Create or select a Google Cloud project.

Create a Google Cloud project:
```
gcloud projects create PROJECT_ID
```
Replace PROJECT_ID with a name for the Google Cloud project you are creating.
Select the Google Cloud project that you created:
```
gcloud config set project PROJECT_ID
```
Replace PROJECT_ID with your Google Cloud project name.

Make sure that billing is enabled for your Google Cloud project.

Enable the Dataflow, Cloud Build, and Artifact Registry APIs:

gcloud services enable dataflow cloudbuild.googleapis.com artifactregistry.googleapis.com

If you're using a local shell, then create local authentication credentials for your user account:

gcloud auth application-default login

You don't need to do this if you're using Cloud Shell.

Grant roles to your user account. Run the following command once for each of the following IAM roles: roles/iam.serviceAccountUser

gcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE

Replace PROJECT_ID with your project ID.
Replace USER_IDENTIFIER with the identifier for your user account. For example, user:myemail@example.com.
Replace ROLE with each individual role.

Weisen Sie Ihrem Compute Engine-Standarddienstkonto Rollen zu. Führen Sie den folgenden Befehl für jede der folgenden IAM-Rollen einmal aus: roles/dataflow.admin, roles/dataflow.worker, roles/bigquery.dataEditor, roles/pubsub.editor, roles/storage.objectAdmin und roles/artifactregistry.reader.
```
gcloud projects add-iam-policy-binding PROJECT_ID --member="serviceAccount:PROJECT_NUMBER-compute@developer.gserviceaccount.com" --role=SERVICE_ACCOUNT_ROLE
```
- Ersetzen Sie PROJECT_ID durch Ihre Projekt-ID.
- Ersetzen Sie PROJECT_NUMBER durch die Projekt-ID. Ihre Projektnummer finden Sie unter Projekte identifizieren.
- Ersetzen Sie SERVICE_ACCOUNT_ROLE durch jede einzelne Rolle.
Zum Speichern der JPEG-Ausgabe-Bilddateien aus dieser Anleitung erstellen Sie einen Cloud Storage-Bucket:
1. In the Google Cloud console, go to the Cloud Storage Buckets page.
  Go to Buckets page
2. Click Create bucket.
3. On the Create a bucket page, enter your bucket information. To go to the next step, click Continue.
  - For Name your bucket, enter a unique bucket name. Don't include sensitive information in the bucket name, because the bucket namespace is global and publicly visible.
  - For Choose where to store your data, do the following:
    - Select a Location type option.
    - Select a Location option.
  - For Choose a default storage class for your data, select the following: Standard.
  - For Choose how to control access to objects, select an Access control option.
  - For Advanced settings (optional), specify an encryption method, a retention policy, or bucket labels.
4. Click Create.

Arbeitsumgebung vorbereiten

Laden Sie die Startdateien herunter und erstellen Sie dann Ihr Artifact Registry-Repository.

Startdateien herunterladen

Laden Sie die Startdateien herunter und wechseln Sie dann das Verzeichnis.

Klonen Sie das python-docs-samples-Repository.

git clone https://github.com/GoogleCloudPlatform/python-docs-samples.git

Gehen Sie zum Beispielcode-Verzeichnis.

cd python-docs-samples/dataflow/gpu-examples/tensorflow-landsat

Artifact Registry konfigurieren

Erstellen Sie ein Artifact Registry-Repository, damit Sie Artefakte hochladen können. Jedes Repository kann Artefakte für ein einzelnes unterstütztes Format enthalten.

Alle Repository-Inhalte werden entweder mit Schlüsseln verschlüsselt, die Google gehören oder von Google verwaltet werden, oder mit vom Kunden verwaltete Verschlüsselungsschlüssel. Artifact Registry verwendet Schlüssel, die Google gehören und von Google verwaltet werden, sind standardmäßig und keine Konfiguration erforderlich für diese Option.

Sie müssen für das Repository mindestens Zugriff als Artifact Registry-Autor haben.

Führen Sie den folgenden Befehl aus, um ein neues Repository zu erstellen: Der Befehl verwendet das Flag --async und kehrt sofort zurück, ohne auf den Abschluss des Vorgangs zu warten.

gcloud artifacts repositories create REPOSITORY \
    --repository-format=docker \
    --location=LOCATION \
    --async

Ersetzen Sie REPOSITORY durch einen Namen für das Repository. Repository-Namen können für jeden Repository-Speicherort in einem Projekt nur einmal vorkommen.

Um Images per Push oder Pull übertragen zu können, konfigurieren Sie Docker für die Authentifizierung von Anfragen für Artifact Registry. Führen Sie den folgenden Befehl aus, um die Authentifizierung bei Docker-Repositories einzurichten:

gcloud auth configure-docker LOCATION-docker.pkg.dev

Mit dem Befehl wird die Docker-Konfiguration aktualisiert. Sie können jetzt eine Verbindung zu Artifact Registry in Ihrem Google Cloud-Projekt herstellen, um Images per Push zu übertragen.

Docker-Image erstellen

Mit Cloud Build können Sie ein Docker-Image mit einem Dockerfile erstellen und in Artifact Registry speichern, wo es für andere Google Cloud-Produkte zugänglich ist.

Erstellen Sie das Container-Image mithilfe der Konfigurationsdatei build.yaml.

gcloud builds submit --config build.yaml

Dataflow-Job mit GPUs ausführen

Der folgende Codeblock zeigt, wie diese Dataflow-Pipeline mit GPUs gestartet wird.

Wir führen die Dataflow-Pipeline mit der Konfigurationsdatei run.yaml aus.

export PROJECT=PROJECT_NAME
export BUCKET=BUCKET_NAME

export JOB_NAME="satellite-images-$(date +%Y%m%d-%H%M%S)"
export OUTPUT_PATH="gs://$BUCKET/samples/dataflow/landsat/output-images/"
export REGION="us-central1"
export GPU_TYPE="nvidia-tesla-t4"

gcloud builds submit \
    --config run.yaml \
    --substitutions _JOB_NAME=$JOB_NAME,_OUTPUT_PATH=$OUTPUT_PATH,_REGION=$REGION,_GPU_TYPE=$GPU_TYPE \
    --no-source

Dabei gilt:

PROJECT_NAME: der Name des Google Cloud-Projekts
BUCKET_NAME: der Name des Cloud Storage-Buckets (ohne das Präfix gs://)

Warten Sie nach dem Ausführen dieser Pipeline, bis der Befehl abgeschlossen ist. Wenn Sie die Shell beenden, gehen möglicherweise die von Ihnen festgelegten Umgebungsvariablen verloren.

In diesem Beispiel wird ein Maschinentyp mit 1 vCPU verwendet, damit die GPU nicht zwischen mehreren Worker-Prozessen geteilt wird. Die Speicheranforderungen der Pipeline werden mithilfe von 13 GB erweitertem Speicher erfüllt. Weitere Informationen finden Sie unter GPUs und Worker-Parallelität.

Ergebnisse ansehen

Die Pipeline in tensorflow-landsat/main.py verarbeitet Landsat 8-Satellitenbilder und rendert sie als JPEG-Dateien. Führen Sie die folgenden Schritte aus, um diese Dateien aufzurufen.

Listen Sie die JPEG-Ausgabedateien inklusive Details mithilfe der Google Cloud CLI auf.

gcloud storage ls "gs://$BUCKET/samples/dataflow/landsat/" --long --readable-sizes

Kopieren Sie die Dateien in Ihr lokales Verzeichnis.

mkdir outputs
gcloud storage cp "gs://$BUCKET/samples/dataflow/landsat/*" outputs/

Öffnen Sie die Bilddateien in einem beliebigen Image-Viewer Ihrer Wahl.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, z. B. eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, statt das gesamte Projekt.

Wenn Sie mehrere Architekturen, Anleitungen und Kurzanleitungen durcharbeiten möchten, können Sie die Überschreitung von Projektkontingenten verhindern, indem Sie Projekte wiederverwenden.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Nächste Schritte

Beispiel für eine minimale GPU-fähige TensorFlow-Konfiguration ansehen
Beispiel für eine minimale GPU-fähige PyTorch-Instanz ansehen
Weitere Informationen zu GPU-Unterstützung in Dataflow
Aufgaben für Verwendung von GPUs
Referenzarchitekturen, Diagramme und Best Practices zu Google Cloud kennenlernen. Weitere Informationen zu Cloud Architecture Center