Diese Seite wurde von der Cloud Translation API übersetzt.

Nextflow ausführen

Auf dieser Seite wird erläutert, wie Sie eine Nextflow-Pipeline in Google Cloudausführen.

Die in dieser Anleitung verwendete Pipeline ist ein Proof of Concept für eine RNA-Seq-Pipeline, mit der die Nextflow-Nutzung auf Google Cloudveranschaulicht werden soll.

Ziele

Nach Abschluss dieser Anleitung beherrschen Sie Folgendes:

Installieren Sie Nextflow in Cloud Shell.
Nextflow-Pipeline konfigurieren.
Pipeline mit Nextflow auf Google Cloudausführen.

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Compute Engine
Cloud Storage

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.

Neuen Google Cloud Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweise

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Make sure that billing is enabled for your Google Cloud project.
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage APIs.
Enable the APIs

Cloud Storage-Bucket erstellen

Erstellen Sie einen eindeutig benannten Bucket. Folgen Sie dazu den Benennungsrichtlinien für Buckets. Der Bucket speichert während dieser Anleitung temporäre Arbeiten und Ausgabedateien. Aus Gründen der DNS-Kompatibilität funktioniert diese Anleitung nicht mit Bucket-Namen, die einen Unterstrich (_) enthalten.

Console

Wechseln Sie in der Google Cloud Console zur Seite Cloud Storage-Browser:

Browser aufrufen
Klicken Sie auf Bucket erstellen.
Geben Sie auf der Seite Bucket erstellen die Bucket-Informationen ein.
Klicken Sie auf Erstellen.

gcloud

Öffnen Sie Cloud Shell:

Zu Cloud Shell
Führen Sie den Befehl gcloud storage buckets create aus:
```
gcloud storage buckets create gs://BUCKET_NAME
```
Ersetzen Sie BUCKET_NAME durch den Namen, den Sie Ihrem Bucket geben möchten. Beachten Sie dabei die Benennungsanforderungen. Beispiel: my-bucket

Wenn die Anfrage erfolgreich ist, gibt der Befehl die folgende Meldung zurück:
```
Creating gs://BUCKET_NAME/...
```

Dienstkonto erstellen und Rollen hinzufügen

Führen Sie die folgenden Schritte aus, um ein Dienstkonto zu erstellen und die folgenden Rollen für die Identitäts- und Zugriffsverwaltung hinzuzufügen:

Cloud Life Sciences-Workflows-Ausführer
Dienstkontonutzer
Service Usage-Nutzer
Storage-Objekt-Administrator

Console

Erstellen Sie mit der Google Cloud -Konsole ein Dienstkonto:

Rufen Sie in der Google Cloud Console die Seite Dienstkonten auf.

Zur Seite "Dienstkonten"
Klicken Sie auf Dienstkonto erstellen.
Geben Sie im Feld Name des Dienstkontos den Wert nextflow-service-account ein und klicken Sie auf Erstellen.
Fügen Sie im Abschnitt Diesem Dienstkonto Zugriff auf das Projekt erteilen die folgenden Rollen aus der Drop-down-Liste Rolle auswählen hinzu:
- Cloud Life Sciences-Workflows-Ausführer
- Dienstkontonutzer
- Service Usage-Nutzer
- Storage-Objekt-Administrator
Klicken Sie auf Weiter und dann auf Fertig.
Suchen Sie auf der Seite Dienstkonten das von Ihnen erstellte Dienstkonto. Klicken Sie in der Zeile des Dienstkontos auf die und anschließend auf Schlüssel verwalten.
Klicken Sie auf der Seite Schlüssel auf Schlüssel hinzufügen und dann auf Neuen Schlüssel erstellen.
Wählen Sie als Schlüsseltyp JSON aus und klicken Sie auf Erstellen.

Eine JSON-Datei mit Ihrem Schlüssel wird auf Ihren Computer heruntergeladen.

gcloud

Führen Sie die folgenden Schritte mit Cloud Shell aus:

Cloud Shell öffnen

Zu Cloud Shell

Legen Sie die Variablen fest, die beim Erstellen des Dienstkontos verwendet werden sollen. Ersetzen Sie dabei PROJECT_ID durch Ihre Projekt-ID.

export PROJECT=PROJECT_ID
export SERVICE_ACCOUNT_NAME=nextflow-service-account
export SERVICE_ACCOUNT_ADDRESS=${SERVICE_ACCOUNT_NAME}@${PROJECT}.

Erstellen Sie das Dienstkonto.

gcloud iam service-accounts create ${SERVICE_ACCOUNT_NAME}

Das Dienstkonto muss die folgenden IAM-Rollen enthalten:

roles/lifesciences.workflowsRunner
roles/iam.serviceAccountUser
roles/serviceusage.serviceUsageConsumer
roles/storage.objectAdmin

Weisen Sie diese Rollen durch Ausführen folgender Befehle in Cloud Shell zu:

gcloud projects add-iam-policy-binding ${PROJECT} \
    --member serviceAccount:${SERVICE_ACCOUNT_ADDRESS} \
    --role roles/lifesciences.workflowsRunner

gcloud projects add-iam-policy-binding ${PROJECT} \
    --member serviceAccount:${SERVICE_ACCOUNT_ADDRESS} \
    --role roles/iam.serviceAccountUser

gcloud projects add-iam-policy-binding ${PROJECT} \
    --member serviceAccount:${SERVICE_ACCOUNT_ADDRESS} \
    --role roles/serviceusage.serviceUsageConsumer

gcloud projects add-iam-policy-binding ${PROJECT} \
    --member serviceAccount:${SERVICE_ACCOUNT_ADDRESS} \
    --role roles/storage.objectAdmin

Anmeldedaten für Ihre Anwendung bereitstellen

Sie können Anmeldedaten zur Authentifizierung für Ihren Anwendungscode oder Ihre Befehle angeben. Legen Sie hierfür die Umgebungsvariable GOOGLE_APPLICATION_CREDENTIALS auf den Pfad der JSON-Datei fest, die Ihren Dienstkontoschlüssel enthält.

Folgende Schritte zeigen, wie Sie die Umgebungsvariable GOOGLE_APPLICATION_CREDENTIALS festlegen:

Console

Cloud Shell öffnen

Zu Cloud Shell
Wählen Sie im Cloud Shell-Menü Mehr die Option Datei hochladen und dann die JSON-Schlüsseldatei aus, die Sie erstellt haben. Die Datei wird in das Basisverzeichnis der Cloud Shell-Instanz hochgeladen.
Bestätigen Sie, dass sich die hochgeladene Datei in Ihrem aktuellen Verzeichnis befindet, und bestätigen Sie den Dateinamen. Führen Sie dafür den folgenden Befehl aus:
```
ls
```
Legen Sie die Anmeldedaten fest und ersetzen Sie dabei KEY_FILENAME.json durch den Namen Ihrer Schlüsseldatei.
```
export GOOGLE_APPLICATION_CREDENTIALS=${PWD}/KEY_FILENAME.json
```

gcloud

Führen Sie die folgenden Schritte mit Cloud Shell aus:

Cloud Shell öffnen

Zu Cloud Shell
Wählen Sie im Cloud Shell-Menü Mehr die Option Datei hochladen und dann die JSON-Schlüsseldatei aus, die Sie erstellt haben. Die Datei wird in das Basisverzeichnis der Cloud Shell-Instanz hochgeladen.
Bestätigen Sie, dass sich die hochgeladene Datei in Ihrem aktuellen Verzeichnis befindet, und bestätigen Sie den Dateinamen. Führen Sie dafür den folgenden Befehl aus:
```
ls
```

Legen Sie die Datei mit dem privaten Schlüssel auf die Umgebungsvariable GOOGLE_APPLICATION_CREDENTIALS fest:

export SERVICE_ACCOUNT_KEY=${SERVICE_ACCOUNT_NAME}-private-key.json
gcloud iam service-accounts keys create \
  --iam-account=${SERVICE_ACCOUNT_ADDRESS} \
  --key-file-type=json ${SERVICE_ACCOUNT_KEY}
export SERVICE_ACCOUNT_KEY_FILE=${PWD}/${SERVICE_ACCOUNT_KEY}
export GOOGLE_APPLICATION_CREDENTIALS=${PWD}/${SERVICE_ACCOUNT_KEY}

NextFlow in Cloud Shell installieren und konfigurieren

Damit Sie keine Software auf Ihrem Computer installieren müssen, führen Sie alle Terminalbefehle in dieser Anleitung in Cloud Shell aus.

Falls noch nicht geschehen, öffnen Sie Cloud Shell.

Zu Cloud Shell

Führen Sie die folgenden Befehle aus, um Nextflow zu installieren:

export NXF_VER=21.10.0
export NXF_MODE=google
curl https://get.nextflow.io | bash

Wenn die Installation erfolgreich abgeschlossen wurde, wird folgende Meldung angezeigt:

    N E X T F L O W
version 21.10.0 build 5430
created 01-11-2020 15:14 UTC (10:14 EDT)
cite doi:10.1038/nbt.3820
http://nextflow.io

Nextflow installation completed. Please note:
‐ the executable file `nextflow` has been created in the folder: DIRECTORY
‐ you may complete the installation by moving it to a directory in your $PATH

Führen Sie den folgenden Befehl aus, um das Beispiel-Pipeline-Repository zu klonen. Das Repository enthält die auszuführende Pipeline und die von der Pipeline verwendeten Beispieldaten.
```
git clone https://github.com/nextflow-io/rnaseq-nf.git
```
Zum Konfigurieren von Nextflow führen Sie folgende Schritte aus:
1. Wechseln Sie in den Ordner rnaseq-nf.
```
cd rnaseq-nf
git checkout v2.0
```
2. Bearbeiten Sie die Datei nextflow.config mit einem beliebigen Texteditor und führen Sie die folgenden Aktualisierungen in dem Abschnitt mit der Bezeichnung gls aus:
  - Fügen Sie die Zeile google.project hinzu, falls es nicht vorhanden ist.
  - Ersetzen Sie PROJECT_ID durch Ihre Projekt-ID.
  - Ändern Sie bei Bedarf den Wert von google.location. Dieser muss einer der derzeit verfügbaren Cloud Life Sciences API-Standorte sein.
  - Ändern Sie bei Bedarf den Wert von google.region. Er gibt die Region an, in der die Compute Engine-VMs gestartet werden. Siehe verfügbare Compute Engine-Regionen und -Zonen.
  - Ersetzen Sie BUCKET durch den zuvor erstellten Bucket-Namen.
  - Ersetzen Sie WORK_DIR durch den Namen des Ordners, der für Protokollierung und Ausgabe verwendet werden soll. Verwenden Sie einen neuen Verzeichnisnamen, der in Ihrem Bucket noch nicht vorhanden ist.
  Hinweis: Der Speicherort der Variablen workDir muss mindestens ein Unterverzeichnis enthalten. Verwenden Sie nicht nur den Bucket-Namen.
```
gls {
   params.transcriptome = 'gs://rnaseq-nf/data/ggal/transcript.fa'
   params.reads = 'gs://rnaseq-nf/data/ggal/gut_{1,2}.fq'
   params.multiqc = 'gs://rnaseq-nf/multiqc'
   process.executor = 'google-lifesciences'
   process.container = 'nextflow/rnaseq-nf:latest'
   workDir = 'gs://BUCKET/WORK_DIR'
   google.location = 'europe-west2'
   google.region  = 'europe-west1'
   google.project = 'PROJECT_ID'
}
```
3. Wechseln Sie zurück zum vorherigen Ordner.
```
cd ..
```

Führen Sie die Pipeline mit Nextflow aus.

Führen Sie die Pipeline mit Nextflow aus. Nachdem die Pipeline gestartet wurde, wird sie bis zum Abschluss im Hintergrund ausgeführt. Es kann bis zu zehn Minuten dauern, bis die Pipeline abgeschlossen ist.

./nextflow run rnaseq-nf/main.nf -profile gls

Wenn die Pipeline abgeschlossen ist, wird folgende Meldung angezeigt:

N E X T F L O W  ~  version 21.10.0
Launching `rnaseq-nf/main.nf` [suspicious_mestorf] - revision: ef908c0bfd
R N A S E Q - N F   P I P E L I N E
 ===================================
 transcriptome: gs://rnaseq-nf/data/ggal/transcript.fa
 reads        : gs://rnaseq-nf/data/ggal/gut_{1,2}.fq
 outdir       : results
executor >  google-lifesciences (4)
[db/2af640] process > RNASEQ:INDEX (transcript)     [100%] 1 of 1 ✔
[a6/927725] process > RNASEQ:FASTQC (FASTQC on gut) [100%] 1 of 1 ✔
[59/438177] process > RNASEQ:QUANT (gut)            [100%] 1 of 1 ✔
[9a/9743b9] process > MULTIQC                       [100%] 1 of 1 ✔
Done! Open the following report in your browser --> results/multiqc_report.html
Completed at: DATE TIME
Duration    : 10m
CPU hours   : 0.2
Succeeded   : 4

Ausgabe der Nextflow-Pipeline anzeigen lassen

Nach Abschluss der Pipeline können Sie die Ausgabe und alle Logs, Fehler, ausgeführten Befehle und temporären Dateien prüfen.

Die Pipeline speichert die endgültige Ausgabedatei results/qc_report.html im Cloud Storage-Bucket, den Sie in der Datei nextflow.config angegeben haben.

Führen Sie folgende Schritte aus, um einzelne Ausgabedateien der einzelnen Aufgaben und Zwischendateien zu prüfen:

Console

Öffnen Sie in der Cloud Storage-Konsole die Seite Storage-Browser:

Zum Cloud Storage Browser
Rufen Sie BUCKET auf und gehen Sie zum WORK_DIR, das in der Datei nextflow.config angegeben ist.
Für jede Aufgabe, die in der Pipeline ausgeführt wurde, gibt es einen Ordner.
Der Ordner enthält die ausgeführten Befehle, die Ausgabedateien und die temporären Dateien, die während des Workflows verwendet wurden.

gcloud

Öffnen Sie Cloud Shell, um die Ausgabedateien in Cloud Shell anzuzeigen:

Zu Cloud Shell
Führen Sie den folgenden Befehl aus, um die Ausgaben in Ihrem Cloud Storage-Bucket aufzulisten. Aktualisieren Sie BUCKET und WORK_DIR in die in der Datei nextflow.config angegebenen Variablen.
```
gcloud storage ls gs://BUCKET/WORK_DIR
```
In der Ausgabe wird für jede ausgeführte Aufgabe ein Ordner angezeigt. Listen Sie auch den Inhalt der nachfolgenden Unterverzeichnisse auf, damit Sie alle von der Pipeline erstellten Dateien sehen können. Aktualisieren Sie TASK_FOLDER, einen der Aufgabenordner, die aus dem vorherigen Befehl aufgelistet wurden.
```
gcloud storage ls gs://BUCKET/WORK_DIR/FOLDER/TASK_FOLDER
```

Sie können sich die Zwischendateien ansehen, die von der Pipeline erstellt wurden, und entscheiden, welche Sie behalten möchten. Alternativ können Sie die Dateien entfernen, um die mit Cloud Storage verbundenen Kosten zu reduzieren. Informationen zum Entfernen der Dateien finden Sie unter Zwischendateien in einem Cloud Storage-Bucket entfernen.

Fehlerbehebung

Informationen zu Problemen beim Ausführen der Pipeline finden Sie unter Cloud Life Sciences API – Fehlerbehebung.
Wenn Ihre Pipeline nicht erfolgreich ausgeführt werden konnte, können Sie die Logs der jeweiligen Aufgaben überprüfen. Sehen Sie sich hierzu die Logdateien in den einzelnen Ordnern in Cloud Storage an, z. B. .command.err, .command.log, .command.out und so weiter.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Nachdem Sie die Anleitung abgeschlossen haben, können Sie die erstellten Ressourcen bereinigen, damit sie keine Kontingente mehr verwenden und keine Gebühren mehr anfallen. In den folgenden Abschnitten erfahren Sie, wie Sie diese Ressourcen löschen oder deaktivieren.

Zwischendateien im Cloud Storage-Bucket löschen

Die Pipeline speichert während der Ausführung Zwischendateien in gs://BUCKET/WORK_DIR. Sie können die Dateien nach Abschluss des Workflows entfernen, um die Kosten für Cloud Storage zu reduzieren.

Führen Sie folgenden Befehl aus, um den im Verzeichnis verwendeten Speicherplatz anzuzeigen:

gcloud storage du gs://BUCKET/WORK_DIR --readable-sizes --summarize

Führen Sie die folgenden Schritte aus, um Dateien aus WORK_DIR zu entfernen:

Console

Öffnen Sie in der Cloud Storage-Konsole die Seite Storage-Browser:

Zum Cloud Storage Browser
Rufen Sie BUCKET auf und gehen Sie zum WORK_DIR, das in der Datei nextflow.config angegeben ist.
Durchsuchen Sie die Unterordner und löschen Sie alle nicht benötigten Dateien oder Verzeichnisse. Wenn Sie alle Dateien löschen möchten, löschen Sie das gesamte WORK_DIR.

gcloud

Öffnen Sie Cloud Shell und führen Sie Folgendes aus:

Zu Cloud Shell
Führen Sie folgenden Befehl aus, um die Zwischendateien im Verzeichnis WORK_DIR zu entfernen:
```
gcloud storage rm gs://BUCKET/WORK_DIR/**
```

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, z. B. eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, statt das gesamte Projekt.

Wenn Sie mehrere Architekturen, Anleitungen und Kurzanleitungen durcharbeiten möchten, können Sie die Überschreitung von Projektkontingenten verhindern, indem Sie Projekte wiederverwenden.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Nächste Schritte

Auf den folgenden Seiten finden Sie weitere Hintergrundinformationen, Dokumentationen und Unterstützung zur Verwendung von Nextflow:

Nextflow ausführen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Ziele

Kosten

Hinweise

Cloud Storage-Bucket erstellen

Console

gcloud

Dienstkonto erstellen und Rollen hinzufügen

Console

gcloud

Anmeldedaten für Ihre Anwendung bereitstellen

Console

gcloud

NextFlow in Cloud Shell installieren und konfigurieren

Führen Sie die Pipeline mit Nextflow aus.

Ausgabe der Nextflow-Pipeline anzeigen lassen

Console

gcloud

Fehlerbehebung

Bereinigen

Zwischendateien im Cloud Storage-Bucket löschen

Console

gcloud

Projekt löschen

Nächste Schritte

Nextflow ausführen