Cloud Life Sciences wurde eingestellt und ist nach dem 8. Juli 2025 nicht mehr in Google Cloud verfügbar. Anwendungsfälle für Cloud Life Sciences werden jetzt von Batch unterstützt. Informationen zum Migrieren Ihrer Arbeitslast finden Sie unter Zu Batch migrieren.

Kurzanleitung: Mit Cloud Life Sciences genomische Daten verarbeiten

Genomische Daten mit Cloud Life Sciences verarbeiten

Auf dieser Seite wird erläutert, wie Sie eine Genomics-Pipeline ausführen, die mit der Cloud Life Sciences API aus einer Binärdatei mit DNA-Sequenzen (BAM-Datei) eine Indexdatei (BAI-Datei) erstellt.

BAM-Dateien sind in der Regel groß und können mit einem Genom-Viewer sehr lange lesen. Mit einer BAI-Datei suchen Sie die Teile der BAM-Datei, die die für Sie interessante Genomposition enthalten.

Hinweise

Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

Zur Projektauswahl

Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs aktivieren.

Aktivieren Sie die APIs

Installieren Sie die Google Cloud CLI.

Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

gcloud init

Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

Zur Projektauswahl

Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs aktivieren.

Aktivieren Sie die APIs

Installieren Sie die Google Cloud CLI.

Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

gcloud init

Alternativ können Sie Cloud Shell verwenden, in der die gcloud CLI bereits installiert ist.

Installieren Sie Python 3.8.
Wenn Sie Windows verwenden und das entsprechende Kästchen bei der Installation der Google Cloud CLI angeklickt haben, erfolgt dies automatisch.

Pipeline ausführen

Führen Sie die folgenden Schritte aus, um die Pipeline auszuführen:

Erstellen Sie einen Bucket, in dem Sie die BAI-Datei speichern. Buckets sind die grundlegenden Container für Ihre Daten in Cloud Storage. Führen Sie den Befehl gsutil mb aus, um einen Bucket mit dem Namen PROJECT_ID-life-sciences zu erstellen:
```
gsutil mb gs://PROJECT_ID-life-sciences
```
Ersetzen Sie PROJECT_ID durch Ihre Google Cloud-Projekt-ID. Verwenden Sie einen global eindeutigen Bucket-Namen.
Siehe "Anforderungen für Bucket-Namen".
- Bucket-Namen dürfen nur Kleinbuchstaben, Ziffern, Bindestriche (-), Unterstriche (_) und Punkte (.) enthalten. Leerzeichen sind nicht zulässig. Für Namen mit Punkten ist eine Bestätigung erforderlich.
- Bucket-Namen müssen mit einer Ziffer oder einem Buchstaben beginnen und enden.
- Bucket-Namen dürfen 3 bis 63 Zeichen lang sein. Namen mit Punkten dürfen bis zu 222 Zeichen lang sein, wobei jeder durch einen Punkt getrennte Teil nicht mehr als 63 Zeichen enthalten darf.
- Bucket-Namen dürfen nicht wie eine IP-Adresse im Dezimalformat mit Punkten als Trennzeichen dargestellt werden (z. B. 192.168.5.4).
- Bucket-Namen dürfen nicht mit dem Präfix "goog" beginnen.
- Bucket-Namen dürfen weder das Wort "google" noch ähnliche, falsch geschriebene Versionen des Wortes (z. B. "g00gle") enthalten.
Achtung :Der Bucket-Name darf keine vertraulichen Informationen enthalten, da der Bucket-Namespace global und öffentlich sichtbar ist.

Wenn der Prozess erfolgreich durchgeführt wurde, gibt der Befehl Folgendes zurück:
```
Creating gs://PROJECT_ID-life-sciences
```

Führen Sie den Befehl gcloud beta lifesciences pipelines run aus, um die Pipeline zu starten:

gcloud beta lifesciences pipelines run \
    --regions us-east1 \
    --command-line 'samtools index ${BAM} ${BAI}' \
    --docker-image "gcr.io/cloud-lifesciences/samtools" \
    --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
    --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Wenn der Prozess erfolgreich durchgeführt wurde, gibt der Befehl Folgendes zurück:

Running [projects/PROJECT_ID/operations/OPERATION_ID]

Notieren Sie sich die OPERATION_ID, die Sie im nächsten Schritt verwenden.

Führen Sie den Befehl gcloud beta lifesciences operations wait aus, um den Status der Pipeline zu verfolgen. Ersetzen Sie OPERATION_ID durch den im vorherigen Schritt ausgegebenen Wert. Es kann mehrere Minuten dauern, bis die Pipeline abgeschlossen ist.
```
gcloud beta lifesciences operations wait OPERATION_ID
```
Nachdem der Vorgang abgeschlossen ist, wird die folgende Meldung zurückgegeben:
```
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
```
Prüfen Sie mit dem Befehl gsutil ls, ob die BAI-Datei generiert wurde:
```
gsutil ls gs://PROJECT_ID-life-sciences
```
Wenn der Prozess erfolgreich durchgeführt wurde, gibt der Befehl Folgendes zurück:
```
gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
```

Sie haben eine Pipeline mit der Cloud Life Sciences API ausgeführt, um eine BAI-Datei aus einer BAM-Datei zu erstellen. Verwenden Sie einen Genom-Viewer, um die BAM-Datei NA12878.chr20.sample.bam anhand der Indexdatei NA12878.chr20.sample.bam.bai zu untersuchen.

Bereinigen

So vermeiden Sie, dass Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:

BAI-Datei löschen

Führen Sie den Befehl gsutil rm aus, um die generierte BAI-Datei zu löschen, aber das von Ihnen erstellte Projekt und den Bucket beizubehalten:

gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Bucket löschen

Wenn Sie den Bucket speziell für diese Kurzanleitung erstellt haben und ihn nicht mehr benötigen, aber das Projekt behalten möchten, löschen Sie den Bucket mit dem Befehl gsutil rb. Durch das Löschen des Buckets wird auch die generierte BAI-Datei gelöscht.

gsutil rb gs://PROJECT_ID-life-sciences

Projekt löschen

Wenn Sie das Projekt speziell für diesen Schnellstart erstellt haben und es nicht mehr benötigen, können Sie das Projekt löschen. Dabei werden auch die BAI-Datei und der Cloud Storage-Bucket gelöscht.

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, z. B. eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, statt das gesamte Projekt.

Wenn Sie mehrere Architekturen, Anleitungen und Kurzanleitungen durcharbeiten möchten, können Sie die Überschreitung von Projektkontingenten verhindern, indem Sie Projekte wiederverwenden.

Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.
Zur Seite „Ressourcen verwalten“
Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.