Genomische Daten mit Cloud Life Sciences verarbeiten
<ph type="x-smartling-placeholder">Auf dieser Seite wird erläutert, wie Sie eine Genomics-Pipeline ausführen, die mit der Cloud Life Sciences API aus einer Binärdatei mit DNA-Sequenzen (BAM-Datei) eine Indexdatei (BAI-Datei) erstellt.
BAM-Dateien sind in der Regel groß und das Lesen mit einem Genom kann lange dauern. Zuschauer. Sie verwenden eine BAI-Datei, um die Teile der BAM-Datei zu finden, die Folgendes enthalten: an der Sie interessiert sind.
Hinweise
- Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs aktivieren.
- Installieren Sie die Google Cloud CLI.
-
Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs aktivieren.
- Installieren Sie die Google Cloud CLI.
-
Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:
gcloud init
- Installieren Sie Python 3.8.
Wenn Sie Windows verwenden und beim letzten Mal das relevante Kästchen ausgewählt haben, die Google Cloud CLI installiert haben, dies erfolgte automatisch.
Alternativ können Sie Cloud Shell verwenden. Dort ist die gcloud CLI bereits installiert.
Pipeline ausführen
Führen Sie die folgenden Schritte aus, um die Pipeline auszuführen:
Erstellen Sie einen Bucket, in dem Sie die BAI-Datei speichern. Buckets sind die grundlegenden Container für Ihre Daten in Cloud Storage. Führen Sie den Befehl
gsutil mb
aus, um einen Bucket mit dem NamenPROJECT_ID-life-sciences
zu erstellen:gsutil mb gs://PROJECT_ID-life-sciences
Ersetzen Sie PROJECT_ID durch Ihre Google Cloud-Projekt-ID. Verwenden Sie einen global eindeutigen Bucket-Namen.
Wenn der Prozess erfolgreich durchgeführt wurde, gibt der Befehl Folgendes zurück:
Creating gs://PROJECT_ID-life-sciences
Führen Sie den Befehl
gcloud beta lifesciences pipelines run
aus, um die Pipeline zu starten:gcloud beta lifesciences pipelines run \ --regions us-east1 \ --command-line 'samtools index ${BAM} ${BAI}' \ --docker-image "gcr.io/cloud-lifesciences/samtools" \ --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \ --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
Wenn der Prozess erfolgreich durchgeführt wurde, gibt der Befehl Folgendes zurück:
Running [projects/PROJECT_ID/operations/OPERATION_ID]
Notieren Sie sich die OPERATION_ID, die Sie im nächsten Schritt verwenden.
Führen Sie den Befehl
gcloud beta lifesciences operations wait
aus, um den Status der Pipeline zu verfolgen. Ersetzen Sie OPERATION_ID durch den im vorherigen Schritt ausgegebenen Wert. Es kann mehrere Minuten dauern, bis die Pipeline abgeschlossen ist.gcloud beta lifesciences operations wait OPERATION_ID
Nachdem der Vorgang abgeschlossen ist, wird die folgende Meldung zurückgegeben:
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
Prüfen Sie mit dem Befehl
gsutil ls
, ob die BAI-Datei generiert wurde:gsutil ls gs://PROJECT_ID-life-sciences
Wenn der Prozess erfolgreich durchgeführt wurde, gibt der Befehl Folgendes zurück:
gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
Sie haben eine Pipeline mit der Cloud Life Sciences API ausgeführt, um eine BAI-Datei aus einer BAM-Datei zu erstellen. Verwenden Sie einen Genom-Viewer, um die BAM-Datei NA12878.chr20.sample.bam
anhand der Indexdatei NA12878.chr20.sample.bam.bai
zu untersuchen.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:
BAI-Datei löschen
Führen Sie den Befehl gsutil rm
aus, um die generierte BAI-Datei zu löschen, aber das von Ihnen erstellte Projekt und den Bucket beizubehalten:
gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
Bucket löschen
Wenn Sie den Bucket speziell für diese Kurzanleitung erstellt haben und ihn nicht mehr benötigen, aber das Projekt behalten möchten, löschen Sie den Bucket mit dem Befehl gsutil rb
. Durch das Löschen des Buckets wird auch die generierte BAI-Datei gelöscht.
gsutil rb gs://PROJECT_ID-life-sciences
Projekt löschen
Wenn Sie das Projekt speziell für diesen Schnellstart erstellt haben und es nicht mehr benötigen, können Sie das Projekt löschen. Dabei werden auch die BAI-Datei und der Cloud Storage-Bucket gelöscht.
- Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.
- Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
- Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.