Schnellstart

Auf dieser Seite wird erläutert, wie Sie eine Genomics-Pipeline ausführen, die die Cloud Life Sciences API verwendet, um eine Indexdatei (BAI-Datei) aus einer Binärdatei mit DNA-Sequenzen (BAM-Datei) zu erstellen. BAM-Dateien sind in der Regel groß und das Lesen mit einem Genombetrachter kann lange dauern. Sie verwenden eine BAI-Datei, um die Teile der BAM-Datei zu finden, die die gewünschte Genomposition enthalten.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

  4. Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs aktivieren.

    Aktivieren Sie die APIs

  5. Installieren und initialisieren Sie das Cloud SDK.
  6. Alternativ können Sie Cloud Shell verwenden, das im Lieferumfang des bereits installierten Cloud SDK enthalten ist.

  7. Installieren Sie Python 3.8.

    Wenn Sie Windows verwenden und bei der Installation des Cloud SDK das entsprechende Kästchen ausgewählt haben, wurde die Installation automatisch durchgeführt.

Pipeline ausführen

Führen Sie die folgenden Schritte aus, um die Pipeline auszuführen:

  1. Erstellen Sie einen Bucket, in dem Sie die BAI-Datei speichern. Buckets sind die grundlegenden Container für Ihre Daten in Cloud Storage. Führen Sie den Befehl gsutil mb aus, um einen Bucket mit dem Namen PROJECT_ID-life-sciences zu erstellen:

    gsutil mb gs://PROJECT_ID-life-sciences
    

    Ersetzen Sie PROJECT_ID durch Ihre Google Cloud-Projekt-ID. Sie müssen einen global eindeutigen Bucket-Namen verwenden.

    Wenn der Prozess erfolgreich durchgeführt wurde, gibt der Befehl Folgendes zurück:

    Creating gs://PROJECT_ID-life-sciences
    
  2. Führen Sie zum Starten der Pipeline den Befehl gcloud beta lifesciences pipelines run aus:

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

    Wenn der Prozess erfolgreich durchgeführt wurde, gibt der Befehl Folgendes zurück:

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    

    Notieren Sie sich den OPERATION_ID, den Sie im nächsten Schritt verwenden.

  3. Führen Sie den Befehl gcloud beta lifesciences operations wait aus, um den Status der Pipeline zu verfolgen. Ersetzen Sie OPERATION_ID durch den im vorherigen Schritt ausgegebenen Wert. Es kann mehrere Minuten dauern, bis die Pipeline abgeschlossen ist.

    gcloud beta lifesciences operations wait OPERATION_ID
    

    Nachdem der Vorgang abgeschlossen ist, wird die folgende Meldung zurückgegeben:

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  4. Prüfen Sie mit dem Befehl gsutil ls, ob die BAI-Datei generiert wurde:

    gsutil ls gs://PROJECT_ID-life-sciences
    

    Wenn der Prozess erfolgreich durchgeführt wurde, gibt der Befehl Folgendes zurück:

    gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

Sie haben eine Pipeline mit der Cloud Life Sciences API ausgeführt, um eine BAI-Datei aus einer BAM-Datei zu erstellen. Verwenden Sie einen Genombetrachter, um die BAM-Datei NA12878.chr20.sample.bam mithilfe der Indexdatei NA12878.chr20.sample.bam.bai zu prüfen.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden:

BAI-Datei löschen

Führen Sie den Befehl gsutil rm aus, um die generierte BAI-Datei zu löschen, aber das von Ihnen erstellte Projekt und den Bucket beizubehalten:

gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Bucket löschen

Wenn Sie den Bucket speziell für diese Kurzanleitung erstellt haben und ihn nicht mehr benötigen, Ihr Projekt jedoch beibehalten möchten, löschen Sie den Bucket mit dem Befehl gsutil rb. Durch das Löschen des Buckets wird auch die generierte BAI-Datei gelöscht.

gsutil rb gs://PROJECT_ID-life-sciences

Projekt löschen

Wenn Sie das Projekt speziell für diesen Schnellstart erstellt haben und es nicht mehr benötigen, können Sie das Projekt löschen. Durch das Löschen des Projekts werden auch die BAI-Datei und der Cloud Storage-Bucket gelöscht.

  1. Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Wie ist es gelaufen?

Nächste Schritte