Elabora i dati genomici utilizzando Cloud Life Sciences

Questa pagina spiega come eseguire una pipeline genomica che utilizza l'API Cloud Life Sciences per creare un file indice (file BAI) da un file binario contenente DNA sequenze (file BAM).

I file BAM sono in genere di grandi dimensioni e la lettura mediante un genoma può richiedere molto tempo visualizzatore. Utilizzi un file BAI per individuare le parti del file BAM che contengono la posizione del genoma che ti interessa.

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Abilita le API Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

    Abilita le API

  5. Install the Google Cloud CLI.
  6. To initialize the gcloud CLI, run the following command:

    gcloud init
  7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  8. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  9. Abilita le API Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

    Abilita le API

  10. Install the Google Cloud CLI.
  11. To initialize the gcloud CLI, run the following command:

    gcloud init
  12. In alternativa, puoi utilizzare Cloud Shell, che è già installato con gcloud CLI.

  13. Installa Python 3.8.

    Se usi Windows e hai lasciato la casella di controllo pertinente selezionata quando hai installato Google Cloud CLI, l'operazione è stata eseguita automaticamente.

esegui la pipeline.

Per eseguire la pipeline, completa i seguenti passaggi:

  1. Crea un bucket in cui archiviare il file BAI. I bucket sono i container di base di Cloud Storage in cui vengono archiviati i dati. Per creare un bucket denominato PROJECT_ID-life-sciences, esegui gcloud storage buckets create :

    gcloud storage buckets create gs://PROJECT_ID-life-sciences
    

    Sostituisci PROJECT_ID con l'ID del tuo progetto Google Cloud. Tu un nome bucket univoco a livello globale.

    In caso di esito positivo, il comando restituisce quanto segue:

    Creating gs://PROJECT_ID-life-sciences
    
  2. Per avviare la pipeline, esegui gcloud beta lifesciences pipelines run :

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

    In caso di esito positivo, il comando restituisce quanto segue:

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    

    Prendi nota dell'OPERATION_ID, che utilizzerai nel passaggio successivo.

  3. Per monitorare lo stato della pipeline, esegui il comando Comando gcloud beta lifesciences operations wait. Sostituisci OPERATION_ID con il valore stampato nel passaggio precedente. Il completamento della pipeline richiede alcuni minuti.

    gcloud beta lifesciences operations wait OPERATION_ID
    

    Al termine dell'operazione, viene restituito il seguente messaggio:

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  4. Per verificare che il file BAI sia stato generato, esegui il comando gcloud storage ls:

    gcloud storage ls gs://PROJECT_ID-life-sciences
    

    In caso di esito positivo, il comando restituisce quanto segue:

    gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

Hai eseguito una pipeline utilizzando l'API Cloud Life Sciences per creare un file BAI da un file BAM. Utilizza un visualizzatore del genoma per esaminare NA12878.chr20.sample.bam file BAM utilizzando il file indice NA12878.chr20.sample.bam.bai.

Esegui la pulizia

Per evitare che al tuo account Google Cloud vengano addebitati costi per le risorse utilizzate in questa pagina, segui questi passaggi.

Elimina il file BAI

Per eliminare il file BAI generato mantenendo il progetto e il bucket che hai creato, Esegui il comando gcloud storage rm:

gcloud storage rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Elimina il bucket

Se hai creato il bucket appositamente per questa guida rapida e non hai più ma se vuoi conservare il progetto, elimina il bucket Comando gcloud storage rm. L'eliminazione del elimina anche il file BAI generato.

gcloud storage rm gs://PROJECT_ID-life-sciences --recursive

Elimina il progetto

Se hai creato il progetto appositamente per questa guida rapida e non puoi eliminare il progetto. L'eliminazione del progetto comporta anche l'eliminazione del file BAI e nel bucket Cloud Storage.

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Com'è andata?

Passaggi successivi