Elabora i dati genomici utilizzando Cloud Life Sciences
Questa pagina spiega come eseguire una pipeline genomica che utilizza l'API Cloud Life Sciences per creare un file indice (file BAI) da un file binario contenente sequenze di DNA (file BAM).
I file BAM sono in genere di grandi dimensioni e possono richiedere molto tempo per essere letti utilizzando un visualizzatore di genomi. Puoi utilizzare un file BAI per individuare le parti del file BAM che contengono la posizione del genoma che ti interessa.
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.
- Installa Google Cloud CLI.
-
Per initialize gcloud CLI, esegui questo comando:
gcloud init
-
Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.
- Installa Google Cloud CLI.
-
Per initialize gcloud CLI, esegui questo comando:
gcloud init
- Installa Python 3.8.
Se utilizzi Windows e hai lasciato selezionata la casella di controllo pertinente quando hai installato Google Cloud CLI, l'operazione è stata eseguita automaticamente.
In alternativa, puoi utilizzare Cloud Shell, che include l'interfaccia alla gcloud CLI già installata.
esegui la pipeline.
Per eseguire la pipeline, completa i seguenti passaggi:
Crea un bucket in cui archiviare il file BAI. I bucket sono i container di base di Cloud Storage in cui vengono archiviati i dati. Per creare un bucket denominato
PROJECT_ID-life-sciences
, esegui il comandogsutil mb
:gsutil mb gs://PROJECT_ID-life-sciences
Sostituisci PROJECT_ID con l'ID del tuo progetto Google Cloud. Devi utilizzare un nome di bucket univoco a livello globale.
In caso di esito positivo, il comando restituisce quanto segue:
Creating gs://PROJECT_ID-life-sciences
Per avviare la pipeline, esegui il comando
gcloud beta lifesciences pipelines run
:gcloud beta lifesciences pipelines run \ --regions us-east1 \ --command-line 'samtools index ${BAM} ${BAI}' \ --docker-image "gcr.io/cloud-lifesciences/samtools" \ --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \ --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
In caso di esito positivo, il comando restituisce quanto segue:
Running [projects/PROJECT_ID/operations/OPERATION_ID]
Prendi nota della OPERATION_ID, che utilizzerai nel passaggio successivo.
Per monitorare lo stato della pipeline, esegui il comando
gcloud beta lifesciences operations wait
. Sostituisci OPERATION_ID con il valore stampato nel passaggio precedente. Il completamento della pipeline richiede alcuni minuti.gcloud beta lifesciences operations wait OPERATION_ID
Al termine dell'operazione, viene restituito il seguente messaggio:
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
Per verificare che il file BAI sia stato generato, esegui il comando
gsutil ls
:gsutil ls gs://PROJECT_ID-life-sciences
In caso di esito positivo, il comando restituisce quanto segue:
gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
Hai eseguito una pipeline utilizzando l'API Cloud Life Sciences per creare un file BAI da un file BAM. Utilizza un visualizzatore di genomi per esaminare il file BAM NA12878.chr20.sample.bam
utilizzando il file indice NA12878.chr20.sample.bam.bai
.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi:
Elimina il file BAI
Per eliminare il file BAI generato mantenendo il progetto e il bucket che hai creato, esegui il comando gsutil rm
:
gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
Elimina il bucket
Se hai creato il bucket in modo specifico per questa guida rapida e non ne hai più bisogno, ma vuoi conservare il progetto, elimina il bucket utilizzando il comando gsutil rb
. L'eliminazione del bucket elimina anche il file BAI generato.
gsutil rb gs://PROJECT_ID-life-sciences
Elimina il progetto
Se hai creato il progetto specifico per questa guida rapida e non ne hai più bisogno, puoi eliminarlo. L'eliminazione del progetto elimina anche il file BAI e il bucket Cloud Storage.
- Nella console Google Cloud, vai alla pagina Gestisci risorse.
- Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
- Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.
Com'è andata?
Passaggi successivi
- Scopri di più sui set di dati pubblici dell'API Cloud Life Sciences.
- Scopri come caricare i dati delle varianti in Cloud Storage o BigQuery.
- Scopri come analizzare le varianti con BigQuery.