Esta página mostra como executar um pipeline genômico que usa a API do Cloud Life Sciences para criar um arquivo de índice (arquivo BAI) a partir de um arquivo binário grande contendo sequências de DNA (arquivo BAM).
Antes de começar
-
Faça login na sua conta do Google.
Se você ainda não tiver uma, inscreva-se.
-
No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.
- Ative as APIs Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.
- Instale e inicialize o SDK do Cloud..
Como alternativa, é possível usar o Cloud Shell , que já vem com o SDK do Cloud instalado.
Executar o canal
É por isso executar o pipeline usando curl
ou o Windows PowerShell.
curl
Crie uma variável de ambiente
BUCKET
. A variável aponta para um bucket do Cloud Storage que usa o nome do seu projeto com-life-sciences
anexado.export BUCKET=gs://PROJECT_ID-life-sciences
Crie o bucket usando o comando
gsutil mb
:gsutil mb ${BUCKET}
Execute um pipeline usando a ferramenta de linha de comando
gcloud
, especificando o nome do arquivo BAM para a entrada e o nome de um arquivo BAI para a saída. O pipeline chama a API do Cloud Life Sciences, cria uma instância de VM do Compute Engine e, então, executa o processo do pipeline na instância. Após a conclusão do processo, a instância é automaticamente encerrada e o arquivo BAI é copiado para seu bucket do Cloud Storage.gcloud beta lifesciences pipelines run \ --regions us-east1 \ --command-line 'samtools index ${BAM} ${BAI}' \ --docker-image "gcr.io/genomics-tools/samtools" \ --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \ --outputs BAI=${BUCKET}/NA12878.chr20.sample.bam.bai
Se o procedimento for bem-sucedido, o comando retornará:
Running [projects/PROJECT_ID/operations/OPERATION_ID]
O pipeline leva alguns minutos para ser concluído. É possível executar o seguinte comando para rastrear o status dele. Substitua OPERATION_ID pelo valor mostrado na etapa anterior.
gcloud beta lifesciences operations wait OPERATION_ID
Depois que a operação for concluída, ela retornará a seguinte mensagem:
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
Verifique se o arquivo BAI foi gerado:
gsutil ls ${BUCKET}
O comando retornará isto:
gs://BUCKET/NA12878.chr20.sample.bam.bai
Você acabou de executar um pipeline usando a API do Cloud Life Sciences para criar um arquivo BAI a partir de um arquivo BAM.
PowerShell
Crie uma variável de ambiente
BUCKET
. A variável aponta para um bucket do Cloud Storage que usa o nome do seu projeto com-life-sciences
anexado.$BUCKET = "gs://PROJECT_ID-life-sciences"
Crie o bucket usando o comando
gsutil mb
:gsutil mb ${BUCKET}
Execute um pipeline usando a ferramenta de linha de comando
gcloud
, especificando o nome do arquivo BAM para a entrada e o nome de um arquivo BAI para a saída. O pipeline chama a API do Cloud Life Sciences, cria uma instância de VM do Compute Engine e, então, executa o processo do pipeline na instância. Após a conclusão do processo, a instância é automaticamente encerrada e o arquivo BAI é copiado para seu bucket do Cloud Storage.gcloud beta lifesciences pipelines run ` --regions us-east1 ` --command-line 'samtools index ${BAM} ${BAI}' ` --docker-image "gcr.io/genomics-tools/samtools" ` --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam ` --outputs BAI=${BUCKET}/NA12878.chr20.sample.bam.bai
Se o procedimento for bem-sucedido, o comando retornará:
Running [projects/PROJECT_ID/operations/OPERATION_ID]
O pipeline leva alguns minutos para ser concluído. É possível executar o seguinte comando para rastrear o status dele. Substitua OPERATION_ID pelo valor mostrado na etapa anterior.
gcloud beta lifesciences operations wait OPERATION_ID
Depois que a operação for concluída, ela retornará a seguinte mensagem:
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
Verifique se o arquivo BAI foi gerado:
gsutil ls ${BUCKET}
O comando retornará isto:
gs://BUCKET/NA12878.chr20.sample.bam.bai
Você acabou de executar um pipeline usando a API do Cloud Life Sciences para criar um arquivo BAI a partir de um arquivo BAM.
Limpar
É possível limpar os recursos que foram criados no Google Cloud para evitar cobranças na conta do Google Cloud pelos recursos usados neste tutorial. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.
Excluir o projeto
Se você tiver criado o projeto especificamente para este guia de início rápido e não precisar mais dele, exclua-o. A exclusão do projeto também exclui o bucket do Cloud Storage e o arquivo BAI.
- No Console do Cloud, acesse a página Gerenciar recursos:
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.
Excluir o arquivo BAI
Para excluir o arquivo BAI gerado, mas manter o projeto e o bucket criados, execute o comando gsutil rm
:
gsutil rm ${BUCKET}/NA12878.chr20.sample.bam.bai
Excluir o bucket
Se você tiver criado o bucket especificamente para este guia de início rápido e não precisar mais dele, mas quiser manter seu projeto, exclua o bucket usando o comando gsutil rb
. Essa ação também exclui o arquivo BAI gerado.
gsutil rb ${BUCKET}
Próximas etapas
- Encontre conjuntos de dados genômicos públicos.
- Carregue dados de variantes no Cloud Storage ou no BigQuery.
- Analise as variantes com o BigQuery.