Guia de início rápido: processar dados genômicos usando o Cloud Life Sciences

Processar dados genômicos usando o Cloud Life Sciences

Nesta página, explicamos como executar um pipeline genômico que usa a API Cloud Life Sciences para criar um arquivo de índice (BAI) com base em um arquivo binário contendo sequências de DNA (arquivo BAM).

Os arquivos BAM geralmente são grandes e podem levar muito tempo para serem lidos usando um visualizador de genoma. Use um arquivo BAI para localizar as partes do arquivo BAM que contêm a posição do genoma em que você tem interesse.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Ative as APIs Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

    Ative as APIs

  5. Instale a CLI do Google Cloud.
  6. Para inicializar a CLI gcloud, execute o seguinte comando:

    gcloud init
  7. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  8. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  9. Ative as APIs Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

    Ative as APIs

  10. Instale a CLI do Google Cloud.
  11. Para inicializar a CLI gcloud, execute o seguinte comando:

    gcloud init
  12. Como alternativa, você pode usar o Cloud Shell, que já vem com a CLI gcloud instalado.

  13. Instale o Python 3.8.

    Se você está usando o Windows e deixou a caixa de seleção relevante marcada quando instalou o Google Cloud CLI, isso foi feito automaticamente.

execute o pipeline

Para executar o pipeline, conclua as seguintes etapas:

  1. Crie um bucket para armazenar o arquivo BAI. buckets são os contêineres básicos que armazenam dados no Cloud Storage. Para criar um bucket chamado PROJECT_ID-life-sciences, execute o comando gsutil mb:

    gsutil mb gs://PROJECT_ID-life-sciences
    

    Substitua PROJECT_ID pelo ID do projeto do Google Cloud. Use um nome de bucket globalmente exclusivo.

    Se o procedimento for bem-sucedido, o comando retornará:

    Creating gs://PROJECT_ID-life-sciences
    
  2. Para iniciar o pipeline, execute o comando gcloud beta lifesciences pipelines run:

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

    Se o procedimento for bem-sucedido, o comando retornará:

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    

    Observe o OPERATION_ID, que será usado na próxima etapa.

  3. Para rastrear o status do pipeline, execute o comando gcloud beta lifesciences operations wait. Substitua OPERATION_ID pelo valor mostrado na etapa anterior. O pipeline leva alguns minutos para ser concluído.

    gcloud beta lifesciences operations wait OPERATION_ID
    

    Depois que a operação for concluída, ela retornará a seguinte mensagem:

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  4. Para verificar se o arquivo BAI foi gerado, execute o comando gsutil ls:

    gsutil ls gs://PROJECT_ID-life-sciences
    

    Se o procedimento for bem-sucedido, o comando retornará:

    gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

Você acabou de executar um pipeline usando a API Cloud Life Sciences para criar um arquivo BAI com base em um arquivo BAM. Use um leitor de genoma para examinar o arquivo BAM NA12878.chr20.sample.bam usando o arquivo de índice NA12878.chr20.sample.bam.bai.

Limpeza

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

Excluir o arquivo BAI

Para excluir o arquivo BAI gerado, mas manter o projeto e o bucket criados, execute o comando gsutil rm:

gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Excluir o bucket

Se você criou o bucket especificamente para esse guia de início rápido e não precisa mais dele, mas quer manter seu projeto, exclua o bucket usando o comando gsutil rb. Essa ação também exclui o arquivo BAI gerado.

gsutil rb gs://PROJECT_ID-life-sciences

Exclua o projeto

Se você tiver criado o projeto especificamente para este guia de início rápido e não precisar mais dele, exclua-o. A exclusão do projeto também exclui o arquivo BAI e o bucket do Cloud Storage.

  1. No Console do Google Cloud, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Como foi?

A seguir