Guia de início rápido

Nesta página, explicamos como executar um pipeline genômico que usa a API Cloud Life Sciences para criar um arquivo de índice (arquivo BAI) a partir de um arquivo binário contendo sequências de DNA (arquivo BAM). Os arquivos BAM normalmente são grandes e podem levar muito tempo para ler usando um visualizador de genoma. Use um arquivo BAI para localizar as partes do arquivo BAM que contêm a posição do genoma em que você tem interesse.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  4. Ative as APIs Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

    Ative as APIs

  5. Instale e inicialize o SDK do Cloud..
  6. Como alternativa, é possível usar o Cloud Shell , que já vem com o SDK do Cloud instalado.

  7. Instale o Python 3.8

    Se você está usando o Windows e marcou a caixa de seleção pertinente quando instalou o SDK do Cloud, isso foi feito automaticamente.

Executar o canal

Para executar o pipeline, conclua as seguintes etapas:

  1. Crie um bucket onde armazene o arquivo BAI. buckets são os contêineres básicos que armazenam dados no Cloud Storage. Para criar um bucket chamado PROJECT_ID-life-sciences, execute o comando gsutil mb:

    gsutil mb gs://PROJECT_ID-life-sciences
    

    Substitua PROJECT_ID pelo ID do projeto do Google Cloud. Use um nome de bucket globalmente exclusivo.

    Se o procedimento for bem-sucedido, o comando retornará:

    Creating gs://PROJECT_ID-life-sciences
    
  2. Para iniciar o pipeline, execute o comando gcloud beta lifesciences pipelines run:

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

    Se o procedimento for bem-sucedido, o comando retornará:

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    

    Observe o OPERATION_ID, que será usado na próxima etapa.

  3. Para rastrear o status do pipeline, execute o comando gcloud beta lifesciences operations wait. Substitua OPERATION_ID pelo valor mostrado na etapa anterior. O pipeline leva alguns minutos para ser concluído.

    gcloud beta lifesciences operations wait OPERATION_ID
    

    Depois que a operação for concluída, ela retornará a seguinte mensagem:

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  4. Para verificar se o arquivo BAI foi gerado, execute o comando gsutil ls:

    gsutil ls gs://PROJECT_ID-life-sciences
    

    Se o procedimento for bem-sucedido, o comando retornará:

    gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

Você executou um pipeline usando a API Cloud Life Sciences para criar um arquivo BAI a partir de um arquivo BAM. Use um visualizador de genoma para examinar o arquivo NA12878.chr20.sample.bam BAM usando o arquivo de índice NA12878.chr20.sample.bam.bai.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas:

Excluir o arquivo BAI

Para excluir o arquivo BAI gerado, mas manter o projeto e o bucket criados, execute o comando gsutil rm:

gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Excluir o bucket

Se você criou o bucket especificamente para este guia de início rápido e não precisa mais dele, mas quer manter o projeto, exclua o bucket usando o comando gsutil rb. Essa ação também exclui o arquivo BAI gerado.

gsutil rb gs://PROJECT_ID-life-sciences

Exclua o projeto

Se você tiver criado o projeto especificamente para este guia de início rápido e não precisar mais dele, exclua-o. A exclusão do projeto também exclui o arquivo BAI e o bucket do Cloud Storage.

  1. No Console do Cloud, acesse a página Gerenciar recursos:

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Como foi?

A seguir