Esta página foi traduzida pela API Cloud Translation.

Executar o dsub

Use o dsub para escrever scripts e executar tarefas de computação em lote e fluxos de trabalho no Google Cloud.

Objetivos

Depois de concluir este tutorial, você saberá como executar um pipeline dsub no Google Cloud que cria um índice (arquivo BAI) com base em um arquivo binário grande de sequências de DNA (arquivo BAM).

Custos

Neste documento, você vai usar os seguintes componentes faturáveis do Google Cloud:

Compute Engine
Cloud Storage

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.

Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

Instale o Python versão 3.6 ou posterior (em inglês). Para mais informações sobre como configurar o ambiente de desenvolvimento Python, como instalar o pip no sistema, consulte o Guia de configuração do ambiente de desenvolvimento Python.
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Make sure that billing is enabled for your Google Cloud project.
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage APIs.
Enable the APIs

Como criar um arquivo BAI

Conclua as etapas a seguir para criar um índice (arquivo BAI) a partir de um arquivo binário grande de sequências de DNA (arquivo BAM). Os dados vêm do projeto 1.000 Genomes.

Clone o repositório do GitHub databiosphere/dsub:

git clone https://github.com/databiosphere/dsub.git

Mude para o diretório da ferramenta dsub. O repositório contém uma imagem do Docker predefinida que usa samtools para fazer a indexação.
```
cd dsub
```
Instale o dsub e suas dependências:
```
sudo python3 setup.py install
```

Execute a ferramenta dsub para criar o arquivo BAI, substituindo PROJECT_ID pelo projeto Google Cloud e BUCKET por um bucket do Cloud Storage a que você tem acesso de gravação:

dsub \
    --provider google-cls-v2 \
    --project PROJECT_ID \
    --logging gs://BUCKET/logs \
    --input BAM=gs://genomics-public-data/1000-genomes/bam/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam \
    --output BAI=gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai \
    --image quay.io/cancercollaboratory/dockstore-tool-samtools-index \
    --command 'samtools index ${BAM} ${BAI}' \
    --wait

O comando samtools é executado no arquivo de dados fornecido com a sinalização --input. O pipeline grava o arquivo de saída e os registros no bucket do Cloud Storage.

Verifique se o arquivo BAI foi gerado:

gcloud storage ls gs://BUCKET

O comando retorna a seguinte resposta:

gs://BUCKET/HG00114.mapped.ILLUMINA.bwa.GBR.low_coverage.20120522.bam.bai

Limpar

Depois de concluir o tutorial, você pode limpar os recursos que criou para que eles parem de usar a cota e gerar cobranças. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Exclua o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto:

Cuidado: excluir um projeto tem os seguintes efeitos:

Tudo no projeto é excluído. Se você tiver usado um projeto existente para as tarefas neste documento, a exclusão dele incluirá a exclusão de quaisquer outros trabalhos feitos no projeto.
Os IDs do projeto personalizados são perdidos. Ao criar o projeto, você pode ter criado um código do projeto personalizado para ser usado no futuro. Para preservar os URLs que usam o ID do projeto, como um URL appspot.com, exclua recursos específicos do projeto, em vez de excluir o projeto inteiro.

Se você planeja passar por várias arquiteturas, tutoriais ou guias de início rápido, a reutilização de projetos pode evitar que você exceda os limites da cota do projeto.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

A seguir

Leia a documentação do dsub no GitHub (em inglês) para mais detalhes e exemplos de como usá-lo para desenvolver localmente ou para escalonar verticalmente muitas tarefas no Google Cloud.