O Cloud Life Sciences foi descontinuado e não estará mais disponível no Google Cloud após 8 de julho de 2025. Os casos de uso do Cloud Life Sciences agora são compatíveis com o Batch. Para saber como migrar a carga de trabalho, consulte Migrar para o Batch.

Esta página foi traduzida pela API Cloud Translation.

Processar dados genômicos usando o Cloud Life Sciences

Nesta página, explicamos como executar um pipeline genômico que usa a API Cloud Life Sciences para criar um arquivo de índice (BAI) com base em um arquivo binário contendo sequências de DNA (arquivo BAM).

Normalmente, os arquivos BAM são grandes e podem levar muito tempo para serem lidos usando um genoma. visualizador Use o arquivo BAI para localizar as partes do arquivo que contêm a posição do genoma em que você tem interesse.

Antes de começar

Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.

No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

Acessar o seletor de projetos

Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

Ative as APIs Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

Ative as APIs

Install the Google Cloud CLI.

To initialize the gcloud CLI, run the following command:

gcloud init

No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

Acessar o seletor de projetos

Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

Ative as APIs Cloud Life Sciences, Compute Engine, and Cloud Storage JSON.

Ative as APIs

Install the Google Cloud CLI.

To initialize the gcloud CLI, run the following command:

gcloud init

Como alternativa, use o Cloud Shell, que já vem com a CLI gcloud instalada.

Instale o Python 3.8
Se você estiver usando o Windows e tiver deixado a caixa de seleção relevante marcada quando Você instalou a Google Cloud CLI, isso foi feito automaticamente.

Executar o pipeline

Para executar o pipeline, conclua as seguintes etapas:

Crie um bucket para armazenar o arquivo BAI. buckets são os contêineres básicos que armazenam dados no Cloud Storage. Para criar um bucket chamado PROJECT_ID-life-sciences, executar o comando gcloud storage buckets create comando:
```
gcloud storage buckets create gs://PROJECT_ID-life-sciences
```
Substitua PROJECT_ID pelo ID do projeto do Google Cloud. Use um nome de bucket globalmente exclusivo.
Consulte os requisitos de nomenclatura de bucket.
- Nomes de bucket podem conter apenas letras minúsculas, caracteres numéricos, traços (-) e sublinhados (_). Espaços não são permitidos.
- Nomes de bucket devem começar e terminar com um número ou uma letra.
- Precisam ter de 3 a 63 caracteres. Ter até 222 caracteres caso incluam pontos, mas cada componente separado por ponto não pode ter mais do que 63 caracteres.
- Nomes de bucket não podem ser representados como um endereço IP na notação decimal com pontos (por exemplo, 192.168.5.4).
- Nomes de bucket não podem começar com o prefixo "goog".
- Não podem conter a palavra "google" ou aproximações dela, como "g00gle".
Cuidado: não inclua informações confidenciais no nome do bucket porque o namespace é global e visível ao público.

Se o procedimento for bem-sucedido, o comando retornará:
```
Creating gs://PROJECT_ID-life-sciences
```

Para iniciar o pipeline, execute o comando gcloud beta lifesciences pipelines run:

gcloud beta lifesciences pipelines run \
    --regions us-east1 \
    --command-line 'samtools index ${BAM} ${BAI}' \
    --docker-image "gcr.io/cloud-lifesciences/samtools" \
    --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
    --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Se o procedimento for bem-sucedido, o comando retornará:

Running [projects/PROJECT_ID/operations/OPERATION_ID]

Observe o OPERATION_ID, que será usado na próxima etapa.

Para rastrear o status do pipeline, execute o comando gcloud beta lifesciences operations wait. Substitua OPERATION_ID pelo valor mostrado na etapa anterior. O pipeline leva alguns minutos para ser concluído.
```
gcloud beta lifesciences operations wait OPERATION_ID
```
Depois que a operação for concluída, ela retornará a seguinte mensagem:
```
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
```
Para verificar se o arquivo BAI foi gerado, execute o comando gcloud storage ls:
```
gcloud storage ls gs://PROJECT_ID-life-sciences
```
Se o procedimento for bem-sucedido, o comando retornará:
```
gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
```

Você acabou de executar um pipeline usando a API Cloud Life Sciences para criar um arquivo BAI com base em um arquivo BAM. Use um leitor de genoma para examinar o arquivo BAM NA12878.chr20.sample.bam usando o arquivo de índice NA12878.chr20.sample.bam.bai.

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

Excluir o arquivo BAI

Para excluir o arquivo BAI gerado, mas manter o projeto e o bucket criados, execute o comando gcloud storage rm:

gcloud storage rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Excluir o bucket

Se você criou o bucket especificamente para esse guia de início rápido e não precisa mais dele, mas quer manter seu projeto, exclua o bucket usando o comando gcloud storage rm. Excluir o também exclui o arquivo BAI gerado.

gcloud storage rm gs://PROJECT_ID-life-sciences --recursive

Exclua o projeto

Se você tiver criado o projeto especificamente para este guia de início rápido e não precisar mais dele, exclua-o. A exclusão do projeto também exclui o arquivo BAI e o bucket do Cloud Storage.

Cuidado: excluir um projeto tem os seguintes efeitos:

Tudo no projeto é excluído. Se você tiver usado um projeto existente para as tarefas neste documento, a exclusão dele incluirá a exclusão de quaisquer outros trabalhos feitos no projeto.
Os IDs do projeto personalizados são perdidos. Ao criar o projeto, você pode ter criado um código do projeto personalizado para ser usado no futuro. Para preservar os URLs que usam o ID do projeto, como um URL appspot.com, exclua recursos específicos do projeto, em vez de excluir o projeto inteiro.

Se você planeja passar por várias arquiteturas, tutoriais ou guias de início rápido, a reutilização de projetos pode evitar que você exceda os limites da cota do projeto.

No Console do Google Cloud, acesse a página Gerenciar recursos.
Acessar "Gerenciar recursos"
Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Como foi?

A seguir

Saiba mais sobre os conjuntos de dados públicos da API Cloud Life Sciences.
Saiba como carregar dados de variantes no Cloud Storage ou no BigQuery.
Saiba como analisar variantes com o BigQuery.