Visão geral do Cloud Life Sciences

Visão geral

O Cloud Life Sciences é um conjunto de serviços e ferramentas para gerenciar, processar e transformar dados de ciências da saúde. Ele também permite insights avançados e fluxos de trabalho operacionais usando uma infraestrutura altamente escalonável e compatível. O Cloud Life Sciences inclui recursos como a API Cloud Life Sciences, as ferramentas extract-transform-load (ETL) e muito mais.

Esta página fornece uma visão geral dos serviços e ferramentas que o Cloud Life Sciences oferece e como é possível usar os recursos da ferramenta com seus dados de ciências da saúde. Google Cloud

Visão geral da API Cloud Life Sciences

A API Cloud Life Sciences oferece uma maneira simples de executar uma série de contêineres do Compute Engine em Google Cloud. A API Cloud Life Sciences é constituída por uma única operação principal:

E três operações genéricas:

A API Cloud Life Sciences foi pensada para desenvolvedores que querem criar ferramentas de gerenciamento de jobs (como o dsub) ou mecanismos de fluxo de trabalho (como o Cromwell). A API Cloud Life Sciences disponibiliza um back-end para essas ferramentas e sistemas, oferece o agendamento de jobs para tarefas baseadas no Docker que realizam análises genômicas secundárias em contêineres do Compute Engine. É possível enviar operações em lote de qualquer lugar e executá-las no Google Cloud. As imagens do Docker podem ser empacotadas manualmente ou é possível usar imagens existentes do Docker.

A forma mais comum de uso da API Cloud Life Sciences é executar uma ferramenta existente ou script personalizado que lê e grava arquivos, normalmente para e do Cloud Storage. A API Cloud Life Sciences pode ser executada de forma independente em centenas ou milhares desses arquivos.

É possível acessar a API Cloud Life Sciences usando a API REST, a API RPC ou a CLI do Google Cloud.

Como executar a API Cloud Life Sciences

Se você estiver criando um mecanismo de fluxo de trabalho, uma série típica de etapas que o mecanismo executará é:

  1. Como analisar a linguagem do fluxo de trabalho de entrada e construir uma série de objetos Pipeline com formatação JSON que a API Cloud Life Sciences aceita. O mecanismo envia uma série de solicitações definidas no objeto Pipeline para a API Cloud Life Sciences.
  2. Como monitorar as solicitações e mesclar as saídas das solicitações antes de ir para a próxima etapa.

Veja a seguir uma explicação mais detalhada da primeira etapa:

O pipeline é executado chamando o método pipelines.run. Esse método usa um objeto Pipeline e um conjunto opcional de rótulos para começar a executar um pipeline. O objeto Pipeline consiste em uma ou mais descrições Action e um objeto Resources que descreve quais Google Cloud recursos são necessários para executar o pipeline.

O exemplo a seguir mostra como configurar um Pipeline que executa um Action único (imprimindo "Hello, world" no terminal) em uma VM pequena e padrão (n1-standard-1):

"pipeline": {
  "actions": [
    {
      "imageUri": "bash",
      "commands": [ "-c", "echo Hello, world" ]
    },
  ],
  "resources": {
    "regions": ["us-central11"],
    "virtualMachine": {
      "machineType": "n1-standard-1",
    }
  }
}

O exemplo a seguir mostra como configurar um objeto Action que executa vários comandos. O Action copia um arquivo do Cloud Storage para a VM, calcula e verifica o SHA-1 hash do arquivo e grava o arquivo no bucket original do Cloud Storage.

"actions": [
  {
    "imageUri": "google/cloud-sdk",
    "commands": [ "gsutil", "cp", "gs://my-bucket/input.in", "/tmp" ]
  },
  {
    "imageUri": "bash",
    "commands": [ "-c", "sha1sum /tmp/in > /tmp/test.sha1" ]
  },
  {
    "imageUri": "google/cloud-sdk",
    "commands": [ "gsutil", "cp", "/tmp/output.sha1", "gs://my-bucket/output.sha1" ]
  },
],

Chamar pipelines.run retorna uma operação de longa duração que é possível consultar para ver o status de ou cancelar o pipeline.

Ciclo de vida de uma solicitação da API Cloud Life Sciences

O ciclo de vida típico de um pipeline em execução na API Cloud Life Sciences é o seguinte:

  1. A API Cloud Life Sciences aloca os recursos Google Cloud necessários para executar o pipeline. No mínimo, isso geralmente envolve a alocação de uma máquina virtual (VM) do Compute Engine com espaço no disco.
  2. Depois que uma VM é disponibilizada, a API Cloud Life Sciences executa cada ação definida no pipeline. Essas ações executam operações como copiar arquivos de entrada, processar dados ou copiar arquivos de saída.
  3. O pipeline libera todos os recursos alocados, incluindo a exclusão de todas as VMs criadas.

ETL do BigQuery usando a ferramenta Variant Transforms

Para carregar seus dados de ciências da saúde no BigQuery para uma análise adicional, use a ferramenta Variants Transforms.

A Variant Transforms é uma ferramenta de código aberto baseada no Apache Beam e usa o Dataflow. A Variant Transforms é a ferramenta recomendada para transformar e carregar dados genômicos no Google Cloudpara uma análise posterior.

Como usar outras Google Cloud tecnologias com dados de ciências da vida

Existem várias Google Cloud tecnologias que interagem com o Cloud Life Sciences ou podem ser usadas para analisar e processar dados de ciências da saúde. São eles: