Panoramica di Cloud Life Sciences

Panoramica

Cloud Life Sciences è una suite di servizi e strumenti per la gestione, l'elaborazione e la trasformazione dei dati delle scienze biologiche. Inoltre, abilita le funzionalità avanzate insight e flussi di lavoro operativi mediante un'elevata scalabilità e conformità dell'infrastruttura. Cloud Life Sciences include funzionalità quali l'API Cloud Life Sciences, ETL (Extract-Transform-load, ETL) e altro ancora.

Questa pagina fornisce una panoramica dei servizi e degli strumenti offerti da Cloud Life Sciences (e Google Cloud più in generale) e su come sfruttarne le funzionalità con i tuoi dati delle scienze biologiche.

Panoramica dell'API Cloud Life Sciences

L'API Cloud Life Sciences offre un modo semplice per eseguire una serie di container di Compute Engine su Google Cloud. L'API Cloud Life Sciences è composta da un unico ambiente operazione:

E tre operazioni generiche:

L'API Cloud Life Sciences è rivolta agli sviluppatori che vogliono creare o utilizzare strumenti di gestione dei job, come dsub, o motori di flusso di lavoro come Cromwell. L'API Cloud Life Sciences fornisce un backend per questi strumenti e sistemi, fornendo pianificazione dei job per attività basate su Docker che eseguono attività secondarie dell'analisi genomica sui container di Compute Engine. Puoi inviare operazioni batch da qualsiasi luogo ed eseguirle su Google Cloud. La Le immagini Docker possono essere pacchettizzate manualmente oppure puoi usare Docker in formato Docker.

Il caso d'uso più comune quando si utilizza l'API Cloud Life Sciences è l'esecuzione di un progetto script personalizzato che legge e scrive file, in genere da e verso di archiviazione ideale in Cloud Storage. L'API Cloud Life Sciences può essere eseguita in modo indipendente centinaia o migliaia di questi file.

Puoi accedere all'API Cloud Life Sciences utilizzando l'API REST. API RPC, oppure Google Cloud CLI.

Esecuzione dell'API Cloud Life Sciences

Se crei un motore del flusso di lavoro, viene seguita una tipica serie di passaggi dal motore sono:

  1. l'analisi del linguaggio del flusso di lavoro di input e la creazione di una serie Formato JSON Pipeline oggetti accettate dall'API Cloud Life Sciences. Il motore invia una serie di richieste definite nell'oggetto Pipeline all'API Cloud Life Sciences.
  2. Monitoraggio delle richieste e unione degli output delle richieste prima di andare al passaggio successivo.

Di seguito viene fornita una spiegazione più approfondita del primo passaggio:

La pipeline viene eseguita chiamando il metodo pipelines.run. Questo metodo prende un Pipeline e un set facoltativo di etichette per iniziare a eseguire una pipeline. Pipeline è composto da uno o più Action descrizioni e un oggetto Resources descrive quali risorse Google Cloud sono necessarie per eseguire una pipeline o un blocco note personalizzato.

L'esempio seguente mostra come configurare un Pipeline semplice che esegue un singolo Action (stampando "Hello, world" sul terminale) su un piccolo dispositivo standard (n1-standard-1) VM:

"pipeline": {
  "actions": [
    {
      "imageUri": "bash",
      "commands": [ "-c", "echo Hello, world" ]
    },
  ],
  "resources": {
    "regions": ["us-central11"],
    "virtualMachine": {
      "machineType": "n1-standard-1",
    }
  }
}

L'esempio seguente mostra come configurare un oggetto Action che esegue più comandi. L'Action copia un file da Cloud Storage alla VM, calcola e verifica l'hash SHA-1 del file il file viene scritto nuovamente nel bucket Cloud Storage originale.

"actions": [
  {
    "imageUri": "google/cloud-sdk",
    "commands": [ "gsutil", "cp", "gs://my-bucket/input.in", "/tmp" ]
  },
  {
    "imageUri": "bash",
    "commands": [ "-c", "sha1sum /tmp/in > /tmp/test.sha1" ]
  },
  {
    "imageUri": "google/cloud-sdk",
    "commands": [ "gsutil", "cp", "/tmp/output.sha1", "gs://my-bucket/output.sha1" ]
  },
],

La chiamata a pipelines.run restituisce un'operazione a lunga esecuzione su cui puoi eseguire query per ottenere lo stato o annullare la pipeline.

Ciclo di vita di una richiesta API Cloud Life Sciences

Il tipico ciclo di vita di una pipeline in esecuzione sull'API Cloud Life Sciences è come segue:

  1. L'API Cloud Life Sciences alloca le risorse Google Cloud necessarie per eseguire la pipeline. Come minimo, questo comporta l'allocazione di una macchina virtuale (VM) Compute Engine con spazio su disco.
  2. Quando una VM diventa disponibile, l'API Cloud Life Sciences esegue ogni azione definita nella una pipeline o un blocco note personalizzato. Queste azioni eseguono operazioni come la copia dei file di input, elaborare i dati o copiare i file di output.
  3. La pipeline rilascia tutte le risorse allocate, inclusa l'eliminazione di eventuali VM create.

ETL di BigQuery con lo strumento di trasformazione delle varianti

Per caricare i dati delle scienze biologiche in BigQuery per ulteriori analisi, usa le trasformazioni delle varianti lo strumento a riga di comando gcloud.

Variant Transforms è uno strumento open source basato su Apache Beam e utilizza Dataflow. La trasformazione delle varianti è metodo consigliato per trasformare e caricare i dati genomici in Google Cloud per ulteriori analisi.

Utilizzo di altre tecnologie Google Cloud con i dati delle scienze biologiche

Esistono diverse tecnologie Google Cloud che interagiscono Cloud Life Sciences o può essere utilizzato per analizzare ed elaborare la vita di dati scientifici. Queste includono: