Ringkasan Cloud Life Sciences

Ringkasan

Cloud Life Sciences adalah rangkaian layanan dan alat untuk mengelola, memproses, dan mentransformasi data ilmu hayati. Solusi ini juga memungkinkan insight lanjutan dan alur kerja operasional menggunakan infrastruktur yang sangat skalabel dan mematuhi kebijakan. Cloud Life Sciences mencakup fitur seperti Cloud Life Sciences API, alat ekstrak-transformasi-muat (ETL), dan lainnya.

Halaman ini memberikan ringkasan tentang layanan dan alat yang ditawarkan Cloud Life Sciences (dan Google Cloud secara lebih umum) serta cara memanfaatkan fiturnya dengan data ilmu hayati Anda.

Ringkasan Cloud Life Sciences API

Cloud Life Sciences API menyediakan cara sederhana untuk menjalankan serangkaian penampung Compute Engine di Google Cloud. Cloud Life Sciences API terdiri dari satu operasi utama:

Dan tiga operasi umum:

Cloud Life Sciences API ditujukan bagi developer yang ingin mem-build atau membuat alat pengelolaan tugas, seperti dsub, atau mesin alur kerja, seperti Cromwell. Cloud Life Sciences API menyediakan backend untuk alat dan sistem ini, yang menyediakan penjadwalan tugas untuk tugas berbasis Docker yang melakukan analisis genomik sekunder pada penampung Compute Engine. Anda dapat mengirimkan operasi batch dari mana saja dan menjalankannya di Google Cloud. Image Docker dapat dikemas secara manual, atau Anda dapat menggunakan image Docker yang ada.

Kasus penggunaan yang paling umum saat menggunakan Cloud Life Sciences API adalah menjalankan alat atau skrip kustom yang ada yang membaca dan menulis file, biasanya ke dan dari Cloud Storage. Cloud Life Sciences API dapat berjalan secara independen di atas ratusan atau ribuan file ini.

Anda dapat mengakses Cloud Life Sciences API menggunakan REST API, RPC API, atau Google Cloud CLI.

Menjalankan Cloud Life Sciences API

Jika Anda membuat mesin alur kerja, rangkaian langkah standar yang akan dilakukan mesin adalah:

  1. Mengurai bahasa alur kerja input dan membuat serangkaian objek Pipeline berformat JSON yang diterima Cloud Life Sciences API. Mesin mengirim serangkaian permintaan yang ditentukan dalam objek Pipeline ke Cloud Life Sciences API.
  2. Memantau permintaan dan menggabungkan output dari permintaan tersebut sebelum melanjutkan ke langkah berikutnya.

Berikut adalah penjelasan yang lebih mendalam tentang langkah pertama:

Pipeline berjalan dengan memanggil metode pipelines.run. Metode ini menggunakan objek Pipeline dan kumpulan label opsional untuk mulai menjalankan pipeline. Objek Pipeline terdiri dari satu atau beberapa deskripsi Action dan objek Resources yang menjelaskan resource Google Cloud yang diperlukan untuk menjalankan pipeline.

Contoh berikut menunjukkan cara mengonfigurasi Pipeline sederhana yang menjalankan satu Action (mencetak "Halo, dunia" ke terminal) di VM standar (n1-standard-1) kecil:

"pipeline": {
  "actions": [
    {
      "imageUri": "bash",
      "commands": [ "-c", "echo Hello, world" ]
    },
  ],
  "resources": {
    "regions": ["us-central11"],
    "virtualMachine": {
      "machineType": "n1-standard-1",
    }
  }
}

Contoh berikut menunjukkan cara mengonfigurasi objek Action yang menjalankan beberapa perintah. Action menyalin file dari Cloud Storage ke VM, menghitung dan memverifikasi hash SHA-1 file, lalu menulis file kembali ke bucket Cloud Storage asli.

"actions": [
  {
    "imageUri": "google/cloud-sdk",
    "commands": [ "gsutil", "cp", "gs://my-bucket/input.in", "/tmp" ]
  },
  {
    "imageUri": "bash",
    "commands": [ "-c", "sha1sum /tmp/in > /tmp/test.sha1" ]
  },
  {
    "imageUri": "google/cloud-sdk",
    "commands": [ "gsutil", "cp", "/tmp/output.sha1", "gs://my-bucket/output.sha1" ]
  },
],

Memanggil pipelines.run akan menampilkan operasi yang berjalan lama yang dapat Anda buat kueri untuk mendapatkan status atau membatalkan pipeline.

Siklus proses permintaan Cloud Life Sciences API

Siklus proses umum pipeline yang berjalan di Cloud Life Sciences API adalah sebagai berikut:

  1. Cloud Life Sciences API mengalokasikan resource Google Cloud yang diperlukan untuk menjalankan pipeline. Setidaknya, hal ini biasanya melibatkan alokasi virtual machine (VM) Compute Engine dengan ruang disk.
  2. Setelah VM tersedia, Cloud Life Sciences API akan menjalankan setiap tindakan yang ditentukan dalam pipeline. Tindakan ini melakukan operasi seperti menyalin file input, memproses data, atau menyalin file output.
  3. Pipeline melepaskan resource yang dialokasikan, termasuk menghapus VM yang dibuat.

ETL BigQuery menggunakan alat Variant Transforms

Untuk memuat data ilmu hayati ke BigQuery untuk analisis lebih lanjut, gunakan alat Variant Transforms.

Variant Transforms adalah alat open source berdasarkan Apache Beam dan menggunakan Dataflow. Transformasi Varian adalah cara yang direkomendasikan untuk mengubah dan memuat data genomik ke Google Cloud untuk analisis lebih lanjut.

Menggunakan teknologi Google Cloud lainnya dengan data ilmu hayati

Ada beberapa teknologi Google Cloud yang berinteraksi dengan Cloud Life Sciences atau dapat digunakan untuk menganalisis dan memproses data ilmu hayati. Fitur tersebut meliputi: