Ringkasan Cloud Life Sciences

Ringkasan

Cloud Life Sciences adalah rangkaian layanan dan alat untuk mengelola, memproses, dan mengubah data ilmu hayati. Hal ini juga memungkinkan insight lanjutan dan alur kerja operasional menggunakan infrastruktur yang sangat skalabel dan sesuai. Cloud Life Sciences mencakup fitur-fitur seperti Cloud Life Sciences API, alat extract-transform-load (ETL), dan banyak lagi.

Halaman ini menyediakan ringkasan tentang layanan dan alat yang ditawarkan oleh Cloud Life Sciences (dan Google Cloud secara lebih umum) dan cara memanfaatkan fiturnya dengan data ilmu hayati Anda.

Ringkasan Cloud Life Sciences API

Cloud Life Sciences API menyediakan cara mudah untuk menjalankan serangkaian container Compute Engine di Google Cloud. Cloud Life Sciences API terdiri dari satu operasi utama:

Dan tiga operasi generik:

Cloud Life Sciences API ditujukan untuk developer yang ingin membangun atau membuat alat pengelolaan pekerjaan, seperti dsub, atau mesin alur kerja, seperti Cromwell. Cloud Life Sciences API menyediakan backend untuk alat dan sistem ini, yang menyediakan penjadwalan tugas untuk tugas berbasis Docker yang menjalankan analisis genom sekunder pada container Compute Engine. Anda dapat mengirim operasi batch dari mana saja dan menjalankannya di Google Cloud. Image Docker dapat dikemas secara manual, atau Anda dapat menggunakan image Docker yang sudah ada.

Kasus penggunaan yang paling umum saat menggunakan Cloud Life Sciences API adalah menjalankan alat atau skrip kustom yang sudah ada yang membaca dan menulis file, biasanya ke dan dari Cloud Storage. Cloud Life Sciences API dapat berjalan secara independen pada ratusan atau ribuan file ini.

Anda dapat mengakses Cloud Life Sciences API menggunakan REST API, RPC API, atau Google Cloud CLI.

Menjalankan Cloud Life Sciences API

Jika Anda membuat mesin alur kerja, serangkaian langkah umum yang akan dilakukan mesin tersebut adalah:

  1. Mengurai bahasa alur kerja input dan membuat serangkaian objek Pipeline berformat JSON yang diterima Cloud Life Sciences API. Mesin akan mengirimkan serangkaian permintaan yang ditentukan dalam objek Pipeline ke Cloud Life Sciences API.
  2. Memantau permintaan dan menggabungkan output dari permintaan sebelum melanjutkan ke langkah berikutnya.

Berikut ini penjelasan yang lebih mendalam mengenai langkah pertama:

Pipeline berjalan dengan memanggil metode pipelines.run. Metode ini menggunakan objek Pipeline dan kumpulan label opsional untuk mulai menjalankan pipeline. Objek Pipeline terdiri dari satu atau beberapa deskripsi Action dan objek Resources yang menjelaskan resource Google Cloud apa saja yang diperlukan untuk menjalankan pipeline.

Contoh berikut menunjukkan cara mengonfigurasi Pipeline sederhana yang menjalankan satu Action (mencetak "Hello, world" ke terminal) pada VM kecil (n1-standard-1) standar:

"pipeline": {
  "actions": [
    {
      "imageUri": "bash",
      "commands": [ "-c", "echo Hello, world" ]
    },
  ],
  "resources": {
    "regions": ["us-central11"],
    "virtualMachine": {
      "machineType": "n1-standard-1",
    }
  }
}

Contoh berikut menunjukkan cara mengonfigurasi objek Action yang mengeksekusi beberapa perintah. Action menyalin file dari Cloud Storage ke VM, menghitung dan memverifikasi hash SHA-1 file, lalu menulis kembali file tersebut ke bucket Cloud Storage asli.

"actions": [
  {
    "imageUri": "google/cloud-sdk",
    "commands": [ "gsutil", "cp", "gs://my-bucket/input.in", "/tmp" ]
  },
  {
    "imageUri": "bash",
    "commands": [ "-c", "sha1sum /tmp/in > /tmp/test.sha1" ]
  },
  {
    "imageUri": "google/cloud-sdk",
    "commands": [ "gsutil", "cp", "/tmp/output.sha1", "gs://my-bucket/output.sha1" ]
  },
],

Memanggil pipelines.run akan menampilkan operasi yang berjalan lama yang dapat Anda kueri untuk mendapatkan status atau membatalkan pipeline.

Siklus proses permintaan Cloud Life Sciences API

Siklus proses umum pipeline yang berjalan di Cloud Life Sciences API adalah sebagai berikut:

  1. Cloud Life Sciences API mengalokasikan resource Google Cloud yang diperlukan untuk menjalankan pipeline. Setidaknya, hal ini biasanya melibatkan pengalokasian virtual machine (VM) Compute Engine dengan kapasitas disk.
  2. Setelah VM tersedia, Cloud Life Sciences API akan menjalankan setiap tindakan yang ditentukan di pipeline. Tindakan ini menjalankan operasi seperti menyalin file input, memproses data, atau menyalin file output.
  3. Pipeline melepaskan semua resource yang dialokasikan, termasuk menghapus VM yang dibuat.

BigQuery ETL menggunakan alat Variant Transforms

Untuk memuat data ilmu hayati Anda ke BigQuery guna dianalisis lebih lanjut, gunakan alat Variant Transforms.

Variant Transforms adalah alat open source berdasarkan Apache Beam dan menggunakan Dataflow. Variant Transforms adalah cara yang direkomendasikan untuk mengubah dan memuat data genomik ke Google Cloud untuk analisis lebih lanjut.

Menggunakan teknologi Google Cloud lainnya dengan data ilmu hayati

Ada beberapa teknologi Google Cloud yang berinteraksi dengan Cloud Life Sciences atau yang dapat digunakan untuk menganalisis dan memproses data ilmu hayati. Fitur tersebut meliputi: