Ringkasan
Cloud Life Sciences adalah rangkaian layanan dan alat untuk mengelola, memproses, dan mengubah data ilmu hayati. Hal ini juga memungkinkan insight lanjutan dan alur kerja operasional menggunakan infrastruktur yang sangat skalabel dan sesuai. Cloud Life Sciences mencakup fitur-fitur seperti Cloud Life Sciences API, alat extract-transform-load (ETL), dan banyak lagi.
Halaman ini menyediakan ringkasan tentang layanan dan alat yang ditawarkan oleh Cloud Life Sciences (dan Google Cloud secara lebih umum) dan cara memanfaatkan fiturnya dengan data ilmu hayati Anda.
Ringkasan Cloud Life Sciences API
Cloud Life Sciences API menyediakan cara mudah untuk menjalankan serangkaian container Compute Engine di Google Cloud. Cloud Life Sciences API terdiri dari satu operasi utama:
projects.locations.pipelines.run
: Menjalankan pipeline.
Dan tiga operasi generik:
projects.locations.operations.get
: Mendapatkan status terbaru dari pipeline.projects.locations.operations.list
: Mencantumkan semua pipeline yang berjalan di region Google Cloud di project Google Cloud Anda.projects.locations.operations.cancel
: Membatalkan pipeline.
Cloud Life Sciences API ditujukan untuk developer yang ingin membangun atau membuat alat pengelolaan pekerjaan, seperti dsub, atau mesin alur kerja, seperti Cromwell. Cloud Life Sciences API menyediakan backend untuk alat dan sistem ini, yang menyediakan penjadwalan tugas untuk tugas berbasis Docker yang menjalankan analisis genom sekunder pada container Compute Engine. Anda dapat mengirim operasi batch dari mana saja dan menjalankannya di Google Cloud. Image Docker dapat dikemas secara manual, atau Anda dapat menggunakan image Docker yang sudah ada.
Kasus penggunaan yang paling umum saat menggunakan Cloud Life Sciences API adalah menjalankan alat atau skrip kustom yang sudah ada yang membaca dan menulis file, biasanya ke dan dari Cloud Storage. Cloud Life Sciences API dapat berjalan secara independen pada ratusan atau ribuan file ini.
Anda dapat mengakses Cloud Life Sciences API menggunakan REST API, RPC API, atau Google Cloud CLI.
Menjalankan Cloud Life Sciences API
Jika Anda membuat mesin alur kerja, serangkaian langkah umum yang akan dilakukan mesin tersebut adalah:
- Mengurai bahasa alur kerja input dan membuat serangkaian objek
Pipeline
berformat JSON yang diterima Cloud Life Sciences API. Mesin akan mengirimkan serangkaian permintaan yang ditentukan dalam objekPipeline
ke Cloud Life Sciences API. - Memantau permintaan dan menggabungkan output dari permintaan sebelum melanjutkan ke langkah berikutnya.
Berikut ini penjelasan yang lebih mendalam mengenai langkah pertama:
Pipeline berjalan dengan memanggil metode pipelines.run
.
Metode ini menggunakan objek
Pipeline
dan kumpulan label opsional untuk mulai menjalankan pipeline. Objek Pipeline
terdiri dari satu atau beberapa deskripsi Action
dan objek Resources
yang
menjelaskan resource Google Cloud apa saja yang diperlukan untuk menjalankan
pipeline.
Contoh berikut menunjukkan cara mengonfigurasi
Pipeline
sederhana yang menjalankan satu Action
(mencetak "Hello, world" ke
terminal) pada VM kecil (n1-standard-1
)
standar:
"pipeline": {
"actions": [
{
"imageUri": "bash",
"commands": [ "-c", "echo Hello, world" ]
},
],
"resources": {
"regions": ["us-central11"],
"virtualMachine": {
"machineType": "n1-standard-1",
}
}
}
Contoh berikut menunjukkan cara mengonfigurasi objek Action
yang mengeksekusi beberapa perintah. Action
menyalin file dari Cloud Storage ke VM, menghitung dan memverifikasi hash SHA-1 file, lalu menulis kembali file tersebut ke bucket Cloud Storage asli.
"actions": [
{
"imageUri": "google/cloud-sdk",
"commands": [ "gsutil", "cp", "gs://my-bucket/input.in", "/tmp" ]
},
{
"imageUri": "bash",
"commands": [ "-c", "sha1sum /tmp/in > /tmp/test.sha1" ]
},
{
"imageUri": "google/cloud-sdk",
"commands": [ "gsutil", "cp", "/tmp/output.sha1", "gs://my-bucket/output.sha1" ]
},
],
Memanggil pipelines.run
akan menampilkan operasi yang berjalan lama yang dapat Anda kueri untuk mendapatkan status atau membatalkan pipeline.
Siklus proses permintaan Cloud Life Sciences API
Siklus proses umum pipeline yang berjalan di Cloud Life Sciences API adalah sebagai berikut:
- Cloud Life Sciences API mengalokasikan resource Google Cloud yang diperlukan untuk menjalankan pipeline. Setidaknya, hal ini biasanya melibatkan pengalokasian virtual machine (VM) Compute Engine dengan kapasitas disk.
- Setelah VM tersedia, Cloud Life Sciences API akan menjalankan setiap tindakan yang ditentukan di pipeline. Tindakan ini menjalankan operasi seperti menyalin file input, memproses data, atau menyalin file output.
- Pipeline melepaskan semua resource yang dialokasikan, termasuk menghapus VM yang dibuat.
BigQuery ETL menggunakan alat Variant Transforms
Untuk memuat data ilmu hayati Anda ke BigQuery guna dianalisis lebih lanjut, gunakan alat Variant Transforms.
Variant Transforms adalah alat open source berdasarkan Apache Beam dan menggunakan Dataflow. Variant Transforms adalah cara yang direkomendasikan untuk mengubah dan memuat data genomik ke Google Cloud untuk analisis lebih lanjut.
Menggunakan teknologi Google Cloud lainnya dengan data ilmu hayati
Ada beberapa teknologi Google Cloud yang berinteraksi dengan Cloud Life Sciences atau yang dapat digunakan untuk menganalisis dan memproses data ilmu hayati. Fitur tersebut meliputi:
- BigQuery: Gunakan BigQuery untuk kueri ad-hoc set data terstruktur yang sangat besar, seperti varian genomik. Kasus penggunaan mencakup menganalisis varian
dan menjalankan kueri
JOIN
yang kompleks untuk menganalisis data yang dijelaskan oleh interval wilayah genom, atau tumpang-tindih. Alat Variant Transforms menyediakan cara untuk mengubah dan memuat file VCF langsung ke BigQuery. - Cloud Storage: Gunakan Cloud Storage sebagai penyimpanan objek untuk file VCF mentah, FASTQ, dan BAM yang dapat Anda muat ke BigQuery menggunakan Variant Transforms untuk analisis berskala besar.
- Dataflow: Alat Variant Transforms menggunakan Dataflow untuk membuat pipeline pemrosesan data yang sangat skalabel yang memuat data ke BigQuery.