Ringkasan
Cloud Life Sciences adalah rangkaian layanan dan alat untuk mengelola, memproses, dan mentransformasi data ilmu hayati. Solusi ini juga memungkinkan insight lanjutan dan alur kerja operasional menggunakan infrastruktur yang sangat skalabel dan mematuhi kebijakan. Cloud Life Sciences mencakup fitur seperti Cloud Life Sciences API, alat ekstrak-transformasi-muat (ETL), dan lainnya.
Halaman ini memberikan ringkasan tentang layanan dan alat yang ditawarkan Cloud Life Sciences (dan Google Cloud secara lebih umum) serta cara memanfaatkan fiturnya dengan data ilmu hayati Anda.
Ringkasan Cloud Life Sciences API
Cloud Life Sciences API menyediakan cara sederhana untuk menjalankan serangkaian penampung Compute Engine di Google Cloud. Cloud Life Sciences API terdiri dari satu operasi utama:
projects.locations.pipelines.run
: Menjalankan pipeline.
Dan tiga operasi umum:
projects.locations.operations.get
: Mendapatkan status terbaru pipeline.projects.locations.operations.list
: Mencantumkan semua pipeline yang berjalan di region Google Cloud dalam project Google Cloud Anda.projects.locations.operations.cancel
: Membatalkan pipeline.
Cloud Life Sciences API ditujukan bagi developer yang ingin mem-build atau membuat alat pengelolaan tugas, seperti dsub, atau mesin alur kerja, seperti Cromwell. Cloud Life Sciences API menyediakan backend untuk alat dan sistem ini, yang menyediakan penjadwalan tugas untuk tugas berbasis Docker yang melakukan analisis genomik sekunder pada penampung Compute Engine. Anda dapat mengirimkan operasi batch dari mana saja dan menjalankannya di Google Cloud. Image Docker dapat dikemas secara manual, atau Anda dapat menggunakan image Docker yang ada.
Kasus penggunaan yang paling umum saat menggunakan Cloud Life Sciences API adalah menjalankan alat atau skrip kustom yang ada yang membaca dan menulis file, biasanya ke dan dari Cloud Storage. Cloud Life Sciences API dapat berjalan secara independen di atas ratusan atau ribuan file ini.
Anda dapat mengakses Cloud Life Sciences API menggunakan REST API, RPC API, atau Google Cloud CLI.
Menjalankan Cloud Life Sciences API
Jika Anda membuat mesin alur kerja, rangkaian langkah standar yang akan dilakukan mesin adalah:
- Mengurai bahasa alur kerja input dan membuat serangkaian objek
Pipeline
berformat JSON yang diterima Cloud Life Sciences API. Mesin mengirim serangkaian permintaan yang ditentukan dalam objekPipeline
ke Cloud Life Sciences API. - Memantau permintaan dan menggabungkan output dari permintaan tersebut sebelum melanjutkan ke langkah berikutnya.
Berikut adalah penjelasan yang lebih mendalam tentang langkah pertama:
Pipeline berjalan dengan memanggil metode pipelines.run
.
Metode ini menggunakan objek Pipeline
dan kumpulan label opsional untuk mulai menjalankan pipeline. Objek Pipeline
terdiri dari satu atau beberapa deskripsi Action
dan objek Resources
yang
menjelaskan resource Google Cloud yang diperlukan untuk menjalankan
pipeline.
Contoh berikut menunjukkan cara mengonfigurasi
Pipeline
sederhana yang menjalankan satu Action
(mencetak "Halo, dunia" ke
terminal) di VM standar (n1-standard-1
)
kecil:
"pipeline": {
"actions": [
{
"imageUri": "bash",
"commands": [ "-c", "echo Hello, world" ]
},
],
"resources": {
"regions": ["us-central11"],
"virtualMachine": {
"machineType": "n1-standard-1",
}
}
}
Contoh berikut menunjukkan cara mengonfigurasi objek Action
yang menjalankan
beberapa perintah. Action
menyalin file dari Cloud Storage ke VM, menghitung dan memverifikasi hash SHA-1 file, lalu menulis file kembali ke bucket Cloud Storage asli.
"actions": [
{
"imageUri": "google/cloud-sdk",
"commands": [ "gsutil", "cp", "gs://my-bucket/input.in", "/tmp" ]
},
{
"imageUri": "bash",
"commands": [ "-c", "sha1sum /tmp/in > /tmp/test.sha1" ]
},
{
"imageUri": "google/cloud-sdk",
"commands": [ "gsutil", "cp", "/tmp/output.sha1", "gs://my-bucket/output.sha1" ]
},
],
Memanggil pipelines.run
akan menampilkan operasi yang berjalan lama yang dapat Anda buat kueri untuk mendapatkan status atau membatalkan pipeline.
Siklus proses permintaan Cloud Life Sciences API
Siklus proses umum pipeline yang berjalan di Cloud Life Sciences API adalah sebagai berikut:
- Cloud Life Sciences API mengalokasikan resource Google Cloud yang diperlukan untuk menjalankan pipeline. Setidaknya, hal ini biasanya melibatkan alokasi virtual machine (VM) Compute Engine dengan ruang disk.
- Setelah VM tersedia, Cloud Life Sciences API akan menjalankan setiap tindakan yang ditentukan dalam pipeline. Tindakan ini melakukan operasi seperti menyalin file input, memproses data, atau menyalin file output.
- Pipeline melepaskan resource yang dialokasikan, termasuk menghapus VM yang dibuat.
ETL BigQuery menggunakan alat Variant Transforms
Untuk memuat data ilmu hayati ke BigQuery untuk analisis lebih lanjut, gunakan alat Variant Transforms.
Variant Transforms adalah alat open source berdasarkan Apache Beam dan menggunakan Dataflow. Transformasi Varian adalah cara yang direkomendasikan untuk mengubah dan memuat data genomik ke Google Cloud untuk analisis lebih lanjut.
Menggunakan teknologi Google Cloud lainnya dengan data ilmu hayati
Ada beberapa teknologi Google Cloud yang berinteraksi dengan Cloud Life Sciences atau dapat digunakan untuk menganalisis dan memproses data ilmu hayati. Fitur tersebut meliputi:
- BigQuery: Gunakan
BigQuery untuk kueri ad hoc dari set data terstruktur yang masif,
seperti varian genomik. Kasus penggunaan mencakup menganalisis varian
dan menjalankan kueri
JOIN
kompleks untuk menganalisis data yang dijelaskan oleh interval regional genomik, atau tumpang-tindih. Alat Variant Transforms menyediakan cara untuk mengubah dan memuat file VCF langsung ke BigQuery. - Cloud Storage: Gunakan Cloud Storage sebagai object store untuk VCF mentah, file FASTQ, dan BAM yang dapat Anda muat ke BigQuery menggunakan Variant Transforms untuk analisis skala besar.
- Dataflow: Alat Variant Transforms menggunakan Dataflow untuk membuat pipeline pemrosesan data yang sangat skalabel yang memuat data ke BigQuery.