Memproses data genom menggunakan Cloud Life Sciences

Halaman ini menjelaskan cara menjalankan pipeline genomik yang menggunakan Cloud Life Sciences API untuk membuat file indeks (file BAI) dari file biner yang berisi urutan DNA (file BAM).

File BAM biasanya berukuran besar dan dapat memakan waktu lama untuk dibaca menggunakan penampil genom. Gunakan file BAI untuk menemukan bagian file BAM yang berisi posisi genom yang Anda minati.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.

    Enable the APIs

  5. Menginstal Google Cloud CLI.
  6. Untuk initialize gcloud CLI, jalankan perintah berikut:

    gcloud init
  7. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  8. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  9. Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.

    Enable the APIs

  10. Menginstal Google Cloud CLI.
  11. Untuk initialize gcloud CLI, jalankan perintah berikut:

    gcloud init
  12. Atau, Anda dapat menggunakan Cloud Shell, yang sudah dilengkapi dengan gcloud CLI.

  13. Instal Python 3.8.

    Jika Anda menggunakan Windows dan membiarkan kotak centang yang relevan dipilih saat menginstal Google Cloud CLI, proses ini terjadi secara otomatis.

Menjalankan pipeline

Untuk menjalankan pipeline, selesaikan langkah-langkah berikut:

  1. Buat bucket tempat Anda menyimpan file BAI. Bucket adalah container dasar yang menyimpan data Anda di Cloud Storage. Untuk membuat bucket bernama PROJECT_ID-life-sciences, jalankan perintah gsutil mb:

    gsutil mb gs://PROJECT_ID-life-sciences
    

    Ganti PROJECT_ID dengan ID project Google Cloud Anda. Anda harus menggunakan nama bucket yang unik secara global.

    Jika berhasil, perintah menampilkan hal berikut:

    Creating gs://PROJECT_ID-life-sciences
    
  2. Untuk memulai pipeline, jalankan perintah gcloud beta lifesciences pipelines run:

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

    Jika berhasil, perintah menampilkan hal berikut:

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    

    Catat OPERATION_ID, yang Anda gunakan di langkah berikutnya.

  3. Untuk melacak status pipeline, jalankan perintah gcloud beta lifesciences operations wait. Ganti OPERATION_ID dengan nilai yang dicetak pada langkah sebelumnya. Proses pipeline memerlukan waktu beberapa menit.

    gcloud beta lifesciences operations wait OPERATION_ID
    

    Setelah operasi selesai, pesan berikut akan ditampilkan:

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  4. Untuk memverifikasi bahwa file BAI sudah dibuat, jalankan perintah gsutil ls:

    gsutil ls gs://PROJECT_ID-life-sciences
    

    Jika berhasil, perintah menampilkan hal berikut:

    gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
    

Anda telah menjalankan pipeline menggunakan Cloud Life Sciences API untuk membuat file BAI dari file BAM. Gunakan penampil genom untuk memeriksa file BAM NA12878.chr20.sample.bam menggunakan file indeks NA12878.chr20.sample.bam.bai.

Pembersihan

Agar akun Google Cloud Anda tidak dikenakan biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

Hapus file BAI

Untuk menghapus file BAI yang dihasilkan, tetapi mempertahankan project dan bucket yang Anda buat, jalankan perintah gsutil rm:

gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Menghapus bucket

Jika Anda membuat bucket khusus untuk panduan memulai ini dan tidak lagi memerlukannya, tetapi ingin mempertahankan project Anda, hapus bucket menggunakan perintah gsutil rb. Menghapus bucket juga akan menghapus file BAI yang dihasilkan.

gsutil rb gs://PROJECT_ID-life-sciences

Menghapus project

Jika Anda membuat project khusus untuk panduan memulai ini dan tidak lagi memerlukannya, Anda dapat menghapus project tersebut. Jika project dihapus, file BAI dan bucket Cloud Storage juga akan dihapus.

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Bagaimana hasilnya?

Langkah selanjutnya