快速入門

本頁面說明如何執行使用 Cloud Genomics Pipelines API 的管道,從包含 DNA 序列的大型二進位檔案 (BAM 檔案) 建立索引檔案 (BAI 檔案)。

事前準備

  1. 登入您的 Google 帳戶。

    如果您沒有帳戶,請申請新帳戶

  2. 在 GCP 主控台中,前往「Manage resources」(管理資源) 頁面,選取或建立專案。

    前往「Manage resources」(管理資源) 頁面

  3. 請確認您已啟用 Google Cloud Platform 專案的計費功能。

    瞭解如何啟用計費功能

  4. 啟用Cloud Genomics、Compute Engine 與 Cloud Storage JSON API。

    啟用 API

  5. 安裝並初始化 Cloud SDK
  6. 或者,您可以使用已預先安裝 Cloud SDK 的 Google Cloud Shell

執行管道

  1. 建立 BUCKET 環境變數。這個變數指向 Cloud Storage 值區且該值區使用附加 -genomics 的專案名稱。

    export BUCKET=gs://PROJECT_ID-genomics
    
  2. 使用 gsutil mb 指令建立值區:

    gsutil mb ${BUCKET}
    
  3. 使用 gcloud 指令列工具執行管道,提供 BAM 檔案做為輸入並提供 BAI 檔案做為輸出。管道會叫用 Pipelines API,建立 Compute Engine VM 執行個體,然後在執行個體上執行管道程序。程序完成後,執行個體會自動關閉,且系統會將 BAI 檔案複製到您的 Cloud Storage 值區。

    gcloud alpha genomics pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/genomics-tools/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=${BUCKET}/NA12878.chr20.sample.bam.bai
    

    如果成功,指令會傳回下列內容:

    Running [projects/PROJECT_ID/operations/OPERATION_ID]
    
  4. 管道需要幾分鐘的時間才能完成。執行下列指令可追蹤其狀態。將「OPERATION_ID」取代為上一步輸出的值。

    gcloud alpha genomics operations wait OPERATION_ID
    

    作業完成後,會輸出以下訊息:

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
    
  5. 確認是否已產生 BAI 檔案:

    gsutil ls ${BUCKET}
    

    指令應傳回下列內容:

    gs://BUCKET/NA12878.chr20.sample.bam.bai
    

您剛剛已執行使用 Pipelines API 的管道,從 BAM 檔案建立 BAI 檔案。

清除所用資源

  1. 使用 gsutil rm 指令刪除 BAI 檔案:

    gsutil rm ${BUCKET}/NA12878.chr20.sample.bam.bai
    
  2. 如果您已建立本快速入門導覽課程專用的值區,且不再需要該值區,請使用 gsutil rb 指令將其刪除:

    gsutil rb ${BUCKET}
    

後續步驟

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Genomics