クイックスタート: Cloud Life Sciences を使用してゲノムデータを処理する

このページでは、Cloud Life Sciences API を使用するゲノミクス パイプラインを実行して、DNA 配列を含むバイナリ ファイル(BAM ファイル)からインデックス ファイル(BAI ファイル)を作成する方法を説明します。

通常、BAM ファイルはサイズが大きいため、ゲノムビューアを使用した読み取りには時間がかかることがあります。BAI ファイルを使用して、目的のゲノム位置を含む BAM ファイルの部分を見つけます。

始める前に

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.

    Enable the APIs

  5. Install the Google Cloud CLI.
  6. To initialize the gcloud CLI, run the following command:

    gcloud init
  7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  8. Make sure that billing is enabled for your Google Cloud project.

  9. Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.

    Enable the APIs

  10. Install the Google Cloud CLI.
  11. To initialize the gcloud CLI, run the following command:

    gcloud init
  12. 別の方法として、インストール済みの gcloud CLI に付属する Cloud Shell を使用することもできます。

  13. Python 3.8 をインストールします

    Windows では、Google Cloud CLI をインストールする際にこの操作に関連するチェックボックスをオンのままにしていれば、インストールは自動的に行われています。

パイプラインの実行

パイプラインを実行するには、次の手順を実行します。

  1. BAI ファイルを保存するためのバケットを作成します。バケットは、Cloud Storage でデータを格納する基本的なコンテナです。 PROJECT_ID-life-sciences という名前のバケットを作成するには、gcloud storage buckets create コマンドを実行します。

    gcloud storage buckets create gs://PROJECT_ID-life-sciences

    PROJECT_ID を Google Cloud プロジェクト ID に置き換えます。グローバルに一意のバケット名を使用する必要があります。

    成功した場合、コマンドは以下を返します。

    Creating gs://PROJECT_ID-life-sciences
  2. パイプラインを開始するには、gcloud beta lifesciences pipelines run コマンドを実行します。

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

    成功した場合、コマンドは以下を返します。

    Running [projects/PROJECT_ID/operations/OPERATION_ID]

    次のステップで使用する OPERATION_ID をメモします。

  3. パイプラインのステータスを追跡するには、gcloud beta lifesciences operations wait コマンドを実行します。OPERATION_ID を前のステップで出力された値に置き換えます。パイプラインが完了するまで数分かかります。

    gcloud beta lifesciences operations wait OPERATION_ID

    操作が完了すると、次のメッセージが返されます。

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
  4. BAI ファイルが生成されたことを確認するには、gcloud storage ls コマンドを実行します。

    gcloud storage ls gs://PROJECT_ID-life-sciences

    成功した場合、コマンドは以下を返します。

    gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

これで、Cloud Life Sciences API を使用してパイプラインを実行し、BAM ファイルから BAI ファイルを作成しました。ゲノムビューアを使用して、NA12878.chr20.sample.bam.bai インデックス ファイルを使用する NA12878.chr20.sample.bam BAM ファイルを調べます。

クリーンアップ

このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。

BAI ファイルの削除

作成したプロジェクトとバケットを保持しつつ、生成された BAI ファイルを削除するには gcloud storage rm コマンドを実行します。

gcloud storage rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

バケットの削除

このクイックスタートのために作成したバケットが不要になった場合に、プロジェクトを保持しつつバケットを削除するには、gcloud storage rm コマンドを使用してバケットを削除します。バケットを削除すると、生成された BAI ファイルも削除されます。

gcloud storage rm gs://PROJECT_ID-life-sciences --recursive

プロジェクトの削除

このクイックスタートのために作成したプロジェクトは、不要になれば削除できます。プロジェクトを削除すると、BAI ファイルと Cloud Storage バケットも削除されます。

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

いかがでしたか

次のステップ