クイックスタート: Cloud Life Sciences を使用してゲノムデータを処理する
このページでは、Cloud Life Sciences API を使用するゲノミクス パイプラインを実行して、DNA 配列を含むバイナリ ファイル(BAM ファイル)からインデックス ファイル(BAI ファイル)を作成する方法を説明します。
通常、BAM ファイルはサイズが大きいため、ゲノムビューアを使用した読み取りには時間がかかることがあります。BAI ファイルを使用して、目的のゲノム位置を含む BAM ファイルの部分を見つけます。
始める前に
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
- Python 3.8 をインストールします。
Windows では、Google Cloud CLI をインストールする際にこの操作に関連するチェックボックスをオンのままにしていれば、インストールは自動的に行われています。
別の方法として、インストール済みの gcloud CLI に付属する Cloud Shell を使用することもできます。
パイプラインの実行
パイプラインを実行するには、次の手順を実行します。
BAI ファイルを保存するためのバケットを作成します。バケットは、Cloud Storage でデータを格納する基本的なコンテナです。
PROJECT_ID-life-sciences
という名前のバケットを作成するには、gcloud storage buckets create
コマンドを実行します。gcloud storage buckets create gs://PROJECT_ID-life-sciences
PROJECT_ID を Google Cloud プロジェクト ID に置き換えます。グローバルに一意のバケット名を使用する必要があります。
成功した場合、コマンドは以下を返します。
Creating gs://PROJECT_ID-life-sciences
パイプラインを開始するには、
gcloud beta lifesciences pipelines run
コマンドを実行します。gcloud beta lifesciences pipelines run \ --regions us-east1 \ --command-line 'samtools index ${BAM} ${BAI}' \ --docker-image "gcr.io/cloud-lifesciences/samtools" \ --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \ --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
成功した場合、コマンドは以下を返します。
Running [projects/PROJECT_ID/operations/OPERATION_ID]
次のステップで使用する OPERATION_ID をメモします。
パイプラインのステータスを追跡するには、
gcloud beta lifesciences operations wait
コマンドを実行します。OPERATION_ID を前のステップで出力された値に置き換えます。パイプラインが完了するまで数分かかります。gcloud beta lifesciences operations wait OPERATION_ID
操作が完了すると、次のメッセージが返されます。
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
BAI ファイルが生成されたことを確認するには、
gcloud storage ls
コマンドを実行します。gcloud storage ls gs://PROJECT_ID-life-sciences
成功した場合、コマンドは以下を返します。
gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
これで、Cloud Life Sciences API を使用してパイプラインを実行し、BAM ファイルから BAI ファイルを作成しました。ゲノムビューアを使用して、NA12878.chr20.sample.bam.bai
インデックス ファイルを使用する NA12878.chr20.sample.bam
BAM ファイルを調べます。
クリーンアップ
このページで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。
BAI ファイルの削除
作成したプロジェクトとバケットを保持しつつ、生成された BAI ファイルを削除するには gcloud storage rm
コマンドを実行します。
gcloud storage rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
バケットの削除
このクイックスタートのために作成したバケットが不要になった場合に、プロジェクトを保持しつつバケットを削除するには、gcloud storage rm
コマンドを使用してバケットを削除します。バケットを削除すると、生成された BAI ファイルも削除されます。
gcloud storage rm gs://PROJECT_ID-life-sciences --recursive
プロジェクトの削除
このクイックスタートのために作成したプロジェクトは、不要になれば削除できます。プロジェクトを削除すると、BAI ファイルと Cloud Storage バケットも削除されます。
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
いかがでしたか
次のステップ
- 詳細については、Cloud Life Sciences API の公開データセットをご覧ください。
- バリアント データを Cloud Storage または BigQuery に読み込む方法を学習する。
- BigQuery でバリアントを分析する方法を学習する。