このページは Cloud Translation API によって翻訳されました。

クイックスタート: Cloud Life Sciences を使用してゲノムデータを処理する

このページでは、Cloud Life Sciences API を使用するゲノミクスパイプラインを実行して、DNA 配列を含むバイナリファイル（BAM ファイル）からインデックスファイル（BAI ファイル）を作成する方法を説明します。

通常、BAM ファイルはサイズが大きいため、ゲノムビューアを使用した読み取りには時間がかかることがあります。BAI ファイルを使用して、目的のゲノム位置を含む BAM ファイルの部分を見つけます。

始める前に

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Make sure that billing is enabled for your Google Cloud project.
Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.
Enable the APIs

Install the Google Cloud CLI.
連携 ID を使用するように gcloud CLI を構成します。

詳細については、連携 ID を使用して gcloud CLI にログインするをご覧ください。
gcloud CLI を初期化するには、次のコマンドを実行します。
```
gcloud init
```
別の方法として、インストール済みの gcloud CLI に付属する Cloud Shell を使用することもできます。
Python 3.8 をインストールします。
Windows では、Google Cloud CLI をインストールする際にこの操作に関連するチェックボックスをオンのままにしていれば、インストールは自動的に行われています。

パイプラインの実行

パイプラインを実行するには、次の手順を実行します。

BAI ファイルを保存するためのバケットを作成します。バケットは、Cloud Storage でデータを格納する基本的なコンテナです。 PROJECT_ID-life-sciences という名前のバケットを作成するには、gcloud storage buckets create コマンドを実行します。
```
gcloud storage buckets create gs://PROJECT_ID-life-sciences
```
PROJECT_ID は、実際の Google Cloud プロジェクト ID に置き換えます。グローバルに一意のバケット名を使用する必要があります。
バケットの命名要件をご覧ください。
- バケット名に使用できるのは、英小文字、数字、ダッシュ（-）、アンダースコア（_）のみです。スペースは使用できません。
- バケット名の先頭と末尾は、数字または文字にする必要があります。
- バケット名の長さは 3～63 文字でなければなりません。ドットを使用している名前には最大 222 文字を使用できますが、ドットで区切られている各要素は 63 文字以下とします。
- バケット名はドット区切りの十進表記の IP アドレス（例: 192.168.5.4）として表すことはできません。
- バケット名の先頭に接頭辞「goog」は使用できません。
- バケット名に「google」や「google」と類似する表記（「g00gle」など）を含めることはできません。
注意: バケットの名前空間はグローバルであり一般公開されるため、バケット名に機密情報を含めないでください。

成功した場合、コマンドは以下を返します。
```
Creating gs://PROJECT_ID-life-sciences
```

パイプラインを開始するには、gcloud beta lifesciences pipelines run コマンドを実行します。

gcloud beta lifesciences pipelines run \
    --regions us-east1 \
    --command-line 'samtools index ${BAM} ${BAI}' \
    --docker-image "gcr.io/cloud-lifesciences/samtools" \
    --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
    --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

成功した場合、コマンドは以下を返します。

Running [projects/PROJECT_ID/operations/OPERATION_ID]

次のステップで使用する OPERATION_ID をメモします。

パイプラインのステータスを追跡するには、gcloud beta lifesciences operations wait コマンドを実行します。OPERATION_ID を前のステップで出力された値に置き換えます。パイプラインが完了するまで数分かかります。
```
gcloud beta lifesciences operations wait OPERATION_ID
```
操作が完了すると、次のメッセージが返されます。
```
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
```
BAI ファイルが生成されたことを確認するには、gcloud storage ls コマンドを実行します。
```
gcloud storage ls gs://PROJECT_ID-life-sciences
```
成功した場合、コマンドは以下を返します。
```
gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
```

これで、Cloud Life Sciences API を使用してパイプラインを実行し、BAM ファイルから BAI ファイルを作成しました。ゲノムビューアを使用して、NA12878.chr20.sample.bam.bai インデックスファイルを使用する NA12878.chr20.sample.bam BAM ファイルを調べます。

クリーンアップ

このページで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、次の手順を実施します。

BAI ファイルの削除

作成したプロジェクトとバケットを保持しつつ、生成された BAI ファイルを削除するには gcloud storage rm コマンドを実行します。

gcloud storage rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

バケットの削除

このクイックスタートのために作成したバケットが不要になった場合に、プロジェクトを保持しつつバケットを削除するには、gcloud storage rm コマンドを使用してバケットを削除します。バケットを削除すると、生成された BAI ファイルも削除されます。

gcloud storage rm gs://PROJECT_ID-life-sciences --recursive

プロジェクトの削除

このクイックスタートのために作成したプロジェクトは、不要になれば削除できます。プロジェクトを削除すると、BAI ファイルと Cloud Storage バケットも削除されます。

注意: プロジェクトを削除すると、次のような影響があります。

プロジェクト内のすべてのものが削除されます。このドキュメントのタスクで既存のプロジェクトを使用した場合、それを削除すると、そのプロジェクトで行った他の作業もすべて削除されます。
カスタムプロジェクト ID が失われます。このプロジェクトを作成したときに、将来使用するカスタムプロジェクト ID を作成した可能性があります。そのプロジェクト ID を使用した URL（たとえば、appspot.com）を保持するには、プロジェクト全体ではなくプロジェクト内の選択したリソースだけを削除します。

複数のアーキテクチャ、チュートリアル、クイックスタートを実施する予定がある場合は、プロジェクトを再利用すると、プロジェクトの割り当て上限を超えないようにすることができます。

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

いかがでしたか

次のステップ

詳細については、Cloud Life Sciences API の公開データセットをご覧ください。
バリアントデータを Cloud Storage または BigQuery に読み込む方法を学習する。
BigQuery でバリアントを分析する方法を学習する。