使用 Cloud Life Sciences 处理基因组数据
本页面介绍了如何运行使用 Cloud Life Sciences API 从包含 DNA 序列的二进制文件(BAM 文件)创建索引文件(BAI 文件)的基因组流水线。
BAM 文件通常很大,需要使用基因组查看器进行读取。您可以使用 BAI 文件找到包含您感兴趣的基因组位置的 BAM 文件部分。
须知事项
- 登录您的 Google Cloud 帐号。如果您是 Google Cloud 新手,请创建一个帐号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
启用 Cloud Life Sciences, Compute Engine, and Cloud Storage JSON API。
- 安装 Google Cloud CLI。
-
如需初始化 gcloud CLI,请运行以下命令:
gcloud init
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
启用 Cloud Life Sciences, Compute Engine, and Cloud Storage JSON API。
- 安装 Google Cloud CLI。
-
如需初始化 gcloud CLI,请运行以下命令:
gcloud init
- 安装 Python 3.8。
如果您使用的是 Windows,并且在安装 Google Cloud CLI 时保留选中了相关复选框,则系统会自动完成此操作。
或者,您也可以使用 Cloud Shell,该工具预安装有 gcloud CLI。
运行流水线
如需运行流水线,请完成以下步骤:
创建用于存储 BAI 文件的存储桶。存储桶是 Cloud Storage 中用于存放数据的基本容器。 如需创建名为
PROJECT_ID-life-sciences
的存储桶,请运行gsutil mb
命令:gsutil mb gs://PROJECT_ID-life-sciences
将 PROJECT_ID 替换为您的 Google Cloud 项目 ID。您必须使用全局唯一的存储桶名称。
如果成功,该命令会返回以下内容:
Creating gs://PROJECT_ID-life-sciences
如需启动流水线,请运行
gcloud beta lifesciences pipelines run
命令:gcloud beta lifesciences pipelines run \ --regions us-east1 \ --command-line 'samtools index ${BAM} ${BAI}' \ --docker-image "gcr.io/cloud-lifesciences/samtools" \ --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \ --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
如果成功,该命令会返回以下内容:
Running [projects/PROJECT_ID/operations/OPERATION_ID]
请记下您在下一步中使用的 OPERATION_ID。
如需跟踪流水线的状态,请运行
gcloud beta lifesciences operations wait
命令。将 OPERATION_ID 替换成上一步骤中输出的值。流水线需要几分钟时间才能执行完毕。gcloud beta lifesciences operations wait OPERATION_ID
操作完成后,将返回以下消息:
Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
如需验证 BAI 文件是否已生成,请运行
gsutil ls
命令:gsutil ls gs://PROJECT_ID-life-sciences
如果成功,该命令会返回以下内容:
gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
您已使用 Cloud Life Sciences API 运行流水线从 BAM 文件创建 BAI 文件。使用基因组查看器使用 NA12878.chr20.sample.bam.bai
索引文件检查 NA12878.chr20.sample.bam
BGP 文件。
清理
为避免因本页中使用的资源导致您的 Google Cloud 帐号产生费用,请按照以下步骤操作。
删除 BAI 文件
要删除生成的 BAI 文件但保留创建的项目和存储桶,请运行 gsutil rm
命令:
gsutil rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai
删除存储桶
如果您专门为此快速入门创建了存储桶,但不再需要用到它,请使用 gsutil rb
命令删除该存储桶。删除存储桶也会删除生成的 BAI 文件。
gsutil rb gs://PROJECT_ID-life-sciences
删除项目
如果您专门为此快速入门创建了项目,但不再需要用到该项目,您可以将其删除。删除项目还会删除 BAI 文件和 Cloud Storage 存储桶。
- 在 Google Cloud 控制台中,进入管理资源页面。
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击关闭以删除项目。