在 Cloud Storage 中存储原始 VCF 文件

本页面介绍如何在 Cloud Storage 中复制和存储原始 VCF 文件。存储原始 VCF 文件后,您可以使用 Variant Transforms 工具将它们加载到 BigQuery 中。

将数据复制到 Cloud Storage

Cloud Life Sciences 托管包含 Illumina Platinum Genomes 数据的公开数据集。 如需将该数据集内的两个 VCF 文件复制到您的存储桶中,请使用 gsutil cp 命令:

gsutil cp \
    gs://genomics-public-data/platinum-genomes/vcf/NA1287*_S1.genome.vcf \
    gs://BUCKET/platinum-genomes/vcf/

BUCKET 替换为 Cloud Storage 存储桶的名称。

从本地文件系统复制变体

如需复制当前目录中的一组本地文件,请运行 gsutil cp 命令:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp *.vcf \
    gs://BUCKET/vcf/

BUCKET 替换为 Cloud Storage 存储桶的名称。

如需复制文件的本地目录,请运行以下命令:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -R \
    VCF_FILE_DIRECTORY/ \
    gs://BUCKET/vcf/

请替换以下内容:

  • VCF_FILE_DIRECTORY:包含 VCF 文件的本地目录的路径
  • BUCKET:Cloud Storage 存储桶的名称

如果由于临时网络问题而发生任何故障,您可以使用 no-clobber (-n) 标志重新运行之前的命令,该标志仅复制丢失的文件:

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -n -R \
    VCF_FILE_DIRECTORY/ \
    gs://BUCKET/vcf/

请替换以下内容:

  • VCF_FILE_DIRECTORY:包含 VCF 文件的本地目录的路径
  • BUCKET:Cloud Storage 存储桶的名称

如需详细了解如何将数据复制到 Cloud Storage 中,请参阅将 Cloud Storage 与大数据搭配使用