本页面介绍如何在 Cloud Storage 中复制和存储原始 VCF 文件。存储原始 VCF 文件后,您可以使用 Variant Transforms 工具将它们加载到 BigQuery 中。
将数据复制到 Cloud Storage
Cloud Life Sciences 托管包含 Illumina Platinum Genomes 数据的公开数据集。
如需将该数据集内的两个 VCF 文件复制到您的存储桶中,请使用 gsutil cp
命令:
gsutil cp \ gs://genomics-public-data/platinum-genomes/vcf/NA1287*_S1.genome.vcf \ gs://BUCKET/platinum-genomes/vcf/
将 BUCKET 替换为 Cloud Storage 存储桶的名称。
从本地文件系统复制变体
如需复制当前目录中的一组本地文件,请运行 gsutil cp
命令:
gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp *.vcf \ gs://BUCKET/vcf/
将 BUCKET 替换为 Cloud Storage 存储桶的名称。
如需复制文件的本地目录,请运行以下命令:
gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -R \ VCF_FILE_DIRECTORY/ \ gs://BUCKET/vcf/
请替换以下内容:
- VCF_FILE_DIRECTORY:包含 VCF 文件的本地目录的路径
- BUCKET:Cloud Storage 存储桶的名称
如果由于临时网络问题而发生任何故障,您可以使用 no-clobber (-n
) 标志重新运行之前的命令,该标志仅复制丢失的文件:
gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -n -R \ VCF_FILE_DIRECTORY/ \ gs://BUCKET/vcf/
请替换以下内容:
- VCF_FILE_DIRECTORY:包含 VCF 文件的本地目录的路径
- BUCKET:Cloud Storage 存储桶的名称
如需详细了解如何将数据复制到 Cloud Storage 中,请参阅将 Cloud Storage 与大数据搭配使用。