Cette page explique comment copier et stocker des fichiers VCF bruts dans Cloud Storage. Après avoir stocké les fichiers VCF bruts, vous pouvez les charger dans BigQuery à l'aide de l'outil Variant Transforms.
Copier des données dans Cloud Storage
Cloud Life Sciences héberge un ensemble de données public contenant des données du projet Platinum Genome d'Illumina. Pour copier deux fichiers VCF de l'ensemble de données vers votre bucket, procédez comme suit :
gsutil cp \ gs://genomics-public-data/platinum-genomes/vcf/NA1287*_S1.genome.vcf \ gs://BUCKET/platinum-genomes/vcf/
Copier les variantes d'un système de fichiers local
Pour copier un groupe de fichiers local, procédez comme suit :
gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp *.vcf \ gs://BUCKET/vcf/
Pour copier un répertoire de fichiers local :
gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -R \ VCF_FILE_DIRECTORY/ \ gs://BUCKET/vcf/
Si des échecs surviennent en raison de problèmes réseau temporaires, vous pouvez réexécuter les commandes précédentes à l'aide de l'option no-clobber (-n
), qui copie uniquement les fichiers manquants :
gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -n -R \ VCF_FILE_DIRECTORY \ gs://BUCKET/vcf/
Pour en savoir plus sur la copie de données vers Cloud Storage, consultez la section Utiliser Cloud Storage avec Big Data.
Étape suivante
Chargez des fichiers VCF dans BigQuery à l'aide de l'outil Variant Transforms.