Stocker des fichiers VCF bruts dans Cloud Storage

Cette page explique comment copier et stocker des fichiers VCF bruts dans Cloud Storage. Après avoir stocké les fichiers VCF bruts, vous pouvez les charger dans BigQuery à l'aide de l'outil Variant Transforms.

Copier des données vers Cloud Storage

Cloud Life Sciences héberge un ensemble de données public contenant des données du projet Platinum Genome d'Illumina. Pour copier deux fichiers VCF de l'ensemble de données vers votre bucket, exécutez la commande gsutil cp :

gsutil cp \
    gs://genomics-public-data/platinum-genomes/vcf/NA1287*_S1.genome.vcf \
    gs://BUCKET/platinum-genomes/vcf/

Remplacez BUCKET par le nom de votre bucket Cloud Storage.

Copier les variantes d'un système de fichiers local

Pour copier un groupe de fichiers locaux dans votre répertoire actuel, exécutez la commande gsutil cp :

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp *.vcf \
    gs://BUCKET/vcf/

Remplacez BUCKET par le nom de votre bucket Cloud Storage.

Pour copier un répertoire de fichiers local, exécutez la commande suivante :

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -R \
    VCF_FILE_DIRECTORY/ \
    gs://BUCKET/vcf/

Remplacez les éléments suivants :

  • VCF_FILE_DIRECTORY : chemin d'accès au répertoire local contenant les fichiers VCF
  • BUCKET : nom de votre bucket Cloud Storage

Si des échecs surviennent en raison de problèmes réseau temporaires, vous pouvez réexécuter les commandes précédentes à l'aide de l'option no-clobber (-n), qui copie uniquement les fichiers manquants :

gsutil -m -o 'GSUtil:parallel_composite_upload_threshold=150M' cp -n -R \
    VCF_FILE_DIRECTORY/ \
    gs://BUCKET/vcf/

Remplacez les éléments suivants :

  • VCF_FILE_DIRECTORY : chemin d'accès au répertoire local contenant les fichiers VCF
  • BUCKET : nom de votre bucket Cloud Storage

Pour en savoir plus sur la copie de données vers Cloud Storage, consultez la section Utiliser Cloud Storage avec Big Data.