Cette page a été traduite par l'API Cloud Translation.
Switch to English

Résoudre les problèmes relatifs à l'outil Variant Transforms

Cette page décrit les problèmes que vous pouvez rencontrer lors du chargement des fichiers VCF à l'aide de l'outil Variant Transforms.

Si vous ne parvenez pas à charger les fichiers VCF après avoir lu ce document, vous pouvez obtenir une assistance supplémentaire dans le groupe google-genomics-discussion. Vous pouvez également signaler un problème dans le dépôt GitHub de l'outil Variant Transforms.

L'outil Variant Transforms est trop lent

Vous pouvez exécuter l'outil Variant Transforms, mais il fonctionne lentement.

  • Augmentez le nombre de nœuds de calcul dans la tâche à l'aide de l'option --max_num_workers.
  • Modifiez l'option --worker_machine_type pour utiliser un type de machine avec des capacités plus importantes, tel que n1-standard-32. Pour en savoir plus sur les types de machines prédéfinis de Compute Engine, consultez la section concernant les processeurs virtuels et la mémoire prédéfinis.
  • Assurez-vous de disposer de quotas de ressources Compute Engine suffisants dans la région ou la zone dans laquelle vous exécutez l'outil Variant Transforms. Si nécessaire, vous pouvez modifier la zone ou la région dans laquelle votre tâche est exécutée. Vous pouvez également demander un quota Compute Engine supplémentaire.

    Pour afficher votre quota Compute Engine disponible, consultez Vérifier les quotas.

  • Vous risquez de ralentir l'outil si vous essayez de charger des fichiers GZIP ou BZIP, car ces types de fichiers ne peuvent pas être partitionnés. Pour résoudre ce problème, décompressez les fichiers avant de les charger. Vous pouvez exécuter l'outil dsub pour écrire un script qui décompresse les fichiers de manière évolutive.

    Ce problème est plus susceptible de survenir si vous exécutez l'outil avec peu de fichiers volumineux. Vous pouvez généralement exécuter l'outil avec beaucoup de petits fichiers, car chacun d'eux peut être lu à l'aide d'un processus distinct.

Pour en savoir plus, consultez Traiter un grand nombre d'entrées.

Le pipeline plante en raison d'un manque d'espace disque

Vous pouvez exécuter l'outil Variant Transforms, mais il plante faute d'espace disque.

  • Augmentez la taille de disque attribuée pour atteindre le nœud de calcul à l'aide de l'option --disk_size_gb.
  • Augmentez le nombre de nœuds de calcul dans la tâche à l'aide de l'option --max_num_workers.

Une erreur d'analyse JSON ou de champ BigQuery se produit

Vous pouvez exécuter l'outil Variant Transforms, mais il s'arrête en affichant l'un des messages suivants :

  • Error while reading data, error message: JSON parsing error in row starting at position 0: No such field: FIELD_NAME
  • BigQuery schema has no such field

Ces messages d'erreur signifient que le champ ne figure pas dans le schéma BigQuery. Il se peut que la définition du champ ne figure pas dans le fichier d'en-tête VCF.

  • Modifiez le fichier VCF qui contient le champ et ajoutez une entrée dans l'en-tête avec la définition appropriée. Par exemple, si l'erreur se produit pour le champ AF, vous devez ajouter la ligne suivante au fichier VCF :

    ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
    

    Vous devez indiquer des valeurs Type et Number valides pour le champ. Si vous n'êtes pas sûr de ces valeurs, vous pouvez utiliser une liste de chaînes générique en transmettant Type=String et Number=. en tant qu'espaces réservés, qui correspondent à n'importe quel champ. Vérifiez également si le champ manquant utilise ##INFO ou ##FORMAT.

  • Si vous ne pouvez pas modifier le fichier, exécutez l'outil Variant Transforms avec l'indicateur --representative_header_file FILE_PATH. Dans le fichier que vous transmettez, fournissez une vue fusionnée de tous les en-têtes de l'ensemble des fichiers. Vous pouvez ajouter tous les champs manquants à ce fichier.

  • Exécutez l'outil Variant Transforms avec l'option --infer_headers pour qu'il effectue deux passes sur les données. Il déduit ainsi les définitions des en-têtes non définis et non concordants (dans les en-têtes non concordants, la définition du champ d'en-tête ne correspond pas à la valeur du champ). Lorsque vous ajoutez cet indicateur, vous n'avez pas besoin de modifier les fichiers VCF ni de fournir un fichier d'en-tête représentatif. Cependant, l'ajout de l'indicateur oblige l'outil à utiliser environ 30 % de ressources Compute Engine supplémentaires.

Autres ressources

  • Si vous rencontrez toujours des problèmes après avoir lu ce document, vous pouvez obtenir une assistance supplémentaire dans le groupe google-genomics-discussion.

  • Vous pouvez également signaler un problème dans le dépôt GitHub de l'outil Variant Transforms.