Diese Seite wurde von der Cloud Translation API übersetzt.
Switch to English

Fehlerbehebung für das Tool Variant Transforms

Auf dieser Seite werden Probleme beschrieben, die auftreten können, wenn VCF-Dateien mit dem Tool Variant Transforms geladen werden.

Wenn Ihnen dieses Dokument nicht dabei helfen konnte, VCF-Dateien zu laden, lesen Sie zur zusätzlichen Unterstützung die Beiträge in der Gruppe "google-genomics-discuss". Alternativ können Sie im GitHub-Repository des Tools Variant Transforms eine Frage stellen.

Das Tool Variant Transforms ist zu langsam

Sie können das Tool Variant Transforms ausführen, es ist jedoch langsam.

  • Erhöhen Sie die Anzahl der Worker in dem Job mit dem Flag --max_num_workers.
  • Ändern Sie das Flag --worker_machine_type, damit eine größere Maschine verwendet wird, z. B. n1-standard-32. Weitere Informationen zu vordefinierten Maschinentypen in Compute Engine finden Sie unter Vordefinierte vCPUs und vordefinierter Arbeitsspeicher.
  • Stellen Sie in der Region oder Zone, in der Sie das Tool Variant Transforms ausführen, genügend Ressourcenkontingente für Compute Engine bereit. Bei Bedarf können Sie die Zone oder Region ändern, in der Ihr Job ausgeführt wird. Außerdem können Sie zusätzliche Kontingente für Compute Engine anfordern.

    Informationen zum Anzeigen des verfügbaren Compute Engine-Kontingents finden Sie unter Kontingent prüfen.

  • Wenn Sie versuchen, GZIP- oder BZIP-Dateien zu laden, arbeitet das Tool möglicherweise langsamer, da diese Dateitypen nicht fragmentiert werden können. Als Lösung können Sie die Dateien vor dem Laden dekomprimieren. Mit dem Tool dsub können Sie ein Skript schreiben, das Dateien skalierbar dekomprimiert.

    Dieses Problem tritt eher auf, wenn Sie das Tool mit einer kleinen Anzahl großer Dateien ausführen. In der Regel arbeitet das Tool schneller mit einer großen Anzahl kleiner Dateien, da jede Datei von einem separaten Prozess gelesen werden kann.

Weitere Informationen finden Sie unter Große Eingabemengen verarbeiten.

Pipeline stürzt aufgrund eines Out-of-Disk-Fehlers ab

Sie können das Tool Variant Transforms ausführen, es stürzt jedoch ab, da nicht genügend Speicherplatz auf dem Laufwerk zur Verfügung steht.

  • Erhöhen Sie mit dem Flag --disk_size_gb die den einzelnen Workern zugeteilte Laufwerksgröße.
  • Erhöhen Sie die Anzahl der Worker im Job mit dem Flag --max_num_workers.

Fehler beim JSON-Parsen oder mit einem BigQuery-Feld

Sie können das Tool Variant Transforms ausführen. Es wird jedoch mit einer der folgenden Meldungen beendet:

  • Error while reading data, error message: JSON parsing error in row starting at position 0: No such field: FIELD_NAME
  • BigQuery schema has no such field

Diese Fehlermeldungen geben an, dass das Feld im BigQuery-Schema fehlt. Dies ist wahrscheinlich darauf zurückzuführen, dass die Definition des Felds in einer VCF-Headerdatei fehlt.

  • Bearbeiten Sie die VCF-Datei, die das Feld enthält, und fügen Sie dem Header einen Eintrag hinzu, der die korrekte Definition enthält. Ist der Fehler beispielsweise für das Feld AF aufgetreten, fügen Sie der VCF-Datei folgenden Eintrag hinzu:

    ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
    

    Sie müssen einen gültigen Type und eine gültige Number für das Feld angeben. Wenn Sie sich bei diesen Werten nicht sicher sind, können Sie eine allgemeine Liste mit Strings verwenden. Übergeben Sie dafür Type=String und Number=. als Platzhalter, da diese mit allen Feldern übereinstimmen. Prüfen Sie außerdem, ob im fehlenden Feld ##INFO oder ##FORMAT verwendet wird.

  • Wenn Sie die Datei nicht bearbeiten können, führen Sie das Tool Variant Transforms mit dem Flag --representative_header_file FILE_PATH aus. Stellen Sie in der übergebenen Datei eine zusammengeführte Ansicht aller Header in allen Dateien bereit. Sie können der Datei alle fehlenden Felder hinzufügen.

  • Führen Sie das Tool Variant Transforms mit dem Flag --infer_headers aus. Damit führt das Tool mit den Daten zwei Durchgänge durch. Dabei werden die Definitionen für nicht definierte und nicht übereinstimmende Header abgeleitet. (Bei nicht übereinstimmenden Headern stimmt die Headerfelddefinition nicht mit dem Feldwert überein.) Wenn Sie dieses Flag hinzufügen, müssen Sie die VCF-Dateien nicht bearbeiten und keine repräsentative Headerdatei bereitstellen. Das Tool benötigt jedoch ungefähr 30 % mehr Compute Engine-Ressourcen.

Zusätzliche Ressourcen