Solución de problemas con la herramienta Variant Transforms

En esta página, se describen algunos problemas con los que podrías encontrarte cuando cargas archivos VCF mediante la herramienta Variant Transforms.

Si no puedes cargar archivos VCF después de leer este documento, puedes obtener asistencia adicional en el grupo google-genomics-discuss. También puedes abrir un problema en el repositorio de GitHub de la herramienta Variant Transforms.

La herramienta Variant Transforms es demasiado lenta

Puedes ejecutar la herramienta Variant Transforms, pero funciona lentamente.

  • Aumenta la cantidad de trabajadores en el trabajo con la marca --max_num_workers.
  • Cambia la marca --worker_machine_type para usar una máquina más grande, como n1-standard-32. Consulta Memoria y CPU virtuales predefinidas para obtener más información acerca de los tipos predefinidos de máquinas de Compute Engine.
  • Asegúrate de tener cuotas de recursos de Compute Engine suficientes en la región o zona en la que ejecutas la herramienta Variant Transforms. Si es necesario, puedes cambiar la zona o región en la que se ejecuta tu trabajo o puedes solicitar cuotas de Compute Engine adicionales.

    Para ver tu cuota de Compute Engine disponible, consulta esta página.

  • Si intentas cargar archivos GZIP o BZIP, la herramienta podría ralentizarse porque estos tipos de archivos no se pueden fragmentar. Como solución, descomprime los archivos antes de cargarlos. Puedes usar la herramienta dsub para escribir una secuencia de comandos que descomprima los archivos de manera escalable.

    Este problema ocurrirá con más frecuencia si estás ejecutando la herramienta con una cantidad pequeña de archivos grandes. En general, ejecutar la herramienta con una cantidad grande de archivos pequeños no genera problemas, ya que cada archivo puede leerse en un proceso separado.

Para obtener más información, consulta Administración de entradas grandes.

La canalización falla debido a un error de espacio en disco insuficiente

Puedes ejecutar la herramienta Variant Transforms, pero falla porque se queda sin espacio en disco.

  • Aumenta el tamaño de disco asignado a cada trabajador mediante la marca --disk_size_gb.
  • Aumenta la cantidad de trabajadores en el trabajo con la marca --max_num_workers.

Ocurre un error del campo de BigQuery o de análisis de JSON

Puedes ejecutar la herramienta de Variant Transforms, pero se detiene con uno de los siguientes mensajes:

  • Error while reading data, error message: JSON parsing error in row starting at position 0: No such field: FIELD_NAME
  • BigQuery schema has no such field

Estos mensajes de error indican que falta ese campo en el esquema de BigQuery. Probablemente se deba a que falta la definición del campo en un archivo de encabezado VCF.

  • Edita el archivo VCF que contiene el campo y agrega una entrada en el encabezado que contenga la definición correcta. Por ejemplo, si el error ocurriese en el campo AF, agregarías lo siguiente al archivo VCF:

    ##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
    

    Debes proporcionar un Type y un Number válidos para el campo. Si no estás seguro de estos valores, puedes usar una lista genérica de strings pasando Type=String y Number=. como marcadores de posición, que coincidirán con cualquier campo. También verifica si el campo faltante usa ##INFO o ##FORMAT.

  • Si no puedes editar el archivo, ejecuta la herramienta Variant Transforms con la marca --representative_header_file FILE_PATH. En el archivo que pasas, proporciona una visión combinada de todos los encabezados en todos los archivos. Puedes agregar todos los campos faltantes a ese archivo.

  • Ejecuta la herramienta Variant Transforms con la marca --infer_headers. Esto provoca que la herramienta haga dos pasadas en los datos. De esta forma, infiere las definiciones correspondientes de los encabezados sin definir o no coincidentes (en estos últimos, la definición del campo de encabezado no coincide con el valor del campo). Cuando agregas esta marca, no tienes que editar los archivos VCF o proporcionar un archivo de encabezado representativo. Sin embargo, si agregas esta marca, la herramienta utiliza aproximadamente un 30% más de recursos de Compute Engine.

Recursos adicionales

  • Si sigues teniendo problemas después de leer este documento, puedes obtener asistencia adicional en el grupo google-genomics-discuss.

  • También puedes abrir un problema en el repositorio de GitHub de la herramienta Variant Transforms.