Procesa datos genómicos con Cloud Life Sciences

En esta página, se explica cómo ejecutar una canalización de genómica que usa la API de Cloud Life Sciences. para crear un archivo de índice (archivo BAI) a partir de un archivo binario que contenga ADN secuenciales (archivo BAM).

Por lo general, los archivos BAM son grandes y pueden tardar mucho tiempo en leerse con un visor de genomas. Usas un archivo BAI para ubicar las partes del archivo BAM que contienen la posición del genoma que te interesa.

Antes de comenzar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.

    Enable the APIs

  5. Install the Google Cloud CLI.
  6. To initialize the gcloud CLI, run the following command:

    gcloud init
  7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  8. Make sure that billing is enabled for your Google Cloud project.

  9. Enable the Cloud Life Sciences, Compute Engine, and Cloud Storage JSON APIs.

    Enable the APIs

  10. Install the Google Cloud CLI.
  11. To initialize the gcloud CLI, run the following command:

    gcloud init
  12. De manera alternativa, puedes usar Cloud Shell, que ya tiene instalada gcloud CLI.

  13. Instala Python 3.8.

    Si usas Windows y dejaste la casilla de verificación correspondiente seleccionada cuando instalaste Google Cloud CLI, esto se hizo de forma automática.

Ejecuta la canalización

Para ejecutar la canalización, completa los siguientes pasos:

  1. Crea un bucket en el que almacenes el archivo BAI. Los depósitos son los contenedores básicos que conservan tus datos en Cloud Storage. Para crear un bucket llamado PROJECT_ID-life-sciences, ejecuta el comando gcloud storage buckets create:

    gcloud storage buckets create gs://PROJECT_ID-life-sciences

    Reemplaza PROJECT_ID por el ID del proyecto de Google Cloud. Tú debes usar un nombre de bucket único a nivel global.

    Si se completa correctamente, el comando muestra lo siguiente:

    Creating gs://PROJECT_ID-life-sciences
  2. Para iniciar la canalización, ejecuta gcloud beta lifesciences pipelines run. :

    gcloud beta lifesciences pipelines run \
        --regions us-east1 \
        --command-line 'samtools index ${BAM} ${BAI}' \
        --docker-image "gcr.io/cloud-lifesciences/samtools" \
        --inputs BAM=gs://genomics-public-data/NA12878.chr20.sample.bam \
        --outputs BAI=gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

    Si se completa correctamente, el comando muestra lo siguiente:

    Running [projects/PROJECT_ID/operations/OPERATION_ID]

    Toma nota de OPERATION_ID, que usarás en el siguiente paso.

  3. Para realizar un seguimiento del estado de la canalización, ejecuta el comando gcloud beta lifesciences operations wait. Reemplazar OPERATION_ID por el valor impreso en el paso anterior La canalización tarda unos minutos en finalizar.

    gcloud beta lifesciences operations wait OPERATION_ID

    Después de que la operación finaliza, muestra el mensaje siguiente:

    Waiting for [projects/PROJECT_ID/operations/OPERATION_ID]...done.
  4. Para verificar que se generó el archivo BAI, ejecuta el comando gcloud storage ls:

    gcloud storage ls gs://PROJECT_ID-life-sciences

    Si se completa correctamente, el comando muestra lo siguiente:

    gs://PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Ejecutaste una canalización con la API de Cloud Life Sciences para crear un archivo BAI. desde un archivo BAM. Usa un visor de genomas para examinar el archivo BAM NA12878.chr20.sample.bam con el archivo de índice NA12878.chr20.sample.bam.bai.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

Borra el archivo BAI

Para borrar el archivo BAI generado, pero conservar el proyecto y el bucket que creaste, ejecuta el comando gcloud storage rm:

gcloud storage rm PROJECT_ID-life-sciences/NA12878.chr20.sample.bam.bai

Borra el bucket

Si creaste el bucket específicamente para esta guía de inicio rápido y ya no lo necesitas, pero quieres conservar tu proyecto, borra el bucket con el comando gcloud storage rm. Cuando se borra el bucket, también se borra el archivo BAI generado.

gcloud storage rm gs://PROJECT_ID-life-sciences --recursive

Borra el proyecto

Si creaste el proyecto específicamente para esta guía de inicio rápido y ya no lo necesitas, puedes borrarlo. Cuando borras el proyecto, también se borra el archivo BAI y el bucket de Cloud Storage.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

¿Cómo fue?

¿Qué sigue?