En este instructivo, se explica cómo ejecutar una canalización de Nextflow en Batch. Específicamente, este instructivo ejecuta la canalización de ciencias de la vida rnaseq-nf
de muestra de Nextflow, que cuantifica las características genómicas a partir de datos de lecturas cortas con RNA-Seq.
Este instructivo está dirigido a los usuarios de Batch que desean usar Nextflow con Batch.
Nextflow es un software de código abierto para organizar flujos de trabajo de bioinformática.
Objetivos
Cuando completes este instructivo, aprenderás a hacer lo siguiente:
- Instala Nextflow en Cloud Shell.
- Crear un bucket de Cloud Storage
- Configurar una canalización de Nextflow.
- Ejecuta una canalización de muestra con Nextflow en Batch.
- Consulta los resultados de la canalización.
- Realiza una limpieza para evitar incurrir en cargos adicionales. Para ello, haz lo siguiente:
- Borrar un proyecto
- Borra recursos individuales.
Costos
En este documento, usarás los siguientes componentes facturables de Google Cloud:
- Batch
- Cloud Storage
Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios.
Los recursos creados en este instructivo suelen costar menos de un dólar, suponiendo que completes todos los pasos, incluida la limpieza, de manera oportuna.
Antes de comenzar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
Create or select a Google Cloud project.
-
Create a Google Cloud project:
gcloud projects create PROJECT_ID
Replace
PROJECT_ID
with a name for the Google Cloud project you are creating. -
Select the Google Cloud project that you created:
gcloud config set project PROJECT_ID
Replace
PROJECT_ID
with your Google Cloud project name.
-
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Batch, Cloud Storage, Compute Engine, and Logging APIs:
gcloud services enable batch.googleapis.com
compute.googleapis.com logging.googleapis.com storage.googleapis.com - Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
Create or select a Google Cloud project.
-
Create a Google Cloud project:
gcloud projects create PROJECT_ID
Replace
PROJECT_ID
with a name for the Google Cloud project you are creating. -
Select the Google Cloud project that you created:
gcloud config set project PROJECT_ID
Replace
PROJECT_ID
with your Google Cloud project name.
-
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Batch, Cloud Storage, Compute Engine, and Logging APIs:
gcloud services enable batch.googleapis.com
compute.googleapis.com logging.googleapis.com storage.googleapis.com -
Asegúrate de que tu proyecto tenga una red de nube privada virtual (VPC) con una configuración de red válida para este instructivo.
En este instructivo, se supone que usas la red
default
. De forma predeterminada,los recursos de Google Cloud usan la reddefault
, que proporciona el acceso a la red necesario para este instructivo. -
Asegúrate de que tu proyecto tenga al menos una cuenta de servicio con los permisos necesarios para ejecutar el trabajo por lotes en este instructivo.
De forma predeterminada, las tareas usan la cuenta de servicio predeterminada de Compute Engine, a la que se le otorga automáticamente el rol de IAM de editor (
roles/editor
) y que ya tiene todos los permisos necesarios para este instructivo.Para garantizar que la cuenta de servicio del trabajo tenga los permisos necesarios para permitir que el agente de servicio de Batch cree recursos para los trabajos de Batch y acceda a ellos, pídele a tu administrador que otorgue a la cuenta de servicio del trabajo los siguientes roles de IAM:
-
Informes del agente por lotes (
roles/batch.agentReporter
) en el proyecto -
Administrador de almacenamiento (
roles/storage.admin
) en el proyecto -
(Recomendado) Permite que los trabajos generen registros en Cloud Logging:
Escritor de registros (
roles/logging.logWriter
) en el proyecto
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.
Es posible que tu administrador también pueda otorgar a la cuenta de servicio del trabajo los permisos necesarios mediante roles personalizados o con otros roles predefinidos.
-
Informes del agente por lotes (
-
Asegúrate de tener los permisos necesarios para este instructivo.
Si quieres obtener los permisos que necesitas para completar este instructivo, pídele a tu administrador que te otorgue los siguientes roles de IAM:
-
Editor de trabajos por lotes (
roles/batch.jobsEditor
) en el proyecto -
Usuario de la cuenta de servicio (
roles/iam.serviceAccountUser
) en la cuenta de servicio del trabajo -
Administrador de objetos de almacenamiento (
roles/storage.objectAdmin
) en el proyecto
-
Editor de trabajos por lotes (
-
Instala Nextflow:
curl -s -L https://github.com/nextflow-io/nextflow/releases/download/v23.04.1/nextflow | bash
El resultado debería ser similar al siguiente ejemplo:
N E X T F L O W version 23.04.1 build 5866 created 15-04-2023 06:51 UTC cite doi:10.1038/nbt.3820 http://nextflow.io Nextflow installation completed. Please note: - the executable file `nextflow` has been created in the folder: ... - you may complete the installation by moving it to a directory in your $PATH
Cree un bucket de Cloud Storage
Para crear un bucket de Cloud Storage que almacene trabajo temporal y archivos de salida de la canalización de Nextflow, usa la consola de Google Cloud o la línea de comandos.
Console
Para crear un bucket de Cloud Storage con la consola de Google Cloud, sigue estos pasos:
En la consola de Google Cloud, ve a la página Buckets.
Haz clic en
Crear.En la página Crear un bucket, ingresa un nombre global único para tu bucket.
Haz clic en Crear.
En la ventana Se impedirá el acceso público, haz clic en Confirmar.
gcloud
Para crear un bucket de Cloud Storage con Google Cloud CLI, usa el comando gcloud storage buckets create
.
gcloud storage buckets create gs://BUCKET_NAME
Reemplaza BUCKET_NAME
por un nombre único a nivel global para tu bucket.
Si la solicitud se realiza de forma correcta, el resultado debería ser similar al siguiente:
Creating gs://BUCKET_NAME/...
```
Configura Nextflow
Para configurar la canalización de Nextflow para que se ejecute en Batch, sigue estos pasos en la línea de comandos:
Clona el repositorio de canalización de muestra:
git clone https://github.com/nextflow-io/rnaseq-nf.git
Ve a la carpeta
rnaseq-nf
:cd rnaseq-nf
Abre el archivo
nextflow.config
:nano nextflow.config
El archivo debe contener la siguiente sección
gcb
:gcb { params.transcriptome = 'gs://rnaseq-nf/data/ggal/transcript.fa' params.reads = 'gs://rnaseq-nf/data/ggal/gut_{1,2}.fq' params.multiqc = 'gs://rnaseq-nf/multiqc' process.executor = 'google-batch' process.container = 'quay.io/nextflow/rnaseq-nf:v1.1' workDir = 'gs://BUCKET_NAME/WORK_DIRECTORY' google.region = 'REGION' }
En la sección
gcb
, haz lo siguiente:Reemplaza
BUCKET_NAME
por el nombre del bucket de Cloud Storage que creaste en los pasos anteriores.Reemplaza
WORK_DIRECTORY
por el nombre de una carpeta nueva que la canalización pueda usar para almacenar registros y resultados.Por ejemplo, ingresa
workDir
.Reemplaza
REGION
por la región que se usará.Por ejemplo, ingresa
us-central1
.Después del campo
google.region
, agrega los siguientes campos:Agrega el campo
google.project
:google.project = 'PROJECT_ID'
Reemplaza
PROJECT_ID
por el ID del proyecto Google Cloud actual.Si no usas la cuenta de servicio predeterminada de Compute Engine como la cuenta de servicio del trabajo, agrega el campo
google.batch.serviceAccountEmail
:google.batch.serviceAccountEmail = 'SERVICE_ACCOUNT_EMAIL'
Reemplaza
SERVICE_ACCOUNT_EMAIL
por la dirección de correo electrónico de la cuenta de servicio del trabajo que preparaste para este instructivo.
Para guardar tus ediciones, haz lo siguiente:
Presiona
Control+S
.Ingresa
Y
.Presiona
Enter
.
Ejecuta la canalización
Ejecuta la canalización de ejemplo de Nextflow con la línea de comandos:
../nextflow run nextflow-io/rnaseq-nf -profile gcb
La canalización ejecuta un conjunto de datos pequeño con la configuración que proporcionaste en los pasos anteriores. Esta operación puede tardar hasta 10 minutos en completarse.
Una vez que la canalización termine de ejecutarse, el resultado debería ser similar al siguiente:
N E X T F L O W ~ version 23.04.1
Launching `https://github.com/nextflow-io/rnaseq-nf` [crazy_curry] DSL2 - revision: 88b8ef803a [master]
R N A S E Q - N F P I P E L I N E
===================================
transcriptome: gs://rnaseq-nf/data/ggal/transcript.fa
reads : gs://rnaseq-nf/data/ggal/gut_{1,2}.fq
outdir : results
Uploading local `bin` scripts folder to gs://example-bucket/workdir/tmp/53/2847f2b832456a88a8e4cd44eec00a/bin
executor > google-batch (4)
[67/71b856] process > RNASEQ:INDEX (transcript) [100%] 1 of 1 ✔
[0c/2c79c6] process > RNASEQ:FASTQC (FASTQC on gut) [100%] 1 of 1 ✔
[a9/571723] process > RNASEQ:QUANT (gut) [100%] 1 of 1 ✔
[9a/1f0dd4] process > MULTIQC [100%] 1 of 1 ✔
Done! Open the following report in your browser --> results/multiqc_report.html
Completed at: 20-Apr-2023 15:44:55
Duration : 10m 13s
CPU hours : (a few seconds)
Succeeded : 4
Cómo ver los resultados de la canalización
Una vez que se termina de ejecutar la canalización, almacena archivos de salida, registros, errores o archivos temporales en el archivo results/qc_report.html
dentro de la carpeta WORK_DIRECTORY
de tu bucket de Cloud Storage.
Para verificar los archivos de salida de la canalización en la carpeta WORK_DIRECTORY
de tu bucket de Cloud Storage, puedes usar la consola de Google Cloud o la línea de comandos.
Console
Para verificar los archivos de salida de la canalización con la consola de Google Cloud, sigue estos pasos:
En la consola de Google Cloud, ve a la página Buckets.
En la columna Nombre, haz clic en el nombre del bucket que creaste en los pasos anteriores.
En la página Bucket details, abre la carpeta
WORK_DIRECTORY
.
Hay una carpeta para cada tarea independiente que ejecuta el flujo de trabajo. Cada carpeta contiene los comandos que se ejecutaron, los archivos de salida y los archivos temporales que creó la canalización.
gcloud
Para verificar los archivos de salida de la canalización con la CLI de gcloud, usa el comando gcloud storage ls
.
gcloud storage ls gs://BUCKET_NAME/WORK_DIRECTORY
Reemplaza lo siguiente:
BUCKET_NAME
: Es el nombre del bucket que creaste en los pasos anteriores.WORK_DIRECTORY
: Es el directorio que especificaste en el archivonextflow.config
.
El resultado muestra una carpeta para cada tarea independiente que ejecuta la canalización. Cada carpeta contiene los comandos que se ejecutaron, los archivos de salida y los archivos temporales que creó la canalización.
Limpia
Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.
Borra el proyecto
La manera más fácil de eliminar la facturación es borrar el proyecto actual.
Para borrar el proyecto actual, usa la consola de Google Cloud o la CLI de gcloud.
Console
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
gcloud
Delete a Google Cloud project:
gcloud projects delete PROJECT_ID
Borra los recursos individuales
Si deseas seguir usando el proyecto actual, borra los recursos individuales que se usaron en este instructivo.
Borra el bucket
Si ya no necesitas el bucket que usaste en este instructivo, bórralo.
Borra los archivos de salida del bucket
Una vez que finaliza la ejecución de la canalización, se crean y almacenan archivos de salida en la carpeta WORK_DIRECTORY
de tu bucket de Cloud Storage.
Para reducir los cargos de Cloud Storage a la cuenta deGoogle Cloud actual, puedes borrar la carpeta que contiene los archivos de salida de la canalización con la consola de Google Cloud o la línea de comandos.
Console
Para borrar la carpeta WORK_DIRECTORY
y todos los archivos de salida de tu bucket de Cloud Storage con la consola de Google Cloud, sigue estos pasos:
En la consola de Google Cloud, ve a la página Buckets.
En la columna Nombre, haz clic en el nombre del bucket que creaste en los pasos anteriores.
En la página Detalles del bucket, selecciona la fila que contiene la carpeta
WORK_DIRECTORY
y, luego, haz lo siguiente:Haz clic en Borrar.
Para confirmar, ingresa
DELETE
y, luego, haz clic en Borrar.
gcloud
Para borrar la carpeta WORK_DIRECTORY
y todos los archivos de salida de tu bucket de Cloud Storage con gcloud CLI, usa el comando gcloud storage rm
con la marca --recursive
.
gcloud storage rm gs://BUCKET_NAME/WORK_DIRECTORY \
--recursive
Reemplaza lo siguiente:
BUCKET_NAME
: Es el nombre del bucket que especificaste en los pasos anteriores.WORK_DIRECTORY
: Es el directorio para almacenar los archivos de salida de la canalización que especificaste en los pasos anteriores.
¿Qué sigue?
Para obtener más información sobre la implementación de flujos de trabajo de Nextflow, consulta el repositorio de GitHub de Nextflow.
Para obtener más información sobre los procesos, la escritura de secuencias de comandos y las opciones de configuración de Nextflow, consulta la documentación de Nextflow.