En este instructivo, se usan los siguientes componentes facturables de Google Cloud:
- Dataproc
- Compute Engine
- Cloud Composer
Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios.
Antes de comenzar
Configura el proyecto
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Obtén información sobre cómo verificar si la facturación está habilitada en un proyecto.
-
Habilita las API de Dataproc, Compute Engine, and Cloud Composer .
- Instala Google Cloud CLI.
-
Para inicializar la CLI de gcloud, ejecuta el siguiente comando:
gcloud init
-
En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Obtén información sobre cómo verificar si la facturación está habilitada en un proyecto.
-
Habilita las API de Dataproc, Compute Engine, and Cloud Composer .
- Instala Google Cloud CLI.
-
Para inicializar la CLI de gcloud, ejecuta el siguiente comando:
gcloud init
Crea una plantilla de flujo de trabajo de Dataproc
Copia y ejecuta los comandos que se indican a continuación en una ventana de la terminal local o en Cloud Shell para crear y definir una plantilla de flujo de trabajo.
- Crea la plantilla de flujo de trabajo
sparkpi
.gcloud dataproc workflow-templates create sparkpi \ --region=us-central1
- Agrega el trabajo de Spark a la plantilla de flujo de trabajo.
sparkpi
La marcastep-id
de “compute” identifica el trabajo de SparkPi.gcloud dataproc workflow-templates add-job spark \ --workflow-template=sparkpi \ --step-id=compute \ --class=org.apache.spark.examples.SparkPi \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --region=us-central1 \ -- 1000
- Usa un clúster administrado y de un solo nodo para ejecutar el flujo de trabajo. Dataproc creará el clúster, ejecutará el flujo de trabajo en él y, luego, borrará el clúster cuando este se complete.
gcloud dataproc workflow-templates set-managed-cluster sparkpi \ --cluster-name=sparkpi \ --single-node \ --region=us-central1
- Confirma la creación de la plantilla de flujo de trabajo.
Consola
Haz clic en el nombre
sparkpi
en la página Flujos de trabajo de Dataproc en Google Cloud Console para abrir la página Detalles de la plantilla de flujo de trabajo. Haz clic en el nombre de tu plantilla de flujo de trabajo para confirmar los atributos de la plantillasparkpi
.Comando de gcloud
Ejecuta el siguiente comando:
gcloud dataproc workflow-templates describe sparkpi --region=us-central1
Crea y sube un DAG a Cloud Storage
- Crea o usa un entorno existente de Cloud Composer.
- Configurar variables de entorno
IU de Airflow
- En la barra de herramientas, haz clic en Administrador > Variables.
- Haz clic en Crear.
- Ingresa la siguiente información:
- Key:
project_id
- Val: PROJECT_ID: El ID de tu proyecto de Google Cloud
- Key:
- Haz clic en Guardar.
Comando de gcloud
Ingresa los siguientes comandos:
ENVIRONMENT
es el nombre del entorno de Cloud Composer.LOCATION
es la región en la que se encuentra el entorno de Cloud Composer.
gcloud composer environments run ENVIRONMENT \ --location LOCATION
- En la barra de herramientas, haz clic en Administrador > Variables.
- Copia el siguiente código de DAG de forma local en un archivo llamado “composer-dataproc-dag.py”, que usa DataprocInstantiateWorkflowTemplateOperator.
Airflow 2
Airflow 1
- Sube el DAG a tu carpeta de entorno en Cloud Storage. Una vez que la carga se haya completado de forma correcta, haz clic en el vínculo Carpeta de DAG en la página del entorno de Cloud Composer.
Visualiza el estado de una tarea
IU de Airflow
- Abre la interfaz web de Airflow.
- En la página de los DAG, haz clic en el nombre del DAG (por ejemplo,
dataproc_workflow_dag
). - En la página de detalles de los DAG, haz clic en Graph View.
- Verifica el estado:
- Error: La tarea tiene un cuadro rojo alrededor.
También puedes mantener el puntero sobre la tarea y buscar Estado: Error.
- Éxito: La tarea tiene un cuadro verde a su alrededor.
También puedes mantener el puntero sobre la tarea y ver si aparece el mensaje Estado: correcto.
- Error: La tarea tiene un cuadro rojo alrededor.
También puedes mantener el puntero sobre la tarea y buscar Estado: Error.
Consola
Haz clic en la pestaña Flujos de trabajo para ver el estado del flujo de trabajo.

Comando de gcloud
gcloud dataproc operations list \ --region=us-central1 \ --filter="labels.goog-dataproc-workflow-template-id=sparkpi"
Realice una limpieza
Para evitar que se apliquen cargos a tu cuenta de Google Cloud, puedes borrar los recursos que usaste en este instructivo:
¿Qué sigue?
- Consulta Descripción general de las plantillas de flujos de trabajo de Dataproc
- Consulta Soluciones de programación del flujo de trabajo