Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1
En esta página, se proporciona una breve introducción a Airflow y los DAG, y se describen las funciones y capacidades de Cloud Composer.
Para obtener más información sobre las funciones nuevas en las versiones de Cloud Composer, consulta las notas de la versión.
Acerca de Cloud Composer
Cloud Composer es un servicio de organización del flujo de trabajo completamente administrado, lo que te permite crear, programar, supervisar y administrar canalizaciones de flujo de trabajo que abarcan varias nubes y centros de datos locales.
Cloud Composer se basa en el popular proyecto de código abierto Apache Airflow y opera con el lenguaje de programación Python.
Mediante el uso de Cloud Composer en lugar de una instancia local de Apache Airflow, puedes beneficiarte de lo mejor de Airflow sin una sobrecarga de instalación o administración. Cloud Composer te permite crear entornos de Airflow administrados rápidamente y usar herramientas nativas de Airflow, como su potente interfaz web y las herramientas de línea de comandos, para que puedas enfocarte en los flujos de trabajo y no en la infraestructura.
Diferencias entre las versiones de Cloud Composer
Para obtener más información sobre las diferencias entre las versiones principales de Cloud Composer, consulta Descripción general del control de versiones de Cloud Composer.
Airflow y DAG de Airflow (flujos de trabajo)
En las estadísticas de datos, un flujo de trabajo representa una serie de tareas para transferir, transformar, analizar o usar datos. En Airflow, los flujos de trabajo se crean mediante los DAG o “grafos acíclicos dirigidos”.
Un DAG es una colección de tareas que deseas programar y ejecutar, organizadas, de manera que reflejen sus relaciones y dependencias. Los DAG se crean en archivos de Python, que definen la estructura del DAG mediante el código. El propósito del DAG es garantizar que cada tarea se ejecute en el momento correcto y en el orden adecuado.
Cada tarea en un DAG puede representar casi todo. Por ejemplo, una tarea puede realizar cualquiera de las siguientes funciones:
- Prepara datos para la transferencia
- Supervisa una API
- Envía un correo electrónico
- Ejecuta una canalización
Además de ejecutar un DAG según un programa, puedes activar DAG de forma manual o en respuesta a eventos, como los cambios en un bucket de Cloud Storage. Para obtener más información, consulta Cómo programar y activar DAG.
Para obtener más información sobre los DAG y las tareas, consulta la documentación de Apache Airflow.
Entornos de Cloud Composer
Los entornos de Cloud Composer son implementaciones autónomas de Airflow basadas en Google Kubernetes Engine. Funcionan con otros servicios de Google Cloud mediante conectores integrados en Airflow. Puedes crear uno o más entornos en un solo proyecto Google Cloud de Google Cloud, en cualquier región compatible.
Cloud Composer aprovisiona Google Cloud servicios que ejecutan tus flujos de trabajo y todos los componentes de Airflow. Los componentes principales de un entorno son los siguientes:
Clúster de GKE: Los componentes de Airflow, como los programadores, los activadores y los trabajadores, se ejecutan como cargas de trabajo de GKE en un solo clúster creado para tu entorno y son responsables de procesar y ejecutar los DAG.
El clúster también aloja otros componentes de Cloud Composer, como Composer Agent y Airflow Monitoring, que ayudan a administrar el entorno de Cloud Composer, recopilar registros para almacenar en Cloud Logging y recopilar métricas para subir a Cloud Monitoring.
Servidor web de Airflow: El servidor web ejecuta la IU de Apache Airflow.
Base de datos de Airflow: La base de datos contiene los metadatos de Apache Airflow.
Bucket de Cloud Storage: Cloud Composer asocia un bucket de Cloud Storage con tu entorno. Este bucket, también llamado bucket del entorno, almacena los DAG, los registros, los complementos personalizados y los datos del entorno. Para obtener más información sobre el bucket del ambiente, consulta Datos almacenados en Cloud Storage.
Para obtener información detallada sobre los componentes de un entorno, consulta Arquitectura del entorno.
Interfaces de Cloud Composer
Cloud Composer proporciona interfaces para administrar entornos, instancias de Airflow que se ejecutan dentro de entornos y DAG individuales.
Por ejemplo, puedes crear y configurar ambientes de Cloud Composer en la consola de Google Cloud, Google Cloud CLI, la API de Cloud Composer o Terraform.
Como otro ejemplo, puedes administrar DAG desde la consola de Google Cloud, la IU nativa de Airflow o ejecutando Google Cloud CLI y los comandos de la CLI de Airflow.
Funciones de Airflow en Cloud Composer
Cuando usas Cloud Composer, puedes administrar y usar funciones de Airflow, como las siguientes:
DAG de Airflow: Puedes agregar, actualizar, quitar o activar DAG de Airflow en la consola de Google Cloud o con la IU nativa de Airflow.
Opciones de configuración de Airflow: Puedes cambiar las opciones de configuración de Airflow de los valores predeterminados que usa Cloud Composer a valores personalizados. En Cloud Composer, algunas de las opciones de configuración están bloqueadas, y no puedes cambiar sus valores.
Complementos personalizados: Puedes instalar complementos personalizados de Airflow, como operadores, hooks, sensores o interfaces internos y personalizados de Apache Airflow en tu entorno de Cloud Composer.
Dependencias de Python: Puedes instalar dependencias de Python desde el Índice de paquetes de Python en tu entorno o desde un repositorio de paquetes privado, incluidos los repositorios de Artifact Registry. Si las dependencias no están en el índice del paquete, también puedes usar complementos.
Registro y supervisión de DAG, componentes de Airflow y entornos de Cloud Composer:
Puedes ver los registros de Airflow asociados con tareas de DAG individuales en la interfaz web de Airflow y la carpeta
logs
en el bucket del entorno.Registros y métricas de entorno de Cloud Monitoring para entornos de Cloud Composer
Control de acceso en Cloud Composer
Administra la seguridad a nivel del Google Cloud proyecto y puedes asignar roles de IAM que permitan a los usuarios individuales modificar o crear entornos. Si alguien no tiene acceso a tu proyecto o no tiene una función apropiada de IAM de Cloud Composer, esa persona no podrá acceder a ninguno de tus entornos.
Además de IAM, puedes usar el control de acceso de la IU de Airflow, que se basa en el modelo de control de acceso de Apache Airflow.
Para obtener más información sobre las funciones de seguridad de Cloud Composer, consulta Descripción general de la seguridad de Cloud Composer.
Redes de entorno
Cloud Composer admite varias configuraciones de red para entornos, con muchas opciones de configuración. Por ejemplo, en un entorno de IP privada, los DAG y los componentes de Airflow están completamente aislados de Internet público.
Para obtener más información sobre las redes en Cloud Composer, consulta las páginas de las funciones de redes individuales:
- Entornos de IP pública y privada
- Entornos de VPC compartida
- Configura los controles del servicio de VPC
- Redes autorizadas
- Agente de enmascaramiento de IP
- Rangos de IP públicas de uso privado
Preguntas frecuentes
¿Qué versión de Apache Airflow usa Cloud Composer?
Los entornos de Cloud Composer se basan en imágenes de Cloud Composer. Cuando creas un entorno, puedes seleccionar una imagen con una versión específica de Airflow:
- Cloud Composer 3 es compatible con Airflow 2.
- Cloud Composer 2 es compatible con Airflow 2.
- Cloud Composer 1 es compatible con Airflow 1 y Airflow 2.
Tienes el control de la versión de Apache Airflow de tu entorno. Puedes decidir actualizar tu entorno a una versión más reciente de la imagen de Cloud Composer. Cada versión de Cloud Composer es compatible con varias versiones de Apache Airflow.
¿Puedo usar la IU y la CLI nativas de Airflow?
Puedes acceder a la interfaz web de Apache Airflow de tu entorno. Cada uno de los entornos tiene su propia IU de Airflow. Para obtener más información sobre cómo acceder a la IU de Airflow, consulta Interfaz web de Airflow.
Para ejecutar comandos de la CLI de Airflow en tus entornos, usa comandos gcloud
.
Para obtener más información sobre cómo ejecutar comandos de la CLI de Airflow en entornos de Cloud Composer, consulta Interfaz de línea de comandos de Airflow.
¿Puedo usar mi propia base de datos como la base de datos de Airflow?
Cloud Composer usa un servicio de base de datos administrado para la base de datos de Airflow. No es posible usar una base de datos proporcionada por el usuario como la base de datos de Airflow.
¿Puedo usar mi propio clúster como clúster de Cloud Composer?
Cloud Composer usa el servicio de Google Kubernetes Engine para crear, administrar y borrar clústeres de entorno en los que se ejecutan los componentes de Airflow. Cloud Composer administra por completo estos clústeres.
No es posible compilar un entorno de Cloud Composer basado en un clúster de Google Kubernetes Engine autoadministrado.
¿Puedo usar mi propio registro de contenedores?
Cloud Composer usa el servicio de Artifact Registry para administrar los repositorios de imágenes de contenedores que usan los entornos de Cloud Composer. No es posible reemplazarlo por un registro de contenedor proporcionado por el usuario.
¿Los entornos de Cloud Composer son zonales o regionales?
Los entornos de Cloud Composer 3 y Cloud Composer 2 tienen una base de datos de Airflow regional y una capa de programación y ejecución de Airflow regional. Los programadores, los trabajadores y los servidores web de Airflow se ejecutan en la capa de ejecución de Airflow.
Los entornos de Cloud Composer 1 son zonales.