Descripción general de Cloud Composer

Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3

En esta página, se ofrece una breve introducción a Airflow y DAG, y se describe y capacidades de Cloud Composer.

Para obtener más información sobre las funciones nuevas de los lanzamientos de Cloud Composer, consulta Notas de la versión.

Acerca de Cloud Composer

Cloud Composer es un servicio de organización del flujo de trabajo completamente administrado. lo que te permite crear, programar, supervisar y administrar canalizaciones del flujo de trabajo que abarcan nubes y centros de datos locales.

Cloud Composer se basa en el popular proyecto de código abierto Apache Airflow y opera con el lenguaje de programación Python.

Mediante el uso de Cloud Composer en lugar de una instancia local de Apache Airflow, puedes beneficiarte de lo mejor de Airflow sin una sobrecarga de instalación o administración. Cloud Composer te ayuda a crear Airflow administrado con rapidez y usar herramientas nativas de Airflow, como la potente la interfaz web de Airflow y las herramientas de línea de comandos, de modo que puedas enfocarte en tu los flujos de trabajo, no en tu infraestructura.

Diferencias entre las versiones de Cloud Composer

Para obtener más información sobre las diferencias entre las versiones principales de Cloud Composer, consulta Descripción general del control de versiones de Cloud Composer.

DAG de Airflow y Airflow (flujos de trabajo)

En las estadísticas de datos, un flujo de trabajo representa una serie de tareas para transferir, transformar, analizar o usar datos. En Airflow, los flujos de trabajo se crean mediante los DAG o “grafos acíclicos dirigidos”.

Relación entre los DAG y las tareas
Figura 1: Relación entre los DAG y las tareas

Un DAG es una colección de tareas que deseas programar y ejecutar, organizadas, de manera que reflejen sus relaciones y dependencias. Se crean los DAG en archivos de Python, que definen la estructura del DAG con código. Los DAG propósito es garantizar que cada tarea se ejecute en el momento adecuado y en el orden correcto.

Cada tarea en un DAG puede representar casi todo. Por ejemplo, una tarea puede realizar cualquiera de las siguientes funciones:

  • Prepara datos para la transferencia
  • Supervisa una API
  • Envía un correo electrónico
  • Ejecuta una canalización

Además de ejecutar un DAG según un programa, puede activar DAG de forma manual o en respuesta a eventos, como cambios en una Cloud Storage bucket. Para obtener más información, consulta cómo activar los DAG.

Para obtener más información sobre los DAG tareas, consulta la Documentación de Apache Airflow.

Entornos de Cloud Composer

Los entornos de Cloud Composer son Airflow autónomos con implementaciones basadas en Google Kubernetes Engine. Trabajan con otros Google Cloud con conectores integrados en Airflow. Puedes crear uno o más entornos en una sola cuenta de Google Cloud proyecto, en cualquier región compatible.

Cloud Composer aprovisiona servicios de Google Cloud que se ejecutan tus flujos de trabajo y todos los componentes de Airflow. Los componentes principales de un de tu entorno son:

  • Clúster de GKE: Componentes de Airflow, como Airflow programadores, activadores y trabajadores se ejecutan como cargas de trabajo de GKE. en un solo clúster creado para tu entorno y son responsables de el procesamiento y la ejecución de DAG.

    El clúster también aloja otros componentes de Cloud Composer, como Composer Agent y Airflow Monitoring, que ayudan a administrar Cloud Composer recopila los registros para almacenarlos en Cloud Logging y métricas para subir a Cloud Monitoring.

  • Servidor web de Airflow: El servidor web ejecuta la IU de Apache Airflow.

  • Base de datos de Airflow: La base de datos contiene los metadatos de Apache Airflow.

  • Bucket de Cloud Storage: Asociaciones de Cloud Composer un bucket de Cloud Storage con tu entorno. Este bucket, también llamado bucket del entorno, almacena la DAG, registros, personalizados complementos, y datos para el medioambiente. Para obtener más información sobre la configuración bucket, ver Datos almacenados en Cloud Storage.

Para obtener información detallada sobre los componentes de un entorno, consulta Arquitectura del entorno.

Interfaces de Cloud Composer

Cloud Composer proporciona interfaces para administrar entornos, Instancias de Airflow que se ejecutan en entornos y DAG individuales.

Por ejemplo, puedes crear y configurar entornos de Cloud Composer en la consola de Google Cloud, Google Cloud CLI, la API de Cloud Composer o Terraform.

Como otro ejemplo, puedes administrar DAG desde la consola de Google Cloud, la IU nativa de Airflow o ejecutando Google Cloud CLI y comandos de la CLI de Airflow.

Funciones de Airflow en Cloud Composer

Cuando usas Cloud Composer, puedes administrar y usar las funciones de Airflow por ejemplo:

Control de acceso en Cloud Composer

Administras la seguridad en el nivel de proyecto de Google Cloud asignar roles de IAM que permitan a personas a los usuarios modificar o crear entornos. Si alguien no tiene acceso a tu proyecto o no tiene una función apropiada de IAM de Cloud Composer, esa persona no podrá acceder a ninguno de tus entornos.

Además de IAM, puedes usar Control de acceso a la IU de Airflow, que se basa en el SDK Modelo de control de acceso de Airflow.

Para obtener más información sobre las funciones de seguridad en Cloud Composer, consulta Descripción general de la seguridad de Cloud Composer.

Herramientas de redes del entorno

Cloud Composer admite varias configuraciones de red entornos de prueba, con muchas opciones de configuración. Por ejemplo, en una IP privada entorno, DAG y componentes de Airflow están completamente aislados del público a Internet.

Para obtener más información sobre las herramientas de redes en Cloud Composer, consulta las páginas para funciones de red individuales:

Preguntas frecuentes

¿Qué versión de Apache Airflow usa Cloud Composer?

Los entornos de Cloud Composer se basan en imágenes de Cloud Composer. Cuando creas un puedes seleccionar una imagen con una versión específica de Airflow:

  • Cloud Composer 3 es compatible con Airflow 2.
  • Cloud Composer 2 es compatible con Airflow 2.
  • Cloud Composer 1 es compatible con Airflow 1 y Airflow 2.

Tienes el control de la versión de Apache Airflow de tu entorno. Puedes decides actualizar tu entorno a una versión posterior Imagen de Cloud Composer. Cada versión de Cloud Composer es compatible con varias versiones de Apache Airflow.

¿Puedo usar la IU y la CLI nativas de Airflow?

Puedes acceder a la interfaz web de Apache Airflow de tu entorno. Cada uno de los entornos tiene su propia IU de Airflow. Para obtener más información sobre el acceso la IU de Airflow, consulta Interfaz web de Airflow.

Para ejecutar comandos de la CLI de Airflow en tus entornos, usa los comandos de gcloud. Si deseas obtener más información para ejecutar comandos de la CLI de Airflow en Cloud Composer, consulta Interfaz de línea de comandos de Airflow.

¿Puedo usar mi propia base de datos como la base de datos de Airflow?

Cloud Composer usa un servicio de base de datos administrado para Airflow en la base de datos. No es posible usar una base de datos proporcionada por el usuario que la base de datos de Airflow.

¿Puedo usar mi propio clúster como un clúster de Cloud Composer?

Cloud Composer usa el servicio de Google Kubernetes Engine para crear, administrar y y borrar los clústeres del entorno en los que se ejecutan los componentes de Airflow. Estos clústeres son completamente administrada por Cloud Composer.

No es posible compilar un entorno de Cloud Composer basado en un clúster autoadministrado de Google Kubernetes Engine.

¿Puedo usar mi propio Container Registry?

Cloud Composer usa el servicio de Artifact Registry para administrar repositorios de imágenes que usan los entornos de Cloud Composer. No se puede reemplazar con un registro de contenedores proporcionado por el usuario.

¿Los entornos de Cloud Composer son zonales o regionales?

Los entornos de Cloud Composer 3 y Cloud Composer 2 tienen un sistema de Airflow zonal y una capa regional de programación y ejecución de Airflow. Airflow programadores, trabajadores y servidores web se ejecutan en la capa de ejecución de Airflow.

Los entornos de Cloud Composer 1 son zonales.

¿Qué sigue?