Funciones de Cloud Composer

Cloud Composer 1 | Cloud Composer 2

En esta página, se proporciona una descripción general de las funciones y capacidades de Cloud Composer.

Para obtener más información sobre las diferencias entre Cloud Composer 1 y Cloud Composer 2, consulta la descripción general del control de versiones.

Cloud Composer es un servicio administrado de Apache Airflow que te ayuda a crear, programar, supervisar y administrar flujos de trabajo.

Entornos de Cloud Composer

Un entorno de Cloud Composer es un wrapper en Apache Airflow. Cloud Composer crea los siguientes componentes para cada entorno:

  • Clúster de GKE: Los programadores y los trabajadores de Airflow y la cola de Redis se ejecutan como cargas de trabajo de GKE en un solo clúster y son responsables de procesar y ejecutar los DAG. El clúster también aloja otros componentes de Cloud Composer, como Composer Agent y Airflow Monitoring, que ayudan a administrar el entorno de Cloud Composer, recopilar registros a fin de almacenar en Cloud Logging y recopilar métricas para subir a Cloud Monitoring.
  • Servidor web: El servidor web ejecuta la interfaz web de Apache Airflow. Para obtener más información, consulta la Interfaz web de Airflow.
  • Base de datos: la base de datos contiene los metadatos de Apache Airflow.
  • Bucket de Cloud Storage: Cloud Composer asocia un bucket de Cloud Storage con el entorno. El bucket asociado almacena los DAG, los registros, los complementos personalizados y los datos del entorno. Para obtener más información sobre el bucket de almacenamiento de Cloud Composer, consulta Datos almacenados en Cloud Storage.

Administración de Airflow

Para acceder y administrar tus entornos de Airflow, puedes usar las siguientes herramientas nativas de Airflow:

  • Interfaz web: Puedes acceder a la interfaz web de Airflow desde la consola de Google Cloud o mediante una URL directa con los permisos adecuados. Para obtener más información, consulta la Interfaz web de Airflow.
  • Herramientas de línea de comandos: Después de instalar Google Cloud CLI, puedes ejecutar comandos de gcloud composer environments para emitir comandos de línea de comandos de Airflow en entornos de Cloud Composer. Para obtener más información, consulta la Interfaz de línea de comandos de Airflow.

Además de las herramientas nativas, las API de REST y RPC de Cloud Composer proporcionan acceso programático a tus entornos de Airflow. Para obtener más información, consulta API y referencias.

Configuración de Airflow

En general, la configuración que proporciona Cloud Composer para Apache Airflow es la misma que la configuración para una implementación de Airflow alojada localmente. Algunos parámetros de configuración de Airflow están preconfigurados en Cloud Composer, y no puedes cambiar las propiedades de configuración. Especificas otros parámetros de configuración cuando creas o actualizas tu entorno. Para obtener más información, consulta Configuración de Airflow bloqueada.

DAG de Airflow (flujos de trabajo)

Un DAG de Apache Airflow es un flujo de trabajo: un conjunto de tareas con dependencias de tareas adicionales. Cloud Composer usa Cloud Storage para almacenar DAG. Para agregar o quitar un DAG de tu entorno de Cloud Composer, agrega o quita los DAG del bucket de entorno asociado con el entorno. Una vez que transfieres los DAG al bucket de almacenamiento, los DAG se agregan automáticamente y se programan en tu entorno.

Además de programar los DAG, puedes activar los DAG de forma manual o en respuesta a eventos, como los cambios que ocurren en el bucket asociado de Cloud Storage. Para obtener más información, consulta cómo activar los DAG.

Complementos

Puedes instalar complementos personalizados, como operadores internos y personalizados de Apache Airflow, hooks, sensores o interfaces en tu entorno de Cloud Composer. Para obtener más información, consulta como instalar complementos personalizados.

Dependencias de Python

Puedes instalar dependencias de Python desde el Índice de paquetes de Python en tu entorno o desde un repositorio de paquetes privado. Para obtener más información, consulta cómo instalar dependencias de Python.

Si las dependencias no están en el índice del paquete, también puedes usar la función complementos.

Control de acceso

Administra la seguridad a nivel de proyecto de Google Cloud y puedes asignar funciones de Identity and Access Management (IAM) que evitan que los usuarios modifiquen o creen entornos. Si alguien no tiene acceso a tu proyecto o no tiene una función apropiada de IAM de Cloud Composer, esa persona no podrá acceder a ninguno de tus entornos. Para obtener más información, consulta Guía de control de acceso.

Registro y supervisión

Puedes ver los registros de Airflow asociados con tareas de DAG individuales en la interfaz web de Airflow y la carpeta logs en el bucket de Cloud Storage del entorno.

Los registros de transmisión están disponibles para Cloud Composer. Para obtener más información, consulta Supervisa entornos de Cloud Composer.

Cloud Composer también proporciona registros de auditoría, como los registros de auditoría de la actividad de administrador, para tus proyectos de Google Cloud. Para obtener más información, consulta cómo ver los registros de auditoría.

Herramientas de redes y seguridad

De forma predeterminada, Cloud Composer implementa un clúster de Google Kubernetes Engine nativo de la VPC en modo Estándar.

Para mayor seguridad y flexibilidad de redes, Cloud Composer también admite las siguientes funciones.

VPC compartida

La VPC compartida permite la administración de recursos compartidos de red desde un proyecto host central para aplicar políticas de red coherentes en todos los proyectos.

Cuando Cloud Composer participa en una VPC compartida, el entorno de Cloud Composer se encuentra en un proyecto de servicio y puede invocar servicios alojados en otros proyectos de Google Cloud. Los recursos dentro de tus proyectos de servicio se comunican de forma segura a través de los límites del proyecto mediante direcciones IP internas. Para conocer los requisitos del proyecto de red y de host, consulta cómo configurar una VPC compartida.

Entorno de Cloud Composer nativo de la VPC

Con la VPC nativa, las direcciones IP de pod y servicio en el clúster de GKE se pueden enrutar de forma nativa dentro de la red de Google Cloud, incluso a través del intercambio de tráfico entre redes de VPC.

En esta configuración, Cloud Composer implementa un clúster de GKE nativos de VPC con alias de direcciones IP en tu entorno. Cuando usas clústeres nativos de la VPC, GKE elige automáticamente un rango secundario. Para requisitos específicos de redes, también puedes configurar los rangos secundarios en tus pods y servicios de GKE durante la configuración del entorno de Cloud Composer.

Entorno de IP privada de Cloud Composer

Con la IP privada, los flujos de trabajo de Cloud Composer están completamente aislados de Internet pública.

En esta configuración, Cloud Composer implementa un clúster de GKE nativo de VPC con alias de direcciones IP en el proyecto de cliente. El clúster de GKE para tu entorno está configurado como un clúster privado y la instancia de Cloud SQL está configurada para una IP privada.

Cloud Composer también crea una conexión de intercambio de tráfico entre la red de VPC de tu proyecto de cliente y la red de VPC de tu proyecto de usuario.

Integración del linaje de datos en Dataplex

La ejecución de DAG de Cloud Composer a menudo puede dar como resultado la creación o actualización de fuentes de datos como las tablas de BigQuery en tu proyecto. El linaje de datos es una función de Dataplex que te permite hacer un seguimiento de cómo los datos se mueven a través de tus sistemas: de dónde provienen, a dónde se pasan y qué transformaciones se aplican a ellos.

Para obtener más información, consulta Integración del linaje de datos y Acerca del linaje de datos en la documentación de Dataplex.

Novedades