Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1
En esta página se describe la arquitectura de los entornos de Cloud Composer.
Configuraciones de la arquitectura del entorno
Los entornos de Cloud Composer 2 pueden tener las siguientes configuraciones de arquitectura:
- Arquitectura de IP pública
- Arquitectura de IP privadas
- Arquitectura de IP privada de alta resiliencia
Proyectos de clientes y de clientes
Cuando creas un entorno, Cloud Composer distribuye los recursos del entorno entre un proyecto de cliente y un proyecto de propietario:
Proyecto de cliente es un Google Cloud proyecto en el que creas tus entornos. Puedes crear más de un entorno en un mismo proyecto de cliente.
Un proyecto de cliente es un proyecto de cliente gestionado por Google y pertenece a la organización Google.com. El proyecto de inquilino proporciona un control de acceso unificado y una capa adicional de seguridad de los datos a tu entorno. Cada entorno de Cloud Composer tiene su propio proyecto de arrendatario.
Componentes del entorno
Un entorno de Cloud Composer consta de componentes de entorno.
Un componente de entorno es un elemento de una infraestructura de Airflow gestionada que se ejecuta en Google Cloudcomo parte de tu entorno. Los componentes del entorno se ejecutan en el cliente o en el proyecto del cliente de tu entorno.
Clúster del entorno
El clúster del entorno es un clúster de Google Kubernetes Engine Autopilot nativo de VPC de tu entorno:
De forma predeterminada, Cloud Composer habilita las actualizaciones automáticas de nodos y la reparación automática de nodos para proteger el clúster de tu entorno frente a vulnerabilidades de seguridad. Estas operaciones se realizan durante las ventanas de mantenimiento que especifiques para tu entorno.
Segmento del entorno
El segmento del entorno es un segmento de Cloud Storage que almacena DAGs, complementos, dependencias de datos y registros de Airflow. El cubo del entorno se encuentra en el proyecto del cliente.
Cuando subes tus archivos DAG a la carpeta /dags
del bucket de tu entorno, Cloud Composer sincroniza los DAGs con los componentes de Airflow de tu entorno.
Servidor web de Airflow
El servidor web de Airflow ejecuta la interfaz de usuario de Airflow de tu entorno.
Cloud Composer proporciona acceso a la interfaz en función de las identidades de los usuarios y los enlaces de políticas de gestión de identidades y accesos definidos para los usuarios.
Base de datos de Airflow
La base de datos de Airflow es una instancia de Cloud SQL que se ejecuta en el proyecto de inquilino de tu entorno. Aloja la base de datos de metadatos de Airflow.
Para proteger la información sensible de las conexiones y los flujos de trabajo, Cloud Composer solo permite el acceso a la base de datos a la cuenta de servicio de tu entorno.
Otros componentes de flujo de aire
Otros componentes de Airflow que se ejecutan en tu entorno:
Los programadores de Airflow analizan los archivos de definición de DAG, programan las ejecuciones de DAG en función del intervalo de programación y ponen en cola las tareas para que las ejecuten los trabajadores de Airflow. En Cloud Composer 2, los procesadores de DAG de Airflow se ejecutan como parte de los componentes del programador.
Los activadores de Airflow monitorizan de forma asíncrona todas las tareas aplazadas de tu entorno. Si defines el número de activadores de tu entorno por encima de cero, puedes usar operadores aplazables en tus DAGs.
Los trabajadores de Airflow ejecutan las tareas programadas por los programadores de Airflow. El número mínimo y máximo de trabajadores de tu entorno cambia dinámicamente en función del número de tareas de la cola.
Arquitectura del entorno de IP pública
En una arquitectura de entorno de IP pública de Cloud Composer 2:
- El proyecto de inquilino aloja una instancia de Cloud SQL y almacenamiento de Cloud SQL.
- El proyecto del cliente aloja el resto de los componentes del entorno.
- Los programadores y los trabajadores de Airflow del proyecto del cliente se comunican con la base de datos de Airflow a través de una instancia de proxy de Cloud SQL ubicada en el proyecto del cliente.
Arquitectura de los entornos de IP privada
De forma predeterminada, Cloud Composer 2 usa Private Service Connect, de modo que tus entornos de IP privada se comunican internamente sin usar el emparejamiento de VPC. También puedes usar el emparejamiento de VPCs en lugar de Private Service Connect en tu entorno. Esta es una opción no predeterminada.
En la arquitectura del entorno de IP privada:
- El proyecto de inquilino aloja una instancia de Cloud SQL y almacenamiento de Cloud SQL.
- El proyecto del cliente aloja el resto de los componentes del entorno.
- Los programadores y los trabajadores de Airflow se conectan a la base de datos de Airflow a través del endpoint de PSC configurado.
Arquitectura de IP privada de alta resiliencia
Los entornos de Cloud Composer de alta disponibilidad son entornos multizonales que usan mecanismos de redundancia y de conmutación por error integrados que reducen la vulnerabilidad del entorno a los fallos zonales y a las interrupciones por un único punto de fallo.
En este tipo de entorno de IP privada:
- Un componente de Cloud SQL de tu entorno tiene una instancia principal y una instancia de espera que se distribuyen entre zonas.
- Tu entorno ejecuta dos programadores de Airflow y dos servidores web. Si se usan activadores, se ejecutan un mínimo de dos (hasta un total de diez). Estos pares de componentes se ejecutan en dos zonas independientes.
- El número mínimo de trabajadores es dos y el clúster de tu entorno distribuye las instancias de trabajador entre las zonas. En caso de interrupción zonal, las instancias de trabajador afectadas se reprograman en otra zona.
Integración con Cloud Logging y Cloud Monitoring
Cloud Composer se integra con Cloud Logging y Cloud Monitoring de tu Google Cloud proyecto para que tengas un lugar centralizado donde ver los registros de Airflow y DAG.
Cloud Monitoring recoge e ingiere métricas, eventos y metadatos de Cloud Composer para generar estadísticas mediante paneles de control y gráficos.
Gracias a la naturaleza de streaming de Cloud Logging, puedes ver los registros emitidos por los componentes de Airflow inmediatamente en lugar de esperar a que aparezcan en el segmento de Cloud Storage de tu entorno.
Para limitar el número de registros de tu Google Cloud proyecto, puedes detener la ingestión de todos los registros. No inhabilites el registro.