Esta página se ha traducido con Cloud Translation API.
Switch to English

Interfaz web de Airflow

Apache Airflow incluye una interfaz web que puedes usar para administrar flujos de trabajo (DAG), el entorno de Airflow y realizar acciones administrativas. Por ejemplo, puedes usar la interfaz web para revisar el progreso de un DAG, configurar una nueva conexión de datos o revisar los registros de ejecuciones anteriores del DAG.

Servidor web de Airflow

Cada entorno de Cloud Composer tiene un servidor web que ejecuta la interfaz web de Airflow. El servidor web es independiente del clúster de GKE de tu entorno y se ejecuta en una instancia de App Engine con un tipo de máquina fijo.

El servidor web analiza los archivos de definición de DAG en la carpeta dags/ y debe poder acceder a los datos y recursos de un DAG para cargarlo y entregar solicitudes HTTP.

El servidor web actualiza los DAG cada 60 segundos, que es el worker_refresh_interval predeterminado en Cloud Composer. Un error del servidor web puede ocurrir si el servidor web no puede analizar todos los DAG dentro del intervalo de actualización.

Si hay una gran cantidad de archivos de DAG o si hay una carga de trabajo no trivial para subir los DAG, es posible que se superen los 60 segundos para subir los DAG. Para garantizar el acceso al servidor web independientemente del tiempo de carga del DAG, puedes configurar carga asíncrona de DAG para analizar y subir DAG en segundo plano en un intervalo preconfigurado (disponible en composer-1.7.1-airflow-1.10.2 y versiones posteriores ). Con esta configuración, también se puede reducir el tiempo de actualización del DAG.

Además de superar el intervalo de actualización del trabajador, el servidor web puede manejar correctamente los errores de carga de DAG en la mayoría de los casos. Los DAG que provocan la falla o la salida del servidor web pueden provocar errores en el navegador. Para obtener más información, consulta Solución de problemas de DAG.

Si continúas teniendo problemas con el servidor web debido al análisis de DAG, te recomendamos que uses la carga asíncrona de DAG.

Reinicia el servidor web (vista previa)

Cuando depuras o solucionas problemas de entornos de Cloud Composer, es posible resolver algunos problemas si reinicias el servidor web de Airflow. Puedes reiniciar el servidor web con la API de RestartWebServer o el comando de gcloud restart-web-server:

gcloud beta composer environments restart-web-server ENVIRONMENT_NAME
  --location=LOCATION

Antes de comenzar

  • Se requiere el siguiente permiso para acceder al servidor web de Airflow en el entorno de Cloud Composer: composer.environments.get. Para obtener más información, consulta Control de acceso de Cloud Composer.

  • Durante la creación del entorno, Cloud Composer configura la URL del servidor web que ejecuta la interfaz web de Airflow. La URL no se puede personalizar.

  • La función Control de acceso basado en funciones (RBAC) para la interfaz web de Airflow es compatible con los entornos de Cloud Composer que ejecutan la versión 1.13.4 o posterior de Airflow, Airflow. versión 1.10.10 o posterior y Python 3.

Accede a la interfaz web

El servicio de servidor web de Airflow se implementa en el dominio appspot.com y proporciona acceso a la interfaz web de Airflow. Identity-Aware Proxy protege la interfaz y el acceso en función de las identidades de los usuarios.

Después de crear un nuevo entorno de Cloud Composer, la interfaz web demora hasta 25 minutos en terminar el hosting y estar accesible.

Accede a la interfaz web a través de Google Cloud Console

Para acceder a la interfaz web de Airflow desde Google Cloud Console, sigue estos pasos:

  1. Para ver tus entornos existentes de Cloud Composer, abre la página Entornos.

    Abrir la página Entornos

  2. En la columna servidor web de Airflow, haz clic en el ícono de ventana nueva del entorno cuya interfaz web de Airflow deseas ver.
  3. Accede con la Cuenta de Google que tiene los permisos correspondientes.

Limita el acceso al servidor web de Airflow

Los entornos de Composer te permiten limitar el acceso al servidor web de Airflow.

Puedes bloquear todo el acceso o permitir el acceso desde rangos de IP externos IPv4 o IPv6 específicos.

Actualmente, no puedes configurar los rangos de IP permitidos mediante direcciones IP privadas.

Recupera la URL de la interfaz web a través de la herramienta de línea de comandos de gcloud

Puedes acceder a la interfaz web de Airflow desde cualquier navegador web. Para obtener la URL de la interfaz web, ingresa el siguiente comando de gcloud:

gcloud composer environments describe ENVIRONMENT_NAME \
--location LOCATION

Donde:

  • ENVIRONMENT_NAME es el nombre del entorno.
  • LOCATION es la región de Compute Engine donde se encuentra el entorno.

El comando de gcloud muestra las propiedades de un entorno de Cloud Composer, incluida la URL de la interfaz web. La URL aparece como airflowUri.

airflowUri: https://uexamplebcd3fff-tp.appspot.com/
  dagGcsPrefix: gs://us-central1-example-environment-00a47695-bucket/dags
  gkeCluster: projects/example-project/zones/us-central1-a/clusters/us-central1-example-environment-00a47695-gke
  nodeConfig:
    diskSizeGb: 100
    location: projects/example-project/zones/us-central1-a
    machineType: projects/example-project/zones/us-central1-a/machineTypes/n1-standard-1
    network: projects/example-project/global/networks/default
    oauthScopes:
    - https://www.googleapis.com/auth/cloud-platform
    serviceAccount: N13597NNN465-compute@developer.gserviceaccount.com
  nodeCount: 3
  softwareConfig:
    imageVersion: composer-0.5.1-airflow-1.9.0
createTime: '2018-05-19T02:13:36.749Z'
name: projects/example-project/locations/us-central1/environments/example-environment
state: RUNNING
updateTime: '2018-05-19T02:30:21.387Z'
uuid: 66bd6a28-5b48-4da3-a0aa-898199b569da

Configura la carga asíncrona de DAG

Con la carga asíncrona de DAG (webserver-async_dagbag_loader), el servidor web crea un proceso nuevo. El proceso carga de DAG en segundo plano, envía DAG recién cargados (dagbag_sync_interval) y, luego, se suspende.

El proceso se activa periódicamente para volver a subir los DAG (collect_dags_interval). Requiere composer-1.7.1-airflow-1.10.2 o superior.

Para configurar la carga asíncrona de DAG, anula las siguientes configuraciones de Airflow:

Sección y configuración Notas
webserver-async_dagbag_loader = True El valor predeterminado es False.
webserver-collect_dags_interval = 30 El valor predeterminado es 30. Usa un valor menor para realizar actualizaciones más rápidas.
webserver-dagbag_sync_interval = 10 El valor predeterminado es 10.
webserver-worker_refresh_interval = 3600 El valor predeterminado es 60. Con la carga asíncrona de DAG, puedes usar un intervalo de actualización más grande.

Ten en cuenta que la función de serialización de DAG debe estar inhabilitada cuando se usa la carga asíncrona de DAG.