Crea entornos de Cloud Composer

Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3

En esta página, se explica cómo crear un entorno de Cloud Composer.

Antes de comenzar

Paso 1: Configuración básica

En este paso, se crea un entorno de Cloud Composer con parámetros en la ubicación especificada.

Console

  1. En la consola de Google Cloud, ve a la página Crear entorno.

    Ir a Crear entorno

  2. En el campo Nombre, ingresa un nombre para el entorno.

    El nombre debe comenzar con una letra minúscula seguida por un máximo de 62 letras minúsculas, números o guiones, y no puede terminar con un guion. El nombre del entorno se usa a fin de crear subcomponentes para el entorno, por lo que debes proporcionar un nombre que también sea válido como un nombre de bucket de Cloud Storage. Consulta los Lineamientos para asignación de nombres de bucket a fin de obtener una lista de restricciones.

  3. En la lista desplegable Ubicación, elige una ubicación para tu entorno.

    Una ubicación es la región en la que se encuentra el entorno.

  4. En la lista desplegable Versión de la imagen, selecciona una imagen de Cloud Composer con la versión requerida de Airflow.

gcloud

gcloud composer environments create ENVIRONMENT_NAME \
    --location LOCATION \
    --image-version IMAGE_VERSION

Reemplaza lo siguiente:

  • ENVIRONMENT_NAME por el nombre del entorno.

    El nombre debe comenzar con una letra minúscula seguida por un máximo de 62 letras minúsculas, números o guiones, y no puede terminar con un guion. El nombre del entorno se usa a fin de crear subcomponentes para el entorno, por lo que debes proporcionar un nombre que también sea válido como un nombre de bucket de Cloud Storage. Consulta los Lineamientos para asignación de nombres de bucket a fin de obtener una lista de restricciones.

  • LOCATION por la región del entorno.

    Una ubicación es la región donde se encuentra el entorno.

  • IMAGE_VERSION por el nombre de una imagen de Cloud Composer

Ejemplo:

gcloud composer environments create example-environment \
    --location us-central1 \
    --image-version composer-3-airflow-2.9.3-build.3

API

Realiza una solicitud a la API de environments.create. Especifica la configuración en el recurso Environment.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/environments/ENVIRONMENT_NAME",
  "config": {
    "softwareConfig": {
      "imageVersion": "IMAGE_VERSION"
    }
  }
}

Reemplaza lo siguiente:

  • PROJECT_ID por el ID del proyecto.

  • LOCATION por la región del entorno.

    Una ubicación es la región donde se encuentra el entorno.

  • ENVIRONMENT_NAME por el nombre del entorno.

    El nombre debe comenzar con una letra minúscula seguida por un máximo de 62 letras minúsculas, números o guiones, y no puede terminar con un guion. El nombre del entorno se usa a fin de crear subcomponentes para el entorno, por lo que debes proporcionar un nombre que también sea válido como un nombre de bucket de Cloud Storage. Consulta los Lineamientos para asignación de nombres de bucket a fin de obtener una lista de restricciones.

  • IMAGE_VERSION por el nombre de una imagen de Cloud Composer

Ejemplo:

// POST https://composer.googleapis.com/v1/{parent=projects/*/locations/*}/environments

{
  "name": "projects/example-project/locations/us-central1/environments/example-environment",
  "config": {
    "softwareConfig": {
      "imageVersion": "composer-3-airflow-2.9.3-build.3"
    }
  }
}

Terraform

Para crear un entorno con parámetros predeterminados que especifica una ubicación, agrega el siguiente conjunto de recursos a la configuración de Terraform y ejecuta terraform apply.

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "ENVIRONMENT_NAME"
  region = "LOCATION"

  config {
    software_config {
      image_version = "IMAGE_VERSION"
    }
  }
}

Reemplaza lo siguiente:

  • ENVIRONMENT_NAME por el nombre del entorno.

    El nombre debe comenzar con una letra minúscula seguida por un máximo de 62 letras minúsculas, números o guiones, y no puede terminar con un guion. El nombre del entorno se usa a fin de crear subcomponentes para el entorno, por lo que debes proporcionar un nombre que también sea válido como un nombre de bucket de Cloud Storage. Consulta los Lineamientos para asignación de nombres de bucket a fin de obtener una lista de restricciones.

  • LOCATION por la región del entorno.

    Una ubicación es la región donde se encuentra el entorno.

  • IMAGE_VERSION por el nombre de una imagen de Cloud Composer

Ejemplo:

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "example-environment"
  region = "us-central1"

  config {
    software_config {
      image_version = "composer-3-airflow-2.9.3-build.3"
    }
  }
}

Paso 2: Selecciona una cuenta de servicio para tu entorno (opcional)

Cloud Composer vincula esta cuenta de servicio al servicio de Kubernetes de tu entorno. Los nodos del clúster de tu entorno se ejecutan como el de servicio de Kubernetes y usar las vinculaciones para acceder a los recursos en tu proyecto de Google Cloud, como los archivos de definición de DAG en el bucket de tu entorno.

De forma predeterminada, los entornos de Cloud Composer usan la cuenta de servicio predeterminada de Compute Engine. Te recomendamos configurar una cuenta de servicio administrada por el usuario para los entornos de Cloud Composer.

Luego, no puedes cambiar la cuenta de servicio de tu entorno.

Console

En la página Crear entorno, en la lista desplegable Cuenta de servicio, selecciona una cuenta de servicio para tu entorno.

gcloud

Cuando creas un entorno, --service-account especifica la cuenta de servicio del entorno.

gcloud composer environments create ENVIRONMENT_NAME \
    --location LOCATION \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --service-account "SERVICE_ACCOUNT"

Reemplaza lo siguiente:

  • SERVICE_ACCOUNT por la cuenta de servicio de tu entorno.

Ejemplo:

gcloud composer environments create example-environment \
    --location us-central1 \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --service-account "example-account@example-project.iam.gserviceaccount.com"

API

Cuando creas un entorno, en el recurso Entorno > EnvironmentConfig, especifica una cuenta de servicio para el entorno.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/environments/ENVIRONMENT_NAME",
  "config": {
    "nodeConfig": {
      "serviceAccount": "SERVICE_ACCOUNT"
    }
}

Reemplaza lo siguiente:

  • SERVICE_ACCOUNT por la cuenta de servicio de tu entorno.

Ejemplo:


// POST https://composer.googleapis.com/v1/{parent=projects/*/locations/*}/environments

{
  "name": "projects/example-project/locations/us-central1/environments/example-environment",
  "config": {
    "nodeConfig": {
      "serviceAccount": "example-account@example-project.iam.gserviceaccount.com"
    }
  }
}

Terraform

Cuando crees un entorno, usa el campo service_account en el bloque node_config.

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "ENVIRONMENT_NAME"
  region = "LOCATION"

  config {
    node_config {
      service_account = "SERVICE_ACCOUNT"
    }
  }
}

Reemplaza lo siguiente:

  • SERVICE_ACCOUNT por la cuenta de servicio de tu entorno.

Ejemplo:

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "example-environment"
  region = "us-central1"

  config {
    node_config {
      service_account = "example-account@example-project.iam.gserviceaccount.com"
    }
  }
}

Paso 3: Configura la escala del entorno y los parámetros de rendimiento (opcional)

Para especificar la configuración de escalamiento y rendimiento de tu entorno, selecciona el tamaño del entorno y la configuración de las cargas de trabajo.

Puedes cambiar todos los parámetros de rendimiento y escalamiento después de crear un entorno.

Los siguientes parámetros controlan el escalamiento y el rendimiento:

  • Tamaño del entorno: Controla los parámetros de rendimiento de la cuenta infraestructura de Cloud Composer que incluye el flujo de en la base de datos. Considera seleccionar un tamaño de entorno más grande si deseas ejecutar una gran cantidad de DAG y tareas con un rendimiento de infraestructura más alto. Por ejemplo, el tamaño de un entorno más grande aumenta la cantidad de entradas del registro de tareas de Airflow que tu entorno puede procesar con una demora mínima.

  • Configuración de las cargas de trabajo: Controla el escalamiento y el rendimiento de los componentes del entorno que se ejecutan en un clúster de GKE: programadores de Airflow, servidor web de Airflow y trabajadores de Airflow.

    • Programador de Airflow: Analiza los archivos de definición del DAG, programa las ejecuciones de DAG según el intervalo de programación y pone en cola las tareas para que los trabajadores de Airflow las ejecuten.

      Tu entorno puede ejecutar más de un programador de Airflow al mismo tiempo. Usa varios programadores para distribuir la carga entre varias instancias del programador a fin de mejorar el rendimiento y la confiabilidad.

      Aumentar la cantidad de programadores no siempre mejora el rendimiento de Airflow. Por ejemplo, tener solo un programador puede proporcionar un mejor rendimiento que tener dos. Esto puede suceder cuando no se usa el programador adicional y, por lo tanto, consume recursos de tu entorno sin contribuir al rendimiento general. El rendimiento real del programador depende de la cantidad de trabajadores de Airflow, la cantidad de DAG y tareas que se ejecutan en tu entorno y la configuración de Airflow y el entorno.

      Recomendamos comenzar con dos programadores y, luego, supervisar el rendimiento del entorno. Si cambias la cantidad de programadores, siempre puedes volver a escalar el entorno a la cantidad original.

      Para obtener más información sobre la configuración de varios programadores, consulta la documentación de Airflow.

    • Activador de Airflow: Supervisa de forma asíncrona todas las tareas diferidas en tu en un entorno de nube. Si tienes al menos una instancia de activador en tu (o al menos dos en entornos muy resilientes), puedes Usa operadores diferibles en tus DAG.

    • Procesador de DAG de Airflow. Procesa archivos de DAG y los convierte en objetos de DAG. En Cloud Composer 3, esta parte del programador se ejecuta como un componente de entorno independiente.

    • Servidor web de Airflow: Ejecuta la interfaz web de Airflow, en la que puedes supervisar, administrar y visualizar tus DAG.

    • Trabajadores de Airflow: Ejecuta tareas programadas por los programadores de Airflow. La cantidad mínima y máxima de trabajadores en tu entorno cambia de forma dinámica según la cantidad de tareas en la cola.

Console

Puedes seleccionar un ajuste predeterminado para tu entorno. Cuando seleccionas un ajuste predeterminado, se seleccionan automáticamente los parámetros de escalamiento y rendimiento para ese ajuste. También tienes la opción de seleccionar un ajuste predeterminado y especificar todos los parámetros de escalamiento y rendimiento para tu entorno.

Para seleccionar la configuración de escalamiento y rendimiento de tu entorno, en la página Crear entorno, sigue estos pasos:

  • Para usar los valores predefinidos, en la sección Recursos del entorno, haz clic en Pequeño, Medio o Grande.

  • A fin de especificar valores personalizados para los parámetros de escalamiento y rendimiento, haz lo siguiente:

    1. En la sección Recursos del entorno, haz clic en Personalizados.

    2. En la sección Programador, establece la cantidad de programadores que deseas. usan y la asignación de recursos para su CPU, memoria y almacenamiento.

    3. En la sección Activador, usa el campo Cantidad de activadores. para ingresar la cantidad de activadores en tu entorno. Puedes configurar este número a 0 si no quieres usar operadores diferibles en tus DAG.

      Si configuras al menos un activador para tu entorno, usa los campos CPU y Memoria para configurar la asignación de recursos de tus activadores.

    4. En la sección Procesador de DAG, especifica la cantidad de procesadores de DAG. en tu entorno y la cantidad de CPU, memoria y almacenamiento cada procesador de DAG.

    5. En la sección Servidor web, especifica la cantidad de CPUs, memoria y almacenamiento para el servidor web.

    6. En la sección Trabajador, especifica lo siguiente:

      • La cantidad mínima y máxima de trabajadores para los límites de ajuste de escala automático en tu entorno.
      • La asignación de CPU, memoria y almacenamiento para tus trabajadores
    7. En la sección Infraestructura principal, en la lista desplegable Tamaño del entorno, selecciona el tamaño del entorno.

gcloud

Cuando creas un entorno, los siguientes argumentos controlan los parámetros de escalamiento y rendimiento del entorno.

  • --environment-size especifica el tamaño del entorno.
  • --scheduler-count especifica la cantidad de programadores.
  • --scheduler-cpu especifica la cantidad de CPU para un programador de Airflow.
  • --scheduler-memory especifica la cantidad de memoria para un programador de Airflow.
  • --scheduler-storage especifica la cantidad de espacio en disco para un programador de Airflow.

  • --triggerer-count especifica la cantidad de activadores de Airflow en tu en un entorno de nube. El valor predeterminado para esta marca es 0. Necesitas activadores si quieres Usa operadores diferibles en tus DAG.

    • Para entornos de resiliencia estándar, usa un valor entre 0 y 10
    • Para entornos de alta resiliencia, usa 0 o un valor entre 2 y 10.
  • --triggerer-cpu especifica la cantidad de CPUs para un activador de Airflow, en unidades de CPU virtual. Valores permitidos: 0.5, 0.75, 1. El valor predeterminado es 0.5.

  • --triggerer-memory especifica la cantidad de memoria para un activador de Airflow, en GB. El valor predeterminado es 0.5.

    La memoria mínima requerida es igual a la cantidad de CPU asignadas para los activadores. El valor máximo permitido es igual a la cantidad de CPUs del activador multiplicada por 6.5.

    Por ejemplo, si estableces la marca --triggerer-cpu en 1, la el valor mínimo para --triggerer-memory es 1, y la el valor máximo es 6.5.

  • --dag-processor-cpu especifica la cantidad de CPU para el procesador de DAG.

  • --dag-processor-memory especifica la cantidad de memoria para el procesador de DAG.

  • --dag-processor-storage especifica la cantidad de espacio en el disco para el DAG. y un encargado del tratamiento de datos.

  • --web-server-cpu especifica la cantidad de CPU para el servidor web de Airflow.

  • --web-server-memory especifica la cantidad de memoria para el servidor web de Airflow.

  • --web-server-storage especifica la cantidad de espacio en disco para el servidor web de Airflow.

  • --worker-cpu especifica la cantidad de CPU para un trabajador de Airflow.

  • --worker-memory especifica la cantidad de memoria para un trabajador de Airflow.

  • --worker-storage especifica la cantidad de espacio en el disco para un trabajador de Airflow.

  • --min-workers especifica la cantidad mínima de trabajadores de Airflow. El clúster de tu entorno ejecuta al menos esta cantidad de trabajadores.

  • --max-workers especifica la cantidad máxima de trabajadores de Airflow. El clúster de tu entorno ejecuta como máximo esta cantidad de trabajadores.

gcloud composer environments create ENVIRONMENT_NAME \
    --location LOCATION \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --environment-size ENVIRONMENT_SIZE \
    --scheduler-count SCHEDULER_COUNT \
    --scheduler-cpu SCHEDULER_CPU \
    --scheduler-memory SCHEDULER_MEMORY \
    --scheduler-storage SCHEDULER_STORAGE \
    --triggerer-count TRIGGERER_COUNT \
    --triggerer-cpu TRIGGERER_CPU \
    --triggerer-memory TRIGGERER_MEMORY \
    --dag-processor-cpu DAG_PROCESSOR_CPU \
    --dag-processor-memory DAG_PROCESSOR_MEMORY \
    --dag-processor-storage DAG_PROCESSOR_STORAGE \
    --web-server-cpu WEB_SERVER_CPU \
    --web-server-memory WEB_SERVER_MEMORY \
    --web-server-storage WEB_SERVER_STORAGE \
    --worker-cpu WORKER_CPU \
    --worker-memory WORKER_MEMORY \
    --worker-storage WORKER_STORAGE \
    --min-workers WORKERS_MIN \
    --max-workers WORKERS_MAX

Reemplaza lo siguiente:

  • ENVIRONMENT_SIZE por small, medium o large.
  • SCHEDULER_COUNT por la cantidad de programadores.
  • SCHEDULER_CPU por la cantidad de CPU para un programador, en unidades de CPU virtual.
  • SCHEDULER_MEMORY por la cantidad de memoria para un programador.
  • SCHEDULER_STORAGE por el tamaño del disco de un programador.
  • TRIGGERER_COUNT por la cantidad de activadores
  • TRIGGERER_CPU por la cantidad de CPUs para un activador, en unidades de CPU virtual.
  • TRIGGERER_MEMORY por la cantidad de memoria para un activador, en GB

  • DAG_PROCESSOR_CPU por la cantidad de CPUs para el procesador de DAG.

  • DAG_PROCESSOR_MEMORY por la cantidad de memoria para el procesador de DAG.

  • DAG_PROCESSOR_STORAGE por la cantidad de espacio en disco para el DAG y un encargado del tratamiento de datos.

  • WEB_SERVER_CPU por la cantidad de CPU para el servidor web, en unidades de CPU virtuales.

  • WEB_SERVER_MEMORY por la cantidad de memoria para el servidor web.

  • WEB_SERVER_STORAGE por la cantidad de memoria para el servidor web.

  • WORKER_CPU por la cantidad de CPU para un trabajador, en unidades de CPU virtual.

  • WORKER_MEMORY por la cantidad de memoria para un trabajador.

  • WORKER_STORAGE por el tamaño del disco de un trabajador.

  • WORKERS_MIN por la cantidad mínima de trabajadores de Airflow que tu entorno puede ejecutar. La cantidad de trabajadores en tu entorno no supera esta cantidad, incluso si una cantidad menor de trabajadores puede manejar la carga.

  • WORKERS_MAX por la cantidad máxima de trabajadores de Airflow que tu entorno puede ejecutar. La cantidad de trabajadores en tu entorno no supera esta cantidad, incluso si se requiere una mayor cantidad de trabajadores para manejar la carga.

Ejemplo:

gcloud composer environments create example-environment \
    --location us-central1 \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --environment-size small \
    --scheduler-count 1 \
    --scheduler-cpu 0.5 \
    --scheduler-memory 2.5GB \
    --scheduler-storage 2GB \
    --triggerer-count 1 \
    --triggerer-cpu 0.5 \
    --triggerer-memory 0.5GB \
    --dag-processor-cpu 0.5 \
    --dag-processor-memory 2GB \
    --dag-processor-storage 1GB \
    --web-server-cpu 1 \
    --web-server-memory 2.5GB \
    --web-server-storage 2GB \
    --worker-cpu 1 \
    --worker-memory 2GB \
    --worker-storage 2GB \
    --min-workers 2 \
    --max-workers 4

API

Cuando crees un entorno, en Entorno > EnvironmentConfig > Recurso WorkloadsConfig, especifica el entorno parámetros de escala y rendimiento.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/environments/ENVIRONMENT_NAME",
  "config": {
    "workloadsConfig": {
      "scheduler": {
        "cpu": SCHEDULER_CPU,
        "memoryGb": SCHEDULER_MEMORY,
        "storageGb": SCHEDULER_STORAGE,
        "count": SCHEDULER_COUNT
      },
      "triggerer": {
        "count": TRIGGERER_COUNT,
        "cpu": TRIGGERER_CPU,
        "memoryGb": TRIGGERER_MEMORY
      },
      "dagProcessor": {
        "count": 1,
        "cpu": DAG_PROCESSOR_CPU,
        "memoryGb": DAG_PROCESSOR_MEMORY,
        "storageGb": DAG_PROCESSOR_STORAGE
      },
      "webServer": {
        "cpu": WEB_SERVER_CPU,
        "memoryGb": WEB_SERVER_MEMORY,
        "storageGb": WEB_SERVER_STORAGE
      },
      "worker": {
        "cpu": WORKER_CPU,
        "memoryGb": WORKER_MEMORY,
        "storageGb": WORKER_STORAGE,
        "minCount": WORKERS_MIN,
        "maxCount": WORKERS_MAX
      }
    },
    "environmentSize": "ENVIRONMENT_SIZE"
  }
}

Reemplaza lo siguiente:

  • SCHEDULER_CPU por la cantidad de CPU para un programador, en unidades de CPU virtual.
  • SCHEDULER_MEMORY por la cantidad de memoria para un programador, en GB.
  • SCHEDULER_STORAGE por el tamaño del disco de un programador, en GB.
  • SCHEDULER_COUNT por la cantidad de programadores.

  • TRIGGERER_COUNT por la cantidad de activadores El valor predeterminado es 0. Necesitas activadores si quieres Usa operadores diferibles en tus DAG.

    • Para entornos de resiliencia estándar, usa un valor entre 0 y 10
    • Para entornos altamente resilientes, usa 0 o un valor entre 2 y 10.

    Si usas al menos un activador, también debes especificar los parámetros TRIGGERER_CPU y TRIGGERER_MEMORY:

  • TRIGGERER_CPU especifica la cantidad de CPU para un activador. en unidades de CPU virtual. Valores permitidos: 0.5, 0.75, 1.

  • TRIGGERER_MEMORY configura la cantidad de memoria de un activador. La memoria mínima requerida es igual a la cantidad las CPU asignadas a los activadores. El valor máximo permitido es igual a la cantidad de CPUs del activador multiplicada por 6.5.

    Por ejemplo, si configuras TRIGGERER_CPU como 1, el valor el valor mínimo para TRIGGERER_MEMORY es 1, y la el valor máximo es 6.5.

  • DAG_PROCESSOR_CPU por la cantidad de CPU para el procesador de DAG, en CPU virtuales unidades.

  • DAG_PROCESSOR_MEMORY por la cantidad de memoria para el procesador de DAG, en GB.

  • DAG_PROCESSOR_STORAGE por la cantidad de espacio en disco para el DAG y un procesador de texto, en GB.

  • WEB_SERVER_CPU por la cantidad de CPU para el servidor web, en unidades de CPU virtuales.

  • WEB_SERVER_MEMORY por la cantidad de memoria para el servidor web, en GB.

  • WEB_SERVER_STORAGE por el tamaño del disco del servidor web, en GB.

  • WORKER_CPU por la cantidad de CPU para un trabajador, en unidades de CPU virtual.

  • WORKER_MEMORY por la cantidad de memoria para un trabajador, en GB.

  • WORKER_STORAGE por el tamaño del disco de un trabajador, en GB.

  • WORKERS_MIN por la cantidad mínima de trabajadores de Airflow que tu entorno puede ejecutar. La cantidad de trabajadores en tu entorno no supera esta cantidad, incluso si una cantidad menor de trabajadores puede manejar la carga.

  • WORKERS_MAX por la cantidad máxima de trabajadores de Airflow que tu entorno puede ejecutar. La cantidad de trabajadores en tu entorno no supera esta cantidad, incluso si se requiere una mayor cantidad de trabajadores para manejar la carga.

  • ENVIRONMENT_SIZE por el tamaño del entorno, ENVIRONMENT_SIZE_SMALL, ENVIRONMENT_SIZE_MEDIUM o ENVIRONMENT_SIZE_LARGE.

Ejemplo:

// POST https://composer.googleapis.com/v1/{parent=projects/*/locations/*}/environments

{
  "name": "projects/example-project/locations/us-central1/environments/example-environment",
  "config": {
    "workloadsConfig": {
      "scheduler": {
        "cpu": 2.5,
        "memoryGb": 2.5,
        "storageGb": 2,
        "count": 1
      },
      "triggerer": {
        "cpu": 0.5,
        "memoryGb": 0.5,
        "count": 1
      },
      "dagProcessor": {
        "count": 1,
        "cpu": 0.5,
        "memoryGb": 2,
        "storageGb": 1
      },
      "webServer": {
        "cpu": 1,
        "memoryGb": 2.5,
        "storageGb": 2
      },
      "worker": {
        "cpu": 1,
        "memoryGb": 2,
        "storageGb": 2,
        "minCount": 2,
        "maxCount": 4
      }
    },
    "environmentSize": "ENVIRONMENT_SIZE_SMALL"
  }
}

Terraform

Cuando creas un entorno, los siguientes argumentos controlan los parámetros de escalamiento y rendimiento del entorno.

  • En el bloque config, sucede lo siguiente:

    • El campo environment_size controla el tamaño del entorno.
  • En el bloque workloads_config, sucede lo siguiente:

    • El campo scheduler.cpu especifica la cantidad de CPU para un programador de Airflow.
    • El campo scheduler.memory_gb especifica la cantidad de memoria para un programador de Airflow.
    • El campo scheduler.storage_gb especifica la cantidad de espacio en el disco de un programador.
    • El campo scheduler.count especifica la cantidad de programadores en tu en un entorno de nube.
    • En el campo triggerer.cpu, se especifica la cantidad de CPU para un activador de Airflow.
    • El campo triggerer.memory_gb especifica la cantidad de memoria para un Activador de Airflow.
    • El campo triggerer.count especifica la cantidad de activadores en tu entorno.

    • En el campo dag_processor.cpu, se especifica la cantidad de CPU para un DAG y un encargado del tratamiento de datos.

    • El campo dag_processor.memory_gb especifica la cantidad de memoria para un procesador de DAG.

    • El campo dag_processor.storage_gb especifica la cantidad de espacio en disco. para un procesador de DAG.

    • En el campo dag_processor.count, se especifica la cantidad de procesadores de DAG.

    • El campo web_server.cpu especifica la cantidad de CPU para el servidor web de Airflow.

    • El campo web_server.memory_gb especifica la cantidad de memoria para el servidor web de Airflow.

    • El campo web_server.storage_gb especifica la cantidad de espacio en el disco para el servidor web de Airflow.

    • En el campo worker.cpu, se especifica la cantidad de CPU para un trabajador de Airflow.

    • En el campo worker.memory_gb, se especifica la cantidad de memoria para un trabajador de Airflow.

    • En el campo worker.storage_gb, se especifica la cantidad de espacio en el disco para un trabajador de Airflow.

    • En el campo worker.min_count, se especifica la cantidad mínima de trabajadores en tu entorno.

    • En el campo worker.max_count, se especifica la cantidad máxima de trabajadores en tu entorno.

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "ENVIRONMENT_NAME"
  region = "LOCATION"

  config {

    workloads_config {

      scheduler {
        cpu = SCHEDULER_CPU
        memory_gb = SCHEDULER_MEMORY
        storage_gb = SCHEDULER_STORAGE
        count = SCHEDULER_COUNT
      }
      triggerer {
        count = TRIGGERER_COUNT
        cpu = TRIGGERER_CPU
        memory_gb = TRIGGERER_MEMORY
      }
      web_server {
        cpu = WEB_SERVER_CPU
        memory_gb = WEB_SERVER_MEMORY
        storage_gb = WEB_SERVER_STORAGE
      }
      worker {
        cpu = WORKER_CPU
        memory_gb = WORKER_MEMORY
        storage_gb = WORKER_STORAGE
        min_count = WORKERS_MIN
        max_count = WORKERS_MAX
      }
    }

    environment_size = "ENVIRONMENT_SIZE"

  }
}

Reemplaza lo siguiente:

  • ENVIRONMENT_NAME por el nombre del entorno.
  • LOCATION por la región en la que se encuentra el entorno.
  • SCHEDULER_CPU por la cantidad de CPU para un programador, en unidades de CPU virtual.
  • SCHEDULER_MEMORY por la cantidad de memoria para un programador, en GB.
  • SCHEDULER_STORAGE por el tamaño del disco de un programador, en GB.
  • SCHEDULER_COUNT por la cantidad de programadores.
  • TRIGGERER_COUNT por la cantidad de activadores
  • TRIGGERER_CPU por la cantidad de CPUs para un activador, en unidades de CPU virtual.
  • TRIGGERER_MEMORY por la cantidad de memoria para un activador, en GB.
  • WEB_SERVER_CPU por la cantidad de CPU para el servidor web, en unidades de CPU virtuales.
  • WEB_SERVER_MEMORY por la cantidad de memoria para el servidor web, en GB.
  • WEB_SERVER_STORAGE por el tamaño del disco del servidor web, en GB.
  • WORKER_CPU por la cantidad de CPU para un trabajador, en unidades de CPU virtual.
  • WORKER_MEMORY por la cantidad de memoria para un trabajador, en GB.
  • WORKER_STORAGE por el tamaño del disco de un trabajador, en GB.
  • WORKERS_MIN por la cantidad mínima de trabajadores de Airflow que tu entorno puede ejecutar. La cantidad de trabajadores en tu entorno no supera esta cantidad, incluso si una cantidad menor de trabajadores puede manejar la carga.
  • WORKERS_MAX por la cantidad máxima de trabajadores de Airflow que tu entorno puede ejecutar. La cantidad de trabajadores en tu entorno no supera esta cantidad, incluso si se requiere una mayor cantidad de trabajadores para manejar la carga.
  • ENVIRONMENT_SIZE por el tamaño del entorno, ENVIRONMENT_SIZE_SMALL, ENVIRONMENT_SIZE_MEDIUM o ENVIRONMENT_SIZE_LARGE.

Ejemplo:

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "example-environment"
  region = "us-central1"

  config {

    workloads_config {

      scheduler {
        cpu = 2.5
        memory_gb = 2.5
        storage_gb = 2
        count = 1
      }
      triggerer {
        count = 1
        cpu = 0.5
        memory_gb = 0.5
      }
      web_server {
        cpu = 1
        memory_gb = 2.5
        storage_gb = 2
      }
      worker {
        cpu = 1
        memory_gb = 2
        storage_gb = 2
        min_count = 2
        max_count = 4
      }
    }

    environment_size = "ENVIRONMENT_SIZE_SMALL"

  }
}

Paso 4: Especifica una zona para la base de datos del entorno (opcional)

Puedes especificar una zona de Cloud SQL preferida para tu entorno.

Console

En la página Crear entorno:

  1. En la sección Configuración avanzada, expande el elemento Mostrar configuración avanzada.

  2. En la lista de la zona de la base de datos de Airflow, selecciona una opción Zona de Cloud SQL.

gcloud

Cuando creas un entorno, el argumento --cloud-sql-preferred-zone especifica una zona preferida de Cloud SQL.

gcloud composer environments create ENVIRONMENT_NAME \
    --location LOCATION \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --cloud-sql-preferred-zone SQL_ZONE

Reemplaza lo siguiente:

  • SQL_ZONE: Es la zona preferida de Cloud SQL. Esta zona debe estar ubicada en la región en la que se encuentra el entorno.

Ejemplo:

gcloud composer environments create example-environment \
    --location us-central1 \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --cloud-sql-preferred-zone us-central1-a

API

Cuando creas un entorno, en Entorno > recurso DatabaseConfig, especifica el tu zona preferida de Cloud SQL.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/environments/ENVIRONMENT_NAME",
  "config": {
    "databaseConfig": {
      "zone": "SQL_ZONE"
    }
  }
}

Reemplaza lo siguiente:

  • SQL_ZONE: Es la zona preferida de Cloud SQL. Esta zona debe estar ubicada en la región en la que se encuentra el entorno.

Ejemplo:


// POST https://composer.googleapis.com/v1/{parent=projects/*/locations/*}/environments

{
  "name": "projects/example-project/locations/us-central1/environments/example-environment",
  "config": {
    "databaseConfig": {
      "zone": "us-central1-a"
    }
  }
}

Terraform

Cuando creas un entorno, el campo zone del database_config bloque especifica la zona preferida de Cloud SQL.

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "ENVIRONMENT_NAME"
  region = "LOCATION"

  config {
    database_config {
      zone = "SQL_ZONE"
    }
  }
}

Reemplaza lo siguiente:

  • SQL_ZONE: Es la zona preferida de Cloud SQL. Esta zona debe estar en la región en la que se encuentra el entorno.

Paso 5: Configura las herramientas de redes de tu entorno (opcional)

Puedes configurar la red de Cloud Composer 3 de las siguientes maneras:

  • En un entorno de IP pública, los componentes de Airflow de tu entorno pueden no tienen acceso a Internet.
  • En un entorno de IP privada, los componentes de Airflow de tu entorno no no tienen acceso a Internet.
  • Los entornos de IP privada y pública pueden conectarse a tu red de VPC como una opción independiente.
  • Puedes especificar Rango de IP internas de tu entorno. Este rango no se puede cambiar más adelante.
  • Puedes habilitar el acceso a Internet cuando instales paquetes de PyPI. Por ejemplo, tu entorno de IP privada puede instalar paquetes de PyPI desde Índice de paquetes de Python si habilitas esto de 12 a 1 con la nueva opción de compresión.

  • Para un entorno de VPC compartida, debes realizar una configuración de Herramientas de redes adicional para el proyecto host y, luego, crear un entorno de IP pública o privada en un proyecto de servicio. Sigue las instrucciones de la página Configuración de la VPC compartida.

Console

  1. Asegúrate de que la red esté configurada para el tipo de entorno que quieras crear.

  2. En la sección Configuración de red, expande el elemento Mostrar configuración de red.

  3. Si quieres conectar tu entorno a una red de VPC, en el Adjunto de red, selecciona un adjunto de red. También puedes crea un adjunto de red nuevo. Para obtener más información, consulta Cómo conectar un entorno a una red de VPC.

  4. Si quieres crear un entorno de IP privada, en la sección Tipo de red, selecciona la opción Entorno de IP privada.

  5. Si deseas agregar etiquetas de red, consulta Agrega etiquetas de red para obtener más información.

gcloud

Asegúrate de que tu red esté configurada para el tipo de entorno que deseas crear.

Cuando creas un entorno, los siguientes argumentos controlan los parámetros de red. Si omites un parámetro, se usa el valor predeterminado.

  • --enable-private-environment habilita un entorno de IP privada.

  • --network especifica el ID de la red de VPC.

  • --subnetwork especifica el ID de la subred de VPC.

Ejemplo (entorno de IP privada) con una red de VPC conectada).

gcloud composer environments create ENVIRONMENT_NAME \
    --location LOCATION \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --enable-private-environment \
    --network NETWORK_ID \
    --subnetwork SUBNETWORK_ID \

Reemplaza lo siguiente:

  • NETWORK_ID por el ID de la red de VPC.
  • SUBNETWORK_ID por el ID de la subred de VPC.

Paso 6. (Opcional) Agrega etiquetas de red

Las etiquetas de red se aplican a todas las VMs del nodo en la red clúster. Las etiquetas se usan con el fin de identificar objetivos o fuentes válidos para firewalls de red. Cada etiqueta de la lista debe cumplir con RFC 1035

Por ejemplo, es posible que desees agregar etiquetas de red si planeas restringir el tráfico de un entorno de IP privada con reglas de firewall.

Console

En la página Crear entorno:

  1. Localiza la sección Configuración de red.
  2. En el campo Etiquetas de red, ingresa las etiquetas de red de tu entorno.

gcloud

Cuando creas un entorno, los siguientes argumentos controlan las etiquetas de red:

  • --tags especifica una lista separada por comas de etiquetas de red aplicadas a todos VMs del nodo.
gcloud composer environments create ENVIRONMENT_NAME \
    --location LOCATION \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --tags TAGS

Reemplaza lo siguiente:

  • TAGS por una lista de etiquetas de red separadas por comas.

Ejemplo:

gcloud composer environments create example-environment \
    --location us-central1 \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --tags group1,production

API

Cuando crees un entorno, en Entorno > recurso EnvironmentConfig, especifica etiquetas de red para tu entorno.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/environments/ENVIRONMENT_NAME",
  "config": {
    "nodeConfig": {
      "tags": [
        "TAG"
      ]
    }
  }
}

Reemplaza lo siguiente:

  • TAG por una etiqueta de red

Ejemplo:

// POST https://composer.googleapis.com/v1/{parent=projects/*/locations/*}/environments

{
  "name": "projects/example-project/locations/us-central1/environments/example-environment",
  "config": {
    "nodeConfig": {
      "tags": [
        "group1",
        "production"
      ]
    }
  }
}

Terraform

Cuando creas un entorno, los siguientes campos definen las etiquetas de red para tu entorno:

  • En el campo tags del bloque node_config, se especifica una lista separada por comas de etiquetas de red que se aplican a todas las VMs del nodo.
resource "google_composer_environment" "example" {
  provider = google-beta
  name = "ENVIRONMENT_NAME"
  region = "LOCATION"

  config {

    node_config {
      tags = ["TAGS"]
    }
  }
}

Reemplaza lo siguiente:

  • TAGS por una lista de etiquetas de red separadas por comas.

Ejemplo:

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "example-environment"
  region = "us-central1"

  config {
    node_config {
      tags = ["group1","production"]
    }
  }
}

Paso 7: Configura el acceso a la red del servidor web (opcional)

Los parámetros de acceso del servidor web de Airflow no dependen del tipo de entorno. En cambio, puedes configurar el acceso al servidor web por separado. Por ejemplo, un entorno de IP privada aún puede tener la IU de Airflow accesible desde Internet.

No puedes configurar los rangos de IP permitidos mediante direcciones IP privadas.

Console

En la página Crear entorno:

  1. En la sección Configuración de red, expande la opción Mostrar red. configuración.

  2. En la sección Control de acceso a la red del servidor web, sigue estos pasos:

    • Para proporcionar acceso al servidor web de Airflow desde todas las direcciones IP, selecciona Permitir acceso desde todas las direcciones IP.

    • Para restringir el acceso solo a rangos de IP específicos, selecciona Permitir el acceso solo desde direcciones IP específicas. En el campo Rango de IP, especifica un rango de IP en la notación CIDR. En el campo Descripción, especifica una descripción opcional para este del rango de destino de la ruta. Si deseas especificar más de un rango, haz clic en Agregar rango de IP.

    • Para prohibir el acceso de todas las direcciones IP, selecciona Permitir el acceso solo desde direcciones IP específicas y haz clic en Borrar elemento junto a la entrada de rango vacía.

gcloud

Cuando creas un entorno, los siguientes argumentos controlan el nivel de acceso del servidor web:

  • --web-server-allow-all proporciona acceso a Airflow desde todas las direcciones IP. Esta es la opción predeterminada.

  • --web-server-allow-ip restringe el acceso solo a rangos de IP de origen específicos. Para especificar varios rangos de IP, usa este argumento varias veces.

  • --web-server-deny-all prohíbe el acceso a todas las direcciones IP.

gcloud composer environments create ENVIRONMENT_NAME \
    --location LOCATION \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --web-server-allow-ip ip_range=WS_IP_RANGE,description=WS_RANGE_DESCRIPTION

Reemplaza lo siguiente:

  • WS_IP_RANGE por el rango de IP, en la notación CIDR, que puede acceder a la IU de Airflow
  • WS_RANGE_DESCRIPTION por la descripción del rango de IP

Ejemplo:

gcloud composer environments create example-environment \
    --location us-central1 \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --web-server-allow-ip ip_range=192.0.2.0/24,description="office net 1" \
    --web-server-allow-ip ip_range=192.0.4.0/24,description="office net 3"

API

Cuando crees un entorno, en Entorno > recurso EnvironmentConfig, especifica el servidor web parámetros de acceso.

  • Para proporcionar acceso al servidor web de Airflow desde todas las direcciones IP, omíte webServerNetworkAccessControl.

  • Para restringir el acceso solo a rangos de IP específicos, especifica uno o más rangos en allowedIpRanges.

  • Para prohibir el acceso a todas las direcciones IP, agrega allowedIpRanges y establécelo como lista vacía. No especifiques rangos de IP en él.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/environments/ENVIRONMENT_NAME",
  "config": {
    "webServerNetworkAccessControl": {
      "allowedIpRanges": [
        {
          "value": "WS_IP_RANGE",
          "description": "WS_RANGE_DESCRIPTION"
        }
      ]
    }
  }
}

Reemplaza lo siguiente:

  • WS_IP_RANGE por el rango de IP, en la notación CIDR, que puede acceder a la IU de Airflow
  • WS_RANGE_DESCRIPTION por la descripción del rango de IP

Ejemplo:


// POST https://composer.googleapis.com/v1/{parent=projects/*/locations/*}/environments

{
  "name": "projects/example-project/locations/us-central1/environments/example-environment",
  "config": {
    "webServerNetworkAccessControl": {
      "allowedIpRanges": [
        {
          "value": "192.0.2.0/24",
          "description": "office net 1"
        },
        {
          "value": "192.0.4.0/24",
          "description": "office net 3"
        }
      ]
    }
  }
}

Terraform

Cuando creas un entorno, el bloque allowed_ip_range en el bloque web_server_network_access_control contiene rangos de IP que pueden acceder al servidor web.

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "ENVIRONMENT_NAME"
  region = "LOCATION"

  config {

    web_server_network_access_control {

      allowed_ip_range {
        value = "WS_IP_RANGE"
        description = "WS_RANGE_DESCRIPTION"
      }

    }

  }
}

Reemplaza lo siguiente:

  • WS_IP_RANGE por el rango de IP, en la notación CIDR, que puede acceder a la IU de Airflow
  • WS_RANGE_DESCRIPTION por la descripción del rango de IP

Ejemplo:

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "example-environment"
  region = "us-central1"

  config {

    web_server_network_access_control {
      allowed_ip_range {
        value = "192.0.2.0/24"
        description = "office net 1"
      },
      allowed_ip_range {
        value = "192.0.4.0/24"
        description = "office net 3"
      }

    }
}

Paso 8. Especifica variables de entorno y anulaciones de configuración de Airflow (opcional)

Puedes establecer anulaciones de configuración de Airflow y variables de entorno cuando creas un entorno. Como alternativa, puedes hacerlo más adelante, después de crear el entorno.

Algunas opciones de configuración de Airflow están bloqueadas y no puedes anularlas.

Para conocer la lista de opciones de configuración de Airflow disponibles, consulta Referencia de configuración para Airflow 2 y Airflow 1.10.*

Para especificar anulaciones de configuración de Airflow y variables de entorno, sigue estos pasos:

Console

En la página Crear entorno:

  1. En la sección Variables de entorno, haz clic en Agregar variable de entorno.

  2. Ingresa el Nombre y el Valor para la variable de entorno.

  3. En la sección Anulaciones de configuración de Airflow, haz clic en Agregar anulación de configuración de Airflow.

  4. Ingresa la Sección, la Clave y el Valor para la anulación de la opción de configuración.

    Por ejemplo:

    Sección Clave Valor
    webserver dag_orientation TB

gcloud

Cuando creas un entorno, los siguientes argumentos controlan las variables de entorno y las anulaciones de configuración de Airflow:

  • --env-variables especifica una lista separada por comas de variables de entorno.

    Los nombres de las variables pueden contener letras mayúsculas y minúsculas, dígitos y guiones bajos, pero no pueden comenzar con un dígito.

  • --airflow-configs especifica una lista de claves y valores separados por comas para anulaciones de configuración de Airflow.

gcloud composer environments create ENVIRONMENT_NAME \
    --location LOCATION \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --env-variables ENV_VARS \
    --airflow-configs CONFIG_OVERRIDES

Reemplaza lo siguiente:

  • ENV_VARS por una lista de pares NAME=VALUE separados por comas para variables de entorno.
  • CONFIG_OVERRIDES por una lista de pares SECTION-KEY=VALUE separados por comas para anulaciones de configuración. Separa el nombre de la sección de configuración con un símbolo -, seguido del nombre de la clave. Por ejemplo: core-dags_are_paused_at_creation.

Ejemplo:

gcloud composer environments create example-environment \
    --location us-central1 \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --env-variables SENDGRID_MAIL_FROM=user@example.com,SENDGRID_API_KEY=example-key \
    --airflow-configs core-dags_are_paused_at_creation=True,webserver-dag_orientation=TB

API

Cuando crees un entorno, en Entorno > recurso EnvironmentConfig, especifica variables de entorno y anulaciones de configuración de Airflow.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/environments/ENVIRONMENT_NAME",
  "config": {
    "softwareConfig": {
      "airflowConfigOverrides": {
        "SECTION-KEY": "OVERRIDE_VALUE"
      },
      "envVariables": {
        "VAR_NAME": "VAR_VALUE",
      }
    }
  }
}

Reemplaza lo siguiente:

  • SECTION por la sección del archivo de configuración en la que se encuentra la opción de configuración de Airflow.
  • KEY por el nombre de la opción de configuración de Airflow.
  • OVERRIDE_VALUE por un valor de la opción de configuración de Airflow.
  • VAR_NAME por el nombre de la variable de entorno.
  • VAR_VALUE por el valor de la variable de entorno.

Ejemplo:

// POST https://composer.googleapis.com/v1/{parent=projects/*/locations/*}/environments

{
  "name": "projects/example-project/locations/us-central1/environments/example-environment",
  "config": {
    "softwareConfig": {
      "airflowConfigOverrides": {
        "core-dags_are_paused_at_creation": "True",
        "webserver-dag_orientation": "TB"
      },
      "envVariables": {
        "SENDGRID_MAIL_FROM": "user@example.com",
        "SENDGRID_API_KEY": "example-key"
      }
    }
  }
}

Terraform

Cuando creas un entorno, los siguientes bloques controlan las variables de entorno y las anulaciones de configuración de Airflow:

  • El bloque env_variables en el bloque software_config especifica variables de entorno.

    Los nombres de las variables pueden contener letras mayúsculas y minúsculas, dígitos y guiones bajos, pero no pueden comenzar con un dígito.

  • En el bloque airflow_config_overrides del bloque software_config, se especifican las anulaciones de configuración de Airflow.

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "ENVIRONMENT_NAME"
  region = "LOCATION"

  config {

    software_config {

      airflow_config_overrides = {
        SECTION-KEY = "OVERRIDE_VALUE"
      }

      env_variables = {
        VAR_NAME = "VAR_VALUE"
      }
    }
  }
}

Reemplaza lo siguiente:

  • SECTION por la sección del archivo de configuración en la que se encuentra la opción de configuración de Airflow.
  • KEY por el nombre de la opción de configuración de Airflow.
  • OVERRIDE_VALUE por un valor de la opción de configuración de Airflow.
  • VAR_NAME por el nombre de la variable de entorno.
  • VAR_VALUE por el valor de la variable de entorno.

Ejemplo:

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "example-environment"
  region = "us-central1"

  config {

    software_config {

      airflow_config_overrides = {
        core-dags_are_paused_at_creation = "True"
        webserver-dag_orientation = "TB"
      }

      env_variables = {
        SENDGRID_MAIL_FROM = "user@example.com"
        SENDGRID_API_KEY = "example-key"
      }
    }
  }
}

Paso 9. Especifica períodos de mantenimiento (opcional)

Los períodos de mantenimiento predeterminados en Cloud Composer 3 se definen de la siguiente manera:

  • Todas las horas corresponden a la zona horaria local de la región en la que se encuentra su entorno pero sin el horario de verano ignorado.
  • Los martes, miércoles, jueves y viernes, los períodos de mantenimiento son de 00:00:00 a 02:00:00.
  • Los sábados, domingos y lunes, los períodos de mantenimiento son desde las 12:00 a.m. a 04:00:00.

Para especificar períodos de mantenimiento personalizados para tu entorno, haz lo siguiente:

Console

En la página Crear entorno

  1. Busca la sección Períodos de mantenimiento.

  2. En la lista desplegable Zona horaria, elige una zona horaria para los períodos de mantenimiento.

  3. Establece la Hora de inicio, los Días y la Duración, para que la hora combinada del programa especificado sea de al menos 12 horas en un período progresivo de 7 días. Por ejemplo, un período de 4 horas todos los lunes, miércoles y viernes proporciona la cantidad de tiempo requerida.

gcloud

Los siguientes argumentos definen los parámetros de los períodos de mantenimiento:

  • --maintenance-window-start establece la hora de inicio de un período de mantenimiento.
  • --maintenance-window-end establece la hora de finalización de un período de mantenimiento.
  • --maintenance-window-recurrence establece la recurrencia del período de mantenimiento.
gcloud composer environments create ENVIRONMENT_NAME \
    --location LOCATION \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --maintenance-window-start 'DATETIME_START' \
    --maintenance-window-end 'DATETIME_END' \
    --maintenance-window-recurrence 'MAINTENANCE_RECURRENCE'

Reemplaza lo siguiente:

  • ENVIRONMENT_NAME por el nombre del entorno.
  • DATETIME_START por la fecha y hora de inicio en el formato de entrada de fecha y hora. Solo se usa la hora especificada del día, se ignora la fecha especificada.
  • DATETIME_END por la fecha y hora de finalización en el formato de entrada de fecha y hora. Solo se usa la hora especificada del día, se ignora la fecha especificada. La fecha y hora especificadas deben ser posteriores a la fecha de inicio.
  • MAINTENANCE_RECURRENCE por una RULE RFC 5545 para la recurrencia de los períodos de mantenimiento. Cloud Composer admite dos formatos:

  • El formato FREQ=DAILY especifica una recurrencia diaria.

  • El formato FREQ=WEEKLY;BYDAY=SU,MO,TU,WE,TH,FR,SA especifica una recurrencia en los días de la semana seleccionados.

En el siguiente ejemplo, se especifica un período de mantenimiento de 6 horas entre la 1:00 y 07:00 (UTC) los miércoles, sábados y domingos El 1 de enero de 2023 se ignora la fecha.

gcloud composer environments create example-environment \
  --location us-central1 \
  --image-version composer-3-airflow-2.9.3-build.3 \
  --maintenance-window-start '2023-01-01T01:00:00Z' \
  --maintenance-window-end '2023-01-01T07:00:00Z' \
  --maintenance-window-recurrence 'FREQ=WEEKLY;BYDAY=SU,WE,SA'

API

Cuando creas un entorno, en la Entorno > recurso EnvironmentConfig, especifica Parámetros de los períodos de mantenimiento:

{
  "name": "projects/PROJECT_ID/locations/LOCATION/environments/ENVIRONMENT_NAME",
  "config": {
    "maintenanceWindow": {
        "startTime": "DATETIME_START",
        "endTime": "DATETIME_END",
        "recurrence": "MAINTENANCE_RECURRENCE"
    }
  }
}

Reemplaza lo siguiente:

  • DATETIME_START por la fecha y hora de inicio en el formato de entrada de fecha y hora. Solo se usa la hora especificada del día, se ignora la fecha especificada.
  • DATETIME_END por la fecha y hora de finalización en el formato de entrada de fecha y hora. Solo se usa la hora especificada del día, se ignora la fecha especificada. La fecha y hora especificadas deben ser posteriores a la fecha de inicio.
  • MAINTENANCE_RECURRENCE por una RRULE RFC 5545 para la recurrencia de los períodos de mantenimiento. Cloud Composer admite dos formatos:

  • El formato FREQ=DAILY especifica una recurrencia diaria.

  • El formato FREQ=WEEKLY;BYDAY=SU,MO,TU,WE,TH,FR,SA especifica una recurrencia en los días de la semana seleccionados.

En el siguiente ejemplo, se especifica un período de mantenimiento de 6 horas entre las 1:00 y las 07:00 (UTC) los miércoles, sábados y domingos. Se ignora la fecha del 1 de enero de 2023.

Ejemplo:

// POST https://composer.googleapis.com/v1/{parent=projects/*/locations/*}/environments

{
  "name": "projects/example-project/locations/us-central1/environments/example-environment",
  "config": {
    "maintenanceWindow": {
        "startTime": "2023-01-01T01:00:00Z",
        "endTime": "2023-01-01T07:00:00Z",
        "recurrence": "FREQ=WEEKLY;BYDAY=SU,WE,SA"
    }
  }
}

Terraform

El bloque maintenance_window especifica los períodos de mantenimiento de tu entorno:

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "ENVIRONMENT_NAME"
  region = "LOCATION"

  config {
    maintenance_window {
      start_time = "DATETIME_START"
      end_time = "DATETIME_END"
      recurrence = "MAINTENANCE_RECURRENCE"
    }
  }
}

Reemplaza lo siguiente:

  • DATETIME_START por la fecha y hora de inicio en el formato de entrada de fecha y hora. Solo se usa la hora especificada del día, se ignora la fecha especificada.
  • DATETIME_END por la fecha y hora de finalización en el formato de entrada de fecha y hora. Solo se usa la hora especificada del día, se ignora la fecha especificada. La fecha y hora especificadas deben ser posteriores a la fecha de inicio.
  • MAINTENANCE_RECURRENCE por una RRULE RFC 5545 para la recurrencia de los períodos de mantenimiento. Cloud Composer admite dos formatos:

    • El formato FREQ=DAILY especifica una recurrencia diaria.
    • El formato FREQ=WEEKLY;BYDAY=SU,MO,TU,WE,TH,FR,SA especifica una recurrencia en los días de la semana seleccionados.

En el siguiente ejemplo, se especifica un período de mantenimiento de 6 horas entre las 1:00 y las 07:00 (UTC) los miércoles, sábados y domingos. Se ignora la fecha del 1 de enero de 2023.

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "example-environment"
  region = "us-central1"

  config {
    maintenance_window {
      start_time = "2023-01-01T01:00:00Z"
      end_time = "2023-01-01T07:00:00Z"
      recurrence = "FREQ=WEEKLY;BYDAY=SU,WE,SA"
    }
  }
}

Paso 10. Integración del linaje de datos (opcional)

El linaje de datos es una función de Dataplex que te permite hacer un seguimiento del movimiento de los datos.

La integración del linaje de datos está disponible en todas las versiones de Cloud Composer 3.

La integración del linaje de datos se habilita automáticamente en un nuevo entorno de Cloud Composer si se cumplen las siguientes condiciones:

  • La API de Data Lineage está habilitada en tu proyecto. Para obtener más información, consulta Habilita la API de Data Lineage en la documentación de Dataplex.

  • Un Backend de linaje no está configurado en Airflow.

Puedes inhabilitar la integración del linaje de datos cuando creas un entorno. Para por ejemplo, si deseas anular el comportamiento automático u optar por habilitar el linaje de datos más adelante, después de que se crear.

Console

Para inhabilitar la integración del linaje de datos, en la página Crear entorno, haz lo siguiente:

  1. En la sección Configuración avanzada, expande el elemento Mostrar configuración avanzada.

  2. En la sección Integración del linaje de datos de Dataplex, selecciona Inhabilita la integración en el linaje de datos de Dataplex.

gcloud

Cuando creas un entorno, el argumento --disable-cloud-data-lineage-integration inhabilita la integración del linaje de datos.

gcloud composer environments create ENVIRONMENT_NAME \
    --location LOCATION \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --disable-cloud-data-lineage-integration

Reemplaza lo siguiente:

  • ENVIRONMENT_NAME por el nombre del entorno.
  • LOCATION por la región en la que se encuentra el entorno.

Ejemplo:

gcloud composer environments create example-environment \
    --location us-central1 \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --disable-cloud-data-lineage-integration

Paso 11. Configura la encriptación de datos (CMEK) (opcional)

De forma predeterminada, los datos en tu entorno se encriptan con una clave que proporciona Google.

Para usar claves de encriptación administradas por el cliente (CMEK) a fin de encriptar datos en tu entorno, sigue las instrucciones que se describen en Uso de claves de encriptación administradas por el cliente.

Paso 12. (Opcional) Usa el bucket de un entorno personalizado

Cuando creas un entorno, Cloud Composer crea un bucket para tu entorno automáticamente.

Como alternativa, puedes especificar un bucket personalizado de Cloud Storage desde tu en un proyecto final. Tu entorno usa este bucket de la misma manera que el bucket creado automáticamente.

Para usar un bucket de entorno personalizado, sigue las instrucciones descritas en Usa un bucket de un entorno personalizado.

Paso 13. Especifica etiquetas de entorno (opcional)

Puedes asignar etiquetas a tus entornos para desglosar los costos de facturación según estas etiquetas.

Console

En la página Crear entorno, en la sección Etiquetas, haz lo siguiente:

  1. Haz clic en Agregar etiqueta.

  2. En los campos Clave y Valor, especifica los pares clave-valor para las etiquetas del entorno.

gcloud

Cuando creas un entorno, el argumento --labels especifica una lista separada por comas de claves y valores con etiquetas de entorno.

gcloud composer environments create ENVIRONMENT_NAME \
    --location LOCATION \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --labels LABELS

Reemplaza lo siguiente:

  • LABELS por una lista de pares KEY=VALUE separados por comas para etiquetas de entorno.

Ejemplo:

gcloud composer environments create example-environment \
    --location us-central1 \
    --image-version composer-3-airflow-2.9.3-build.3 \
    --labels owner=engineering-team,env=production

API

Cuando creas un entorno, en el recurso Entorno, especifica etiquetas para tu entorno.

{
  "name": "projects/PROJECT_ID/locations/LOCATION/environments/ENVIRONMENT_NAME",
  "labels": {
    "LABEL_KEY": "LABEL_VALUE"
  }
}

Reemplaza lo siguiente:

  • LABEL_KEY por una clave de la etiqueta del entorno.
  • LABEL_VALUE por un valor de la etiqueta del entorno.

Ejemplo:


// POST https://composer.googleapis.com/v1/{parent=projects/*/locations/*}/environments

{
  "name": "projects/example-project/locations/us-central1/environments/example-environment",
  "labels": {
    "owner": "engineering-team",
    "env": "production"
  }
}

Terraform

Cuando creas un entorno, especifica etiquetas en el bloque labels (fuera del bloque config).

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "ENVIRONMENT_NAME"
  region = "LOCATION"

  labels = {
    LABEL_KEY = "LABEL_VALUE"
  }

}

Reemplaza lo siguiente:

  • LABEL_KEY por una clave de la etiqueta del entorno.
  • LABEL_VALUE por un valor de la etiqueta del entorno.

Ejemplo:

resource "google_composer_environment" "example" {
  provider = google-beta
  name = "example-environment"
  region = "us-central1"

  labels = {
    owner = "engineering-team"
    env = "production"
  }

}

¿Qué sigue?