Recursos do Cloud Composer

Cloud Composer 1 | Cloud Composer 2

Nesta página, você encontra uma visão geral dos recursos do Cloud Composer.

Para saber mais sobre as diferenças entre o Cloud Composer 1 e o Cloud Composer 2, consulte a visão geral do controle de versão.

O Cloud Composer é um serviço gerenciado do Apache Airflow (em inglês) para criar, programar, monitorar e gerenciar fluxos de trabalho.

Ambientes do Cloud Composer

Um ambiente do Cloud Composer é um wrapper em torno do Apache Airflow. O Cloud Composer cria os componentes a seguir em cada ambiente:

  • Cluster do GKE: os programadores, os workers e a fila do Redis do Airflow são executados como cargas de trabalho do GKE em um único cluster e são responsáveis pelo processamento e pela execução de DAGs. O cluster também hospeda outros componentes do Cloud Composer, como o Composer Agent e o Airflow Monitoring, que ajudam a gerenciar o ambiente do Cloud Composer, reunir registros para armazenar no Cloud Logging e reunir métricas para fazer upload no Cloud Monitoring.
  • Servidor da Web: executa a interface da Web do Apache Airflow. Para mais informações, consulte Interface da Web do Airflow.
  • Banco de dados: armazena os metadados do Apache Airflow.
  • Bucket do Cloud Storage: o Cloud Composer associa um bucket do Cloud Storage ao ambiente. Esse bucket armazena DAGs, registros, plug-ins personalizados e dados do ambiente. Para saber mais sobre o bucket de armazenamento do Cloud Composer, consulte Dados armazenados no Cloud Storage.

Gerenciamento do Airflow

Para acessar e gerenciar os ambientes do Airflow, é possível usar as ferramentas nativas a seguir:

  • Interface da Web: é possível acessá-la no Console do Google Cloud ou por meio de um URL direto com as permissões apropriadas. Para saber mais, consulte Interface da Web do Airflow.
  • Ferramentas de linha de comando: depois de instalar a Google Cloud CLI, é possível executar comandos gcloud composer environments para emitir comandos de linha de comando do Airflow para ambientes do Cloud Composer. Para mais informações, consulte Interface de linha de comando do Airflow.

Além das ferramentas nativas, as APIs REST e RPC do Cloud Composer dão acesso programático aos ambientes do Airflow. Para saber mais, consulte APIs e referências.

Configuração do Airflow

Em geral, as configurações que o Cloud Composer fornece para o Apache Airflow são as mesmas de uma implantação do Airflow hospedada localmente. Algumas delas são pré-configuradas no Cloud Composer e não é possível alterar as propriedades da configuração. Você especifica outras configurações ao criar ou atualizar o ambiente. Para saber mais, consulte Configurações do Airflow bloqueadas.

DAGs do Airflow (fluxos de trabalho)

O DAG do Apache Airflow é um fluxo de trabalho, ou seja, um conjunto de tarefas com dependências extras. O Cloud Composer usa o Cloud Storage para armazenar os DAGs. Para adicionar ou remover DAGs do ambiente do Cloud Composer, adicione ou remova os DAGs do bucket associado ao ambiente. Depois de mover os DAGs para o bucket de armazenamento, eles serão automaticamente adicionados e programados no seu ambiente.

Além de programar DAGs, é possível acioná-los manualmente ou em resposta aos eventos. Por exemplo, as alterações que ocorrem no bucket do Cloud Storage associado. Para mais informações, consulte Como acionar DAGs.

Plug-ins

É possível instalar plug-ins personalizados no ambiente, incluindo interfaces, sensores, hooks e operadores internos do Apache Airflow. Para saber mais, consulte Como instalar plug-ins personalizados.

Dependências do Python

Instale dependências do Python do Índice de pacotes Python em seu ambiente ou de um repositório de pacotes particular. Para mais informações, consulte Como instalar dependências do Python.

Se as dependências não estiverem no índice de pacotes, também será possível usar o recurso plug-ins.

Controle de acesso

Você gerencia a segurança no nível do projeto do Google Cloud e pode atribuir papéis do Identity and Access Management (IAM) que impeçam que usuários individuais modifiquem ou criem ambientes. Se uma pessoa não tiver acesso ao seu projeto ou não tiver um papel apropriado do IAM do Cloud Composer, ela não poderá acessar nenhum de seus ambientes. Para mais informações, consulte Controle de acesso.

Geração de registros e monitoramento

É possível ver os registros do Airflow associados a tarefas únicas de DAG na interface da Web do Airflow e na pasta logs no bucket do Cloud Storage do ambiente.

Os registros de streaming estão disponíveis para o Cloud Composer. Para saber mais, consulte Como monitorar ambientes do Cloud Composer.

O Cloud Composer também fornece registros de auditoria, como os de atividades administrativas, para os projetos do Google Cloud. Para mais informações, consulte Como ver registros de auditoria.

Rede e segurança

Por padrão, o Cloud Composer implanta um cluster do Google Kubernetes Engine no modo Autopilot, nativo da VPC.

Para mais flexibilidade de segurança e de rede, o Cloud Composer também oferece suporte aos seguintes recursos.

VPC compartilhada

A VPC compartilhada permite o gerenciamento compartilhado de recursos de rede a partir de um projeto de host central para aplicar políticas de rede consistentes em projetos.

Quando o Cloud Composer participa de uma VPC compartilhada, o ambiente do Cloud Composer está em um projeto de serviço e pode invocar serviços hospedados em outros projetos do Google Cloud. Os recursos dentro de seus projetos de serviço se comunicam de forma segura entre os limites do projeto por meio de endereços IP internos. Para requisitos de projeto de rede e host, consulte Como configurar a VPC compartilhada.

Ambiente do Cloud Composer nativo de VPC

Com nativo de VPC, os endereços IP do pod e do serviço no cluster do GKE podem ser roteados nativamente na rede do Google Cloud, inclusive por meio de peering de rede VPC.

Nessa configuração, o Cloud Composer implanta um cluster do GKE nativo de VPC usando endereços IP do alias no seu ambiente. Ao usar clusters nativos de VPC, o GKE escolhe automaticamente um intervalo secundário. Para requisitos de rede específicos, também é possível configurar os intervalos secundários dos pods do GKE e serviços do GKE durante a configuração do ambiente do Cloud Composer.

Ambiente de IP privado do Cloud Composer

Com IP particular, os fluxos de trabalho do Cloud Composer são totalmente isolados da Internet pública.

Nessa configuração, o Cloud Composer implanta um cluster do GKE nativo de VPC usando endereços IP do alias no projeto do cliente. O cluster do GKE para seu ambiente é configurado como um cluster particular e a instância do Cloud SQL é configurada para IP particular.

O Cloud Composer também cria uma conexão de peering entre a rede VPC do projeto de cliente e a rede VPC do projeto de locatário.

Integração da linhagem de dados com o Dataplex

A execução de DAGs do Cloud Composer pode resultar na criação ou atualização de fontes de dados, como tabelas do BigQuery no seu projeto. A linhagem de dados é um recurso do Dataplex que permite acompanhar como os dados se movimentam nos sistemas: origem, destino e quais transformações são aplicadas a eles.

Para mais informações, consulte Integração da linhagem de dados e Sobre a linhagem de dados na documentação do Dataplex.

Novidades