Soluções de programação de fluxo de trabalho

Nesta seção, descrevemos as opções do Google Cloud que podem ser usadas para programar fluxos de trabalho.

Modelos de fluxo de trabalho do Dataproc

Os modelos de fluxo de trabalho do Dataproc fornecem um mecanismo flexível e fácil de usar para o gerenciamento e execução de fluxos de trabalho. Um modelo de fluxo de trabalho é uma configuração de fluxo de trabalho reutilizável. Ele define um gráfico de jobs com informações sobre onde executar esses jobs.

Cloud Scheduler

O Cloud Scheduler é um programador de cron jobs totalmente gerenciado e de nível empresarial. Ele permite que você programe praticamente qualquer job, incluindo os jobs em lote, os jobs do Big Data e as operações de infraestrutura do Cloud. Ele fornece programação simples baseada em tempo, por exemplo, diariamente ou por hora, sem que você precise escrever um código.

Vantagens:

  • Ativa a instanciação baseada no tempo de modelos de fluxo de trabalho com base em expressões cron conhecidas

  • Nenhum código para escrever

Tutorial: Fluxo de trabalho usando o Cloud Scheduler

Cloud Functions

As funções do Cloud Run são uma solução de computação leve que pode ser usada para criar funções autônomas e de finalidade única que respondem a eventos do Cloud a necessidade de gerenciar um servidor ou um ambiente de execução. Você pode usar Funções do Cloud Run para iniciar Workflows em resposta ao Pub/Sub ou alterações em arquivos no Cloud Storage. É possível usar as funções do Cloud Run com o Cloud Scheduler para fluxos de trabalho que exigem o cálculo de parâmetros baseados em tempo.

Vantagens:

  • Ativa a instanciação do fluxo de trabalho em resposta a eventos de dados, como novos arquivos no Cloud Storage ou eventos do Pub/Sub.

  • Programação mínima necessária usando o Dataproc Ir, Node.js ou Python bibliotecas de cliente

  • Gerar dinamicamente fluxos de trabalho e parâmetros de fluxo de trabalho

Tutorial: fluxo de trabalho usando as funções do Cloud Run

Cloud Composer

O Cloud Composer é um serviço gerenciado do Apache Airflow que pode ser usado para criar, programar, monitorar e gerenciar fluxos de trabalho.

Vantagens:

  • Compatível com programação baseada em tempo e evento

  • Chamadas simplificadas para o Dataproc usando Operators

  • Gerar dinamicamente fluxos de trabalho e parâmetros de fluxo de trabalho

  • Criar fluxos de dados que abrangem vários produtos do Google Cloud

Tutorial: fluxo de trabalho usando o Cloud Composer