Soluções de programação de fluxo de trabalho

Nesta seção, descrevemos as opções do Google Cloud que podem ser usadas para programar fluxos de trabalho.

Modelos de fluxo de trabalho do Dataproc

Os modelos de fluxo de trabalho do Dataproc fornecem um mecanismo flexível e fácil de usar para o gerenciamento e execução de fluxos de trabalho. Um modelo de fluxo de trabalho é uma configuração de fluxo de trabalho reutilizável. Ele define um gráfico de jobs com informações sobre onde executar esses jobs.

Cloud Scheduler

O Cloud Scheduler é um programador de cron jobs totalmente gerenciado e de nível empresarial. Ele permite que você programe praticamente qualquer job, incluindo os jobs em lote, os jobs do Big Data e as operações de infraestrutura do Cloud. Ele fornece programação simples baseada em tempo, por exemplo, diariamente ou por hora, sem que você precise escrever um código.

Vantagens:

  • Ativa a instanciação baseada no tempo de modelos de fluxo de trabalho com base em expressões cron conhecidas

  • Nenhum código para escrever

Tutorial: Fluxo de trabalho usando o Cloud Scheduler

Cloud Functions

O Cloud Run é uma solução de computação leve que pode ser usada para criar funções autônomas e de finalidade única que respondem a eventos do Cloud sem a necessidade de gerenciar um servidor ou um ambiente de execução. Use as funções do Cloud Run para iniciar Workflows em resposta a eventos do Pub/Sub ou a alterações de arquivos no Cloud Storage. É possível usar as funções do Cloud Run com o Cloud Scheduler para fluxos de trabalho que exigem o cálculo de parâmetros baseados em tempo.

Vantagens:

  • Ativa a instanciação do fluxo de trabalho em resposta a eventos de dados, como novos arquivos no Cloud Storage ou eventos do Pub/Sub.

  • Codificação mínima necessária usando bibliotecas de cliente Go, Node.js ou Python do Dataproc

  • Gerar dinamicamente fluxos de trabalho e parâmetros de fluxo de trabalho

Tutorial: Fluxo de trabalho usando as funções do Cloud Run

Cloud Composer

O Cloud Composer é um serviço gerenciado do Apache Airflow que pode ser usado para criar, programar, monitorar e gerenciar fluxos de trabalho.

Vantagens:

  • Compatível com programação baseada em tempo e evento

  • Chamadas simplificadas para o Dataproc usando Operators

  • Gerar dinamicamente fluxos de trabalho e parâmetros de fluxo de trabalho

  • Criar fluxos de dados que abrangem vários produtos do Google Cloud

Tutorial: fluxo de trabalho usando o Cloud Composer