Agende cargas de trabalho

As tarefas do BigQuery fazem geralmente parte de cargas de trabalho maiores, com tarefas externas a serem acionadas e, em seguida, acionadas por operações do BigQuery. O agendamento de cargas de trabalho ajuda os administradores de dados, os analistas e os programadores a organizar e otimizar esta cadeia de ações, criando uma ligação perfeita entre os recursos e os processos de dados. Os métodos e as ferramentas de programação ajudam a conceber, criar, implementar e monitorizar estas cargas de trabalho de dados complexas.

Escolha um método de agendamento

Para selecionar um método de agendamento, deve identificar se as suas cargas de trabalho são acionadas por eventos, por tempo ou por ambos. Um evento é definido como uma alteração de estado, como uma alteração aos dados numa base de dados ou um ficheiro adicionado a um sistema de armazenamento. Na programação orientada por eventos, uma ação num Website pode acionar uma atividade de dados ou um objeto que aterrar num determinado contentor pode ter de ser processado imediatamente após a chegada. Na programação baseada no tempo, pode ser necessário carregar novos dados uma vez por dia ou com frequência suficiente para gerar relatórios por hora. Pode usar a programação baseada em eventos e baseada no tempo em cenários em que precisa de carregar objetos para um data lake em tempo real, mas os relatórios de atividade no data lake só são gerados diariamente.

Escolha uma ferramenta de agendamento

As ferramentas de agendamento ajudam nas tarefas envolvidas na gestão de cargas de trabalho de dados complexas, como combinar vários serviços originais ou de terceiros com tarefas do BigQuery, ou executar várias tarefas do BigQuery em paralelo. Google Cloud Cada carga de trabalho tem requisitos únicos de gestão de dependências e parâmetros para garantir que as tarefas são executadas pela ordem correta com os dados corretos.O Google Cloud oferece várias opções de agendamento baseadas no método de agendamento e nos requisitos da carga de trabalho.

Recomendamos a utilização do Dataform, dos fluxos de trabalho, do Cloud Composer ou dos pipelines do Vertex AI para a maioria dos exemplos de utilização. Consulte o gráfico seguinte para ver uma comparação lado a lado:

Dataform Fluxos de trabalho Cloud Composer Vertex AI Pipelines
Foco Transformação de dados Microsserviços ETL ou ELT Aprendizagem automática
Complexidade * ** *** **
Perfil de utilizador Analista de dados ou administrador Arquiteto de dados Engenheiro de dados Analista de dados
Tipo de código JavaScript, SQL, blocos de notas Python YAML ou JSON Python Python
Sem servidor? Sim Sim Totalmente gerido Sim
Não adequado para Cadeias de serviços externos Transformação e tratamento de dados Pipelines de baixa latência ou baseadas em eventos Tarefas de infraestrutura

As secções seguintes detalham estas ferramentas de agendamento e várias outras.

Consultas agendadas

A forma mais simples de agendamento de cargas de trabalho é o agendamento de consultas recorrentes diretamente no BigQuery. Embora esta seja a abordagem menos complexa para a programação, recomendamos que a use apenas para cadeias de consultas simples sem dependências externas. As consultas agendadas desta forma têm de ser escritas em GoogleSQL e podem incluir declarações de linguagem de definição de dados (LDD) e de linguagem de manipulação de dados (LMD).

Método de agendamento: baseado no tempo

Dataform

O Dataform é uma framework de transformação baseada em SQL, gratuita e com opiniões que agenda tarefas de transformação de dados complexas no BigQuery. Quando os dados não processados são carregados no BigQuery, o Dataform ajuda a criar uma coleção organizada, testada e com controlo de versões de conjuntos de dados e tabelas. Use o Dataform para agendar execuções para as suas preparações de dados, blocos de notas e pipelines do BigQuery.

Método de agendamento: baseado no tempo

Workflows

O Workflows é uma ferramenta sem servidor que agenda serviços baseados em HTTP com uma latência muito baixa. É ideal para encadear microsserviços, automatizar tarefas de infraestrutura, integrar com sistemas externos ou criar uma sequência de operações no Google Cloud. Para saber mais sobre a utilização dos fluxos de trabalho com o BigQuery, consulte o artigo Execute várias tarefas do BigQuery em paralelo.

Método de agendamento: orientado por eventos e orientado por tempo

Cloud Composer

O Cloud Composer é uma ferramenta totalmente gerida criada no Apache Airflow. É ideal para cargas de trabalho de extração, transformação e carregamento (ETL) ou extração, carregamento e transformação (ELT), uma vez que suporta vários tipos e padrões de operadores, bem como a execução de tarefas noutros produtos Google Cloud e destinos externos. Para saber mais sobre a utilização do Cloud Composer com o BigQuery, consulte o artigo Executar um DAG de estatísticas de dados no Google Cloud.

Método de agendamento: baseado no tempo

Vertex AI Pipelines

O Vertex AI Pipelines é uma ferramenta sem servidor baseada no Kubeflow Pipelines, especialmente concebida para agendar cargas de trabalho de aprendizagem automática. Automatiza e associa todas as tarefas de desenvolvimento e implementação do modelo, desde os dados de preparação ao código, oferecendo-lhe uma vista completa do funcionamento dos seus modelos. Para saber mais sobre a utilização dos Vertex AI Pipelines com o BigQuery, consulte o artigo Exporte e implemente um modelo de aprendizagem automática do BigQuery para previsão.

Método de agendamento: orientado por eventos

Integração do Apigee

A Apigee Integration é uma extensão da plataforma Apigee que inclui conetores e ferramentas de transformação de dados. É ideal para a integração com aplicações empresariais externas, como o Salesforce. Para saber mais sobre a utilização da integração do Apigee com o BigQuery, consulte o artigo Comece a usar a integração do Apigee e um acionador do Salesforce.

Método de agendamento: orientado por eventos e orientado por tempo

Cloud Data Fusion

O Cloud Data Fusion é uma ferramenta de integração de dados que oferece pipelines ELT/ETL sem código e mais de 150 conetores e transformações pré-configurados. Para saber mais sobre a utilização do Cloud Data Fusion com o BigQuery, consulte o artigo Replicar dados do MySQL para o BigQuery.

Método de agendamento: orientado por eventos e orientado por tempo

Cloud Scheduler

O Cloud Scheduler é um agendador totalmente gerido para tarefas como streaming em lote ou operações de infraestrutura que devem ocorrer em intervalos de tempo definidos. Para saber mais sobre a utilização do Cloud Scheduler com o BigQuery, consulte o artigo Agendar fluxos de trabalho com o Cloud Scheduler.

Método de agendamento: baseado no tempo

Cloud Tasks

O Cloud Tasks é um serviço totalmente gerido para a distribuição assíncrona de tarefas de trabalhos que podem ser executados independentemente, fora da sua carga de trabalho principal. É mais adequado para delegar operações em segundo plano lentas ou gerir taxas de chamadas de API. Para saber mais sobre a utilização do Cloud Tasks com o BigQuery, consulte o artigo Adicione uma tarefa a uma fila do Cloud Tasks.

Método de agendamento: orientado por eventos

Ferramentas de terceiros

Também pode estabelecer ligação ao BigQuery através de várias ferramentas de terceiros populares, como a CData e a SnapLogic. O programa BigQuery Ready oferece uma lista completa de soluções de parceiros validadas.

Ferramentas de mensagens

Muitas cargas de trabalho de dados requerem ligações de mensagens adicionais entre microsserviços desassociados que só precisam de ser ativados quando ocorrem determinados eventos. OGoogle Cloud oferece duas ferramentas concebidas para integração com o BigQuery.

Pub/Sub

O Pub/Sub é uma ferramenta de mensagens assíncronas para pipelines de integração de dados. Foi concebida para carregar e distribuir dados, como eventos do servidor e interações dos utilizadores. Também pode ser usado para o processamento paralelo e o streaming de dados de dispositivos de IoT. Para saber mais sobre a utilização do Pub/Sub com o BigQuery, consulte o artigo Faça streaming do Pub/Sub para o BigQuery.

Eventarc

O Eventarc é uma ferramenta orientada por eventos que lhe permite gerir o fluxo de alterações de estado em toda a sua pipeline de dados. Esta ferramenta tem uma vasta gama de exemplos de utilização, incluindo a correção automática de erros, a etiquetagem de recursos, o retoque de imagens e muito mais. Para saber mais sobre a utilização do Eventarc com o BigQuery, consulte o artigo Crie um pipeline de processamento do BigQuery com o Eventarc.

O que se segue?