Neste tutorial, mostramos como criar um pipeline reutilizável que lê dados do Cloud Storage, realiza verificações de qualidade de dados e grava no Cloud Storage.
Os pipelines reutilizáveis têm uma estrutura de pipeline regular, mas é possível alterar a configuração de cada nó de pipeline com base nas configurações fornecidas por um servidor HTTP. Por exemplo, um pipeline estático pode ler dados do Cloud Storage, aplicar transformações e gravar em uma tabela de saída do BigQuery. Se você quiser que a transformação e a tabela de saída do BigQuery sejam alteradas com base no arquivo do Cloud Storage lido pelo pipeline, crie um pipeline reutilizável.
Objetivos
- Use o plug-in do conjunto de argumentos do Cloud Storage para permitir que o pipeline leia entradas diferentes em cada execução.
- usar o plug-in do conjunto de argumentos do Cloud Storage para permitir que o pipeline faça diferentes verificações de qualidade em cada execução.
- Grave os dados de saída de cada execução no Cloud Storage.
Custos
Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:
- Cloud Data Fusion
- Cloud Storage
Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs Cloud Data Fusion, Cloud Storage, BigQuery, and Dataproc.
- Crie uma instância do Cloud Data Fusion.
Navegar até a interface da Web do Cloud Data Fusion
Ao usar o Cloud Data Fusion, você usa o console do Google Cloud e a interface da Web separada do Cloud Data Fusion. Nele, é possível criar um projeto, além de criar e excluir instâncias do Cloud Data Fusion. Na interface da Web do Cloud Data Fusion, é possível usar as várias páginas, como o Pipeline Studio ou o Wrangler, para aproveitar os recursos dele.
No console do Google Cloud, abra a página Instâncias.
Na coluna Ações da instância, clique no link Visualizar instância. A interface da Web do Cloud Data Fusion é aberta em uma nova guia do navegador.
Implantar o plug-in do conjunto de argumentos do Cloud Storage
Na interface da Web do Cloud Data Fusion, acesse a página do Studio.
No menu Actions, clique em GCS Argument Setter.
Ler do Cloud Storage
- Na interface da Web do Cloud Data Fusion, acesse a página do Studio.
- Clique em arrow_drop_down Origem e selecione "Cloud Storage". O nó de uma origem do Cloud Storage aparece no pipeline.
No nó do Cloud Storage, clique em Propriedades.
No campo Nome de referência, insira um nome.
No campo Caminho, digite
${input.path}
. Essa macro controla o caminho de entrada do Cloud Storage nas diferentes execuções do pipeline.No painel "Esquema de saída" à direita, remova o campo offset do esquema de saída clicando no ícone da lixeira na linha do campo de deslocamento.
Clique em Validar e corrija os erros.
Clique em
para sair da caixa de diálogo Propriedades.
Transformar os dados
- Na interface da Web do Cloud Data Fusion, acesse seu pipeline de dados na página do Studio.
- No menu suspenso Transform arrow_drop_down, selecione Wrangler.
- Na tela do Pipeline Studio, arraste uma seta do nó do Cloud Storage para o nó do Wrangler.
- Acesse o nó do Wrangler no pipeline e clique em Propriedades.
- Em Nome do campo de entrada, digite
body
. - No campo Receita, digite
${directives}
. Essa macro controla a lógica de transformação nas diferentes execuções do pipeline. - Clique em Validar e corrija os erros.
- Clique em para sair da caixa de diálogo Propriedades.
Gravar no Cloud Storage
- Na interface da Web do Cloud Data Fusion, acesse seu pipeline de dados na página do Studio.
- No menu suspenso Coletor arrow_drop_down, selecione Cloud Storage.
- Na tela do Pipeline Studio, arraste uma seta do nó do Wrangler para o nó do Cloud Storage que você acabou de adicionar.
- Acesse o nó do coletor do Cloud Storage no pipeline e clique em Propriedades.
- No campo Nome de referência, insira um nome.
- No campo Caminho, insira o caminho de um bucket do Cloud Storage no projeto, onde o pipeline possa gravar os arquivos de saída. Se você não tiver um bucket do Cloud Storage, crie um.
- Clique em Validar e corrija os erros.
- Clique em para sair da caixa de diálogo Propriedades.
Definir os argumentos da macro
- Na interface da Web do Cloud Data Fusion, acesse seu pipeline de dados na página do Studio.
- No menu suspenso arrow_drop_down Conditions and Actions, clique em GCS Argument Setter.
- Na tela do Pipeline Studio, arraste uma seta do nó do conjunto de argumentos do Cloud Storage para o nó de origem do Cloud Storage.
- Acesse o nó do conjunto de argumentos do Cloud Storage no pipeline e clique em Propriedades.
No campo URL, digite o seguinte:
gs://reusable-pipeline-tutorial/args.json
O URL corresponde a um objeto de acesso público no Cloud Storage com o seguinte conteúdo:
{ "arguments" : [ { "name": "input.path", "value": "gs://reusable-pipeline-tutorial/user-emails.txt" }, { "name": "directives", "value": "send-to-error !dq:isEmail(body)" } ] }
O primeiro dos dois argumentos é o valor de
input.path
. O caminhogs://reusable-pipeline-tutorial/user-emails.txt
é um objeto de acesso público no Cloud Storage com os seguintes dados de teste:alice@example.com bob@example.com craig@invalid@example.com
O segundo argumento é o valor de
directives
. O valorsend-to-error !dq:isEmail(body)
configura o Administrador para filtrar as linhas que não são um endereço de e-mail válido. Por exemplo,craig@invalid@example.com
é filtrado.Clique em Validar para garantir que você não tem erros.
Clique em
para sair da caixa de diálogo Propriedades.
Implantar e executar o pipeline
Na barra superior da página Pipeline Studio, clique em Nomear seu pipeline. Nomeie o pipeline e clique em Salvar.
Selecione Implantar.
Para abrir os Argumentos de tempo de execução e ver os argumentos
input.path
edirectives
da macro (tempo de execução) edirectives
, clique no menu suspenso arrow_drop_down ao lado de Executar.Deixe os campos de valor em branco para notificar o Cloud Data Fusion de que o nó do conjunto de argumentos do Cloud Storage no pipeline definirá os valores desses argumentos durante o ambiente de execução.
Clique em Executar.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
Depois de concluir o tutorial, é possível limpar os recursos criados no Google Cloud para que eles não consumam sua cota e você não receba cobranças por eles no futuro. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.
Excluir a instância do Cloud Data Fusion
Siga as instruções para excluir a instância do Cloud Data Fusion.
Exclua o projeto
O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.
Para excluir o projeto:
- No Console do Google Cloud, acesse a página Gerenciar recursos.
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.
A seguir
- Leia os guias de instruções.
- Siga as etapas de outro tutorial