Criar um pipeline de dados

Neste guia de início rápido, mostramos como fazer o seguinte:

  1. Crie uma instância do Cloud Data Fusion.
  2. Implante um pipeline de amostra fornecido com sua instância do Cloud Data Fusion. O pipeline faz o seguinte:
    1. Lê um arquivo JSON contendo dados de best-sellers do NYT a partir do Cloud Storage.
    2. Executa transformações no arquivo para analisar e limpar os dados.
    3. Carrega os livros com melhor classificação adicionados na última semana que custem menos de US$ 25 no BigQuery.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Ative a API Cloud Data Fusion.

    Ative a API

  4. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  5. Ative a API Cloud Data Fusion.

    Ative a API

Crie uma instância do Cloud Data Fusion

  1. Clique em Criar uma instância.

    Acesse "Instâncias"

  2. Insira um Nome de instância.
  3. Insira uma Descrição para sua instância.
  4. Insira a Região em que a instância será criada.
  5. Escolha a Versão do Cloud Data Fusion que será usada.
  6. Escolha a Edição do Cloud Data Fusion.
  7. Para as versões 6.2.3 e posteriores do Cloud Data Fusion, no campo Autorização, escolha a conta de serviço do Dataproc que será usada para executar o pipeline do Cloud Data Fusion no Dataproc. O valor padrão, a conta do Compute Engine, é pré-selecionado.
  8. Clique em Criar. O processo de criação da instância leva até 30 minutos para ser concluído. Enquanto o Cloud Data Fusion cria a instância, um indicador de progresso é exibido ao lado do nome dela na página Instâncias. Após a conclusão, o indicador se transforma em uma marca de seleção verde, indicando que a instância já pode ser usada.

Ao usar o Cloud Data Fusion, você usa o console do Google Cloud e a interface da Web separada do Cloud Data Fusion.

  • No console do Google Cloud, faça o seguinte:

    • Criar um projeto do console do Google Cloud
    • Criar e excluir instâncias do Cloud Data Fusion
    • Confira os detalhes da instância do Cloud Data Fusion
  • Na interface da Web do Cloud Data Fusion, é possível usar várias páginas, como Studio ou Wrangler, para usar a funcionalidade do Cloud Data Fusion.

Para navegar pela interface do Cloud Data Fusion, siga estas etapas:

  1. No console do Google Cloud, abra a página Instâncias.

    Acesse "Instâncias"

  2. Na coluna Ações da instância, clique no link Visualizar instância.
  3. Na interface da Web do Cloud Data Fusion, use o painel de navegação à esquerda para acessar a página necessária.

Implantar um pipeline de amostra

Pipelines de amostra estão disponíveis por meio do Hub do Cloud Data Fusion, que permite compartilhar pipelines, plug-ins e soluções reutilizáveis do Cloud Data Fusion.

  1. Na interface da Web do Cloud Data Fusion, clique em Hub.
  2. No painel esquerdo, clique em Pipelines.
  3. Clique no pipeline do Guia de início rápido do Cloud Data Fusion.
  4. Clique em Criar.
  5. No painel de configuração do Guia de início rápido do Cloud Data Fusion, clique em Concluir.
  6. Clique em Personalizar pipeline.

    Uma representação visual do pipeline aparece na página do Studio, que é uma interface gráfica para desenvolver pipelines de integração de dados. Os plug-ins de pipeline disponíveis são listados à esquerda, e o pipeline é exibido na área de tela principal. Para explorar o pipeline, mantenha o ponteiro sobre cada dele e clique em Propriedades. O menu de propriedades de cada nó permite visualizar os objetos e operações associados a ele.

  7. No menu superior direito, clique em Implantar. Esta etapa envia o pipeline para o Cloud Data Fusion. Você executará o pipeline na próxima seção deste guia de início rápido.

Implante o pipeline.

Visualizar o pipeline

O pipeline implantado aparece na visualização de detalhes do pipeline, onde é possível fazer o seguinte:

  • Consultar a estrutura e a configuração do pipeline.
  • executar o pipeline manualmente ou configurar uma programação ou um gatilho;
  • Confira um resumo das execuções históricas do pipeline, incluindo tempos de execução, registros e métricas.

Copie a conta de serviço.

Executar o pipeline

Na visualização de detalhes do pipeline, clique em Executar para executar o pipeline.

execute o pipeline

Ao executar um pipeline, o Cloud Data Fusion faz o seguinte:

  1. Provisiona um cluster temporário do Dataproc
  2. Executa o pipeline no cluster usando o Apache Spark
  3. Exclui o cluster

Ver os resultados

Após alguns minutos, o pipeline é concluído. O status do pipeline muda para Concluído e o número de registros processados por cada nó é exibido.

Execução do pipeline concluída

  1. Acesse a interface da Web do BigQuery.
  2. Para acessar uma amostra dos resultados, acesse o conjunto de dados DataFusionQuickstart no projeto, clique na tabela top_rated_inexpensive e execute uma consulta simples. Exemplo:

    SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
    

    Substitua PROJECT_ID pela ID do seu projeto.

Ver resultados

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

  1. Exclua o conjunto de dados do BigQuery em que o pipeline fez gravações neste guia de início rápido.
  2. Exclua a instância do Cloud Data Fusion.

  3. Opcional: exclua o projeto.

  1. No Console do Google Cloud, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir