Início rápido

Neste guia de início rápido, você aprende a:

  1. Crie uma instância do Cloud Data Fusion.
  2. Implante um pipeline de amostra fornecido com sua instância do Cloud Data Fusion. O pipeline faz o seguinte:
    1. Lê um arquivo JSON contendo dados de best-sellers do NYT a partir do Cloud Storage.
    2. Executa transformações no arquivo para analisar e limpar os dados.
    3. Carrega os livros com melhor classificação adicionados na última semana que custem menos de US$ 25 no BigQuery.

Antes de começar

  1. Faça login na sua conta do Google.

    Se você ainda não tiver uma, inscreva-se.

  2. No Console do Cloud, na página do seletor de projetos, selecione ou crie um projeto do Cloud.

    Acessar a página do seletor de projetos

  3. Ative a API Cloud Data Fusion.

    Ative a API

Criar uma instância do Cloud Data Fusion.

Criar uma instância do Cloud Data Fusion.

Ao usar o Cloud Data Fusion, você usa o Console do Cloud e a IU separada do Cloud Data Fusion.

  • No Console do Cloud, crie um projeto do Console do Cloud, criar e excluir instâncias do Cloud Data Fusion e ver detalhes da instância do Cloud Data Fusion.

  • Na IU da Web do Cloud Data Fusion, é possível usar as várias páginas, como o Pipeline Studio ou o Administrador, para usar a funcionalidade do Cloud Data Fusion.

Para navegar na IU do Cloud Data Fusion, siga estas etapas:

  1. No Console do Cloud, abra a página Instâncias.

    Abrir a página "Instâncias"

  2. Na coluna Ações da instância, clique no link Visualizar instância.
  3. Na IU da Web do Cloud Data Fusion, use o painel de navegação à esquerda para navegar até a página de que você precisa.

Implantar um pipeline de amostra

Os canais de amostra estão disponíveis por meio do Hub do Cloud Data Fusion, que permite compartilhar soluções, plug-ins e pipelines reutilizáveis do Cloud Data Fusion.

  1. Na IU da Web do Cloud Data Fusion, clique em HUB.
  2. No painel esquerdo, clique em Pipelines.
  3. Clique no pipeline do Guia de início rápido do Cloud Data Fusion.
  4. Clique em Criar
  5. No painel de configuração do Guia de início rápido do Cloud Data Fusion, clique em Concluir.
  6. Clique em Personalizar pipeline. Uma representação visual do pipeline é exibida no Pipeline Studio, que é uma interface gráfica para desenvolver pipelines de integração de dados. Os plug-ins de pipeline disponíveis são listados à esquerda, e o pipeline é exibido na área de tela principal. Para explorar o pipeline, mantenha o ponteiro sobre cada do pipeline e clique no botão Propriedades exibido. O menu de propriedades de cada nó permite visualizar os objetos e as operações associadas ao nó.
  7. No menu superior direito, clique em Implantar. Isso envia o pipeline para o Cloud Data Fusion. Você executará o pipeline na próxima seção deste guia de início rápido.
Implante o pipeline.

Visualizar o pipeline

O pipeline implantado aparece na visualização de detalhes do pipeline, onde é possível fazer o seguinte:

  • visualizar a estrutura e configuração do pipeline;
  • executar o pipeline manualmente ou configurar uma programação ou um acionador;
  • ver um resumo das execuções históricas do pipeline, incluindo ambientes de execução, registros e métricas.
Copie a conta de serviço.

Executar o pipeline

Na visualização de detalhes do pipeline, clique em Executar para executar o pipeline.

Ver os resultados

Após alguns minutos, o pipeline é concluído. O status do pipeline muda para Concluído e o número de registros processados por cada nó é exibido.

Execução do pipeline concluída.
  1. Acesse a IU do BigQuery.
  2. No conjunto de dados DataFusionQuickstart do projeto, clique na tabela top_rated_inexpensive e execute uma consulta simples, como SELECT * FROM `my-project.GCPQuickStart.top_rated_inexpensive` LIMIT 10 (substitua "my-project" pelo ID do projeto), para ver uma amostra. dos resultados.
Ver resultados.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste guia de início rápido, siga estas etapas:

  1. Exclua o conjunto de dados do BigQuery em que seu pipeline fez gravações neste guia de início rápido.
  2. Exclua a instância do Cloud Data Fusion.

  3. (Opcional) Exclua o projeto.

    1. No Console do Cloud, acesse a página Gerenciar recursos:

      Acessar a página "Gerenciar recursos"

    2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
    3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir