Criar um pipeline de dados
Neste guia de início rápido, mostramos como fazer o seguinte:
- Crie uma instância do Cloud Data Fusion.
- Implante um pipeline de amostra fornecido com sua instância do Cloud Data Fusion. O pipeline faz o seguinte:
- Lê um arquivo JSON contendo dados de best-sellers do NYT a partir do Cloud Storage.
- Executa transformações no arquivo para analisar e limpar os dados.
- Carrega os livros com melhor classificação adicionados na última semana que custem menos de US$ 25 no BigQuery.
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Ative a API Cloud Data Fusion.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Ative a API Cloud Data Fusion.
Crie uma instância do Cloud Data Fusion
- Clique em Criar uma instância.
- Insira um Nome de instância.
- Insira uma Descrição para sua instância.
- Insira a Região em que a instância será criada.
- Escolha a Versão do Cloud Data Fusion que será usada.
- Escolha a Edição do Cloud Data Fusion.
- Para as versões 6.2.3 e posteriores do Cloud Data Fusion, no campo Autorização, escolha a conta de serviço do Dataproc que será usada para executar o pipeline do Cloud Data Fusion no Dataproc. O valor padrão, a conta do Compute Engine, é pré-selecionado.
- Clique em Criar. O processo de criação da instância leva até 30 minutos para ser concluído. Enquanto o Cloud Data Fusion cria a instância, um indicador de progresso é exibido ao lado do nome dela na página Instâncias. Após a conclusão, o indicador se transforma em uma marca de seleção verde, indicando que a instância já pode ser usada.
Navegar pela interface da Web do Cloud Data Fusion
Ao usar o Cloud Data Fusion, você usa o console do Google Cloud e a interface da Web separada do Cloud Data Fusion.
No console do Google Cloud, faça o seguinte:
- Criar um projeto do console do Google Cloud
- Criar e excluir instâncias do Cloud Data Fusion
- Confira os detalhes da instância do Cloud Data Fusion
Na interface da Web do Cloud Data Fusion, é possível usar várias páginas, como Studio ou Wrangler, para usar a funcionalidade do Cloud Data Fusion.
Para navegar pela interface do Cloud Data Fusion, siga estas etapas:
- No console do Google Cloud, abra a página Instâncias.
- Na coluna Ações da instância, clique no link Visualizar instância.
- Na interface da Web do Cloud Data Fusion, use o painel de navegação à esquerda para acessar a página necessária.
Implantar um pipeline de amostra
Pipelines de amostra estão disponíveis por meio do Hub do Cloud Data Fusion, que permite compartilhar pipelines, plug-ins e soluções reutilizáveis do Cloud Data Fusion.
- Na interface da Web do Cloud Data Fusion, clique em Hub.
- No painel esquerdo, clique em Pipelines.
- Clique no pipeline do Guia de início rápido do Cloud Data Fusion.
- Clique em Criar.
- No painel de configuração do Guia de início rápido do Cloud Data Fusion, clique em Concluir.
Clique em Personalizar pipeline.
Uma representação visual do pipeline aparece na página do Studio, que é uma interface gráfica para desenvolver pipelines de integração de dados. Os plug-ins de pipeline disponíveis são listados à esquerda, e o pipeline é exibido na área de tela principal. Para explorar o pipeline, mantenha o ponteiro sobre cada nó dele e clique em Propriedades. O menu de propriedades de cada nó permite visualizar os objetos e operações associados a ele.
No menu superior direito, clique em Implantar. Esta etapa envia o pipeline para o Cloud Data Fusion. Você executará o pipeline na próxima seção deste guia de início rápido.
Visualizar o pipeline
O pipeline implantado aparece na visualização de detalhes do pipeline, onde é possível fazer o seguinte:
- Consultar a estrutura e a configuração do pipeline.
- executar o pipeline manualmente ou configurar uma programação ou um gatilho;
- Confira um resumo das execuções históricas do pipeline, incluindo tempos de execução, registros e métricas.
Executar o pipeline
Na visualização de detalhes do pipeline, clique em Executar para executar o pipeline.
Ao executar um pipeline, o Cloud Data Fusion faz o seguinte:
- Provisiona um cluster temporário do Dataproc
- Executa o pipeline no cluster usando o Apache Spark
- Exclui o cluster
Ver os resultados
Após alguns minutos, o pipeline é concluído. O status do pipeline muda para Concluído e o número de registros processados por cada nó é exibido.
- Acesse a interface da Web do BigQuery.
Para acessar uma amostra dos resultados, acesse o conjunto de dados
DataFusionQuickstart
no projeto, clique na tabelatop_rated_inexpensive
e execute uma consulta simples. Exemplo:SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
Substitua PROJECT_ID pela ID do seu projeto.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
- Exclua o conjunto de dados do BigQuery em que o pipeline fez gravações neste guia de início rápido.
Opcional: exclua o projeto.
- No Console do Google Cloud, acesse a página Gerenciar recursos.
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.
A seguir
- Siga um tutorial do Cloud Data Fusion.
- Saiba mais sobre os conceitos do Cloud Data Fusion.