Criar um pipeline de dados
Neste guia de início rápido, você aprende a:
- Crie uma instância do Cloud Data Fusion.
- Implante um pipeline de amostra fornecido com sua instância do Cloud Data Fusion. O pipeline faz o seguinte:
- Lê um arquivo JSON contendo dados de best-sellers do NYT a partir do Cloud Storage.
- Executa transformações no arquivo para analisar e limpar os dados.
- Carrega os livros com melhor classificação adicionados na última semana que custem menos de US$ 25 no BigQuery.
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Ative a API Cloud Data Fusion.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Ative a API Cloud Data Fusion.
Crie uma instância do Cloud Data Fusion
- Clique em Criar uma instância.
- Insira um Nome de instância.
- Insira uma Descrição para sua instância.
- Insira a Região em que a instância será criada.
- Escolha a Versão do Cloud Data Fusion a ser usada.
- Escolha a Edição do Cloud Data Fusion.
- Para as versões 6.2.3 e posteriores do Cloud Data Fusion, no campo Autorização, escolha a conta de serviço do Dataproc a ser usada para executar seu pipeline do Cloud Data Fusion no Dataproc. O valor padrão, a conta do Compute Engine, é pré-selecionado.
- Clique em Criar. O processo de criação da instância leva até 30 minutos para ser concluído. Enquanto o Cloud Data Fusion cria a instância, um indicador de progresso é exibido ao lado do nome dela na página Instâncias. Após a conclusão, o indicador se transforma em uma marca de seleção verde, indicando que a instância já pode ser usada.
Navegar na IU do Cloud Data Fusion
Com o Cloud Data Fusion, você usa o console e a IU separada do Cloud Data Fusion.
No console, é possível criar um projeto de console, criar e excluir instâncias do Cloud Data Fusion e visualizar detalhes da instância.
Na IU da Web do Cloud Data Fusion, é possível usar as diversas páginas, como Studio ou Wrangler, para utilizar a funcionalidade do Cloud Data Fusion.
Para navegar na IU do Cloud Data Fusion, siga estas etapas:
- No console, abra a página Instâncias.
- Na coluna Ações da instância, clique no link Visualizar instância.
- Na IU da Web do Cloud Data Fusion, use o painel de navegação à esquerda para navegar até a página de que você precisa.
Implantar um pipeline de amostra
Os pipelines de amostra estão disponíveis no Hub do Cloud Data Fusion, que permite compartilhar pipelines, plug-ins e soluções reutilizáveis.
- Na IU da Web do Cloud Data Fusion, clique em Hub.
- No painel esquerdo, clique em Pipelines.
- Clique no pipeline do Guia de início rápido do Cloud Data Fusion.
- Clique em Criar.
- No painel de configuração do Guia de início rápido do Cloud Data Fusion, clique em Concluir.
- Clique em Personalizar pipeline. Uma representação visual do pipeline aparece na página Studio, que é uma interface gráfica para desenvolver pipelines de integração de dados. Os plug-ins de pipeline disponíveis são listados à esquerda, e o pipeline é exibido na área de tela principal. Para explorar o pipeline, mantenha o ponteiro sobre cada nó do pipeline e clique em Propriedades. O menu de propriedades de cada nó permite visualizar os objetos e as operações associados a ele.
- No menu superior direito, clique em Implantar. Isso envia o pipeline para o Cloud Data Fusion. Você executará o pipeline na próxima seção deste guia de início rápido.

Visualizar o pipeline
O pipeline implantado aparece na visualização de detalhes do pipeline, onde é possível fazer o seguinte:
- visualizar a estrutura e configuração do pipeline;
- executar o pipeline manualmente ou configurar uma programação ou um gatilho;
- ver um resumo das execuções históricas do pipeline, incluindo ambientes de execução, registros e métricas.

Executar o pipeline
Na visualização de detalhes do pipeline, clique em Executar para executar o pipeline.

Ver os resultados
Após alguns minutos, o pipeline é concluído. O status do pipeline muda para Concluído e o número de registros processados por cada nó é exibido.

- Acesse a IU do BigQuery.
Para ver uma amostra dos resultados, acesse o conjunto de dados
DataFusionQuickstart
no seu projeto, clique na tabelatop_rated_inexpensive
e execute uma consulta simples, como:SELECT * FROM
<var>PROJECT_ID<var>.GCPQuickStart.top_rated_inexpensive
LIMIT 10Substitua PROJECT_ID pelo ID do projeto.

Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga as etapas abaixo.
- Exclua o conjunto de dados do BigQuery em que seu pipeline fez gravações neste guia de início rápido.
(Opcional) Exclua o projeto.
- No console, acesse a página Gerenciar recursos.
- Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
- Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.
A seguir
- Siga um tutorial do Cloud Data Fusion.
- Saiba mais sobre os conceitos do Cloud Data Fusion.
- Saiba mais sobre os componentes da arquitetura do Cloud Data Fusion.