Criar um pipeline de dados
Neste guia de início rápido, você vai aprender a fazer o seguinte:
- Crie uma instância do Cloud Data Fusion.
- Implante um pipeline de amostra fornecido com sua instância do Cloud Data Fusion. O pipeline faz o seguinte:
- Lê um arquivo JSON contendo dados de best-sellers do NYT a partir do Cloud Storage.
- Executa transformações no arquivo para analisar e limpar os dados.
- Carrega os livros com melhor classificação adicionados na última semana que custem menos de US$ 25 no BigQuery.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Cloud Data Fusion API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Cloud Data Fusion API.
Crie uma instância do Cloud Data Fusion
- Clique em Criar uma instância.
- Insira um Nome de instância.
- Insira uma Descrição para sua instância.
- Insira a região em que a instância será criada.
- Escolha a Versão do Cloud Data Fusion que será usada.
- Escolha a Edição do Cloud Data Fusion.
- Para as versões 6.2.3 e mais recentes do Cloud Data Fusion, Autorização, escolha a conta de serviço do Dataproc para executar o pipeline do Cloud Data Fusion o Dataproc. O valor padrão, a conta do Compute Engine, é pré-selecionado.
- Clique em Criar. O processo de criação da instância leva até 30 minutos para ser concluído. Enquanto o Cloud Data Fusion cria a instância, um indicador de progresso é exibido ao lado do nome dela na página Instâncias. Após a conclusão, o indicador se transforma em uma marca de seleção verde, indicando que a instância já pode ser usada.
Navegar pela interface da Web do Cloud Data Fusion
Ao usar o Cloud Data Fusion, você usa o console do Google Cloud e a interface da Web separada do Cloud Data Fusion.
No console do Google Cloud, você pode fazer o seguinte:
- Criar um projeto do console do Google Cloud
- Criar e excluir instâncias do Cloud Data Fusion
- Confira os detalhes da instância do Cloud Data Fusion
Na interface da Web do Cloud Data Fusion, é possível usar várias páginas, como o Studio ou o Wrangler, para usar a funcionalidade do Cloud Data Fusion.
Para navegar na interface do Cloud Data Fusion, siga estas etapas:
- No console do Google Cloud, abra a página Instâncias.
- Na coluna Ações da instância, clique no link Visualizar instância.
- Na interface da Web do Cloud Data Fusion, use o painel de navegação à esquerda para acesse a página desejada.
Implantar um pipeline de amostra
Os pipelines de amostra estão disponíveis no Hub do Cloud Data Fusion, que permite compartilhar soluções, plug-ins e pipelines reutilizáveis do Cloud Data Fusion.
- Na interface da Web do Cloud Data Fusion, clique em Hub.
- No painel esquerdo, clique em Pipelines.
- Clique no pipeline do Guia de início rápido do Cloud Data Fusion.
- Clique em Criar.
- No painel de configuração do guia de início rápido do Cloud Data Fusion, clique em Concluir.
Clique em Personalizar pipeline.
Uma representação visual do pipeline aparece na página Studio, que é uma interface gráfica para desenvolver pipelines de integração de dados. Os plug-ins de pipeline disponíveis são listados à esquerda, e o pipeline é exibido na área de tela principal. Para explorar o pipeline, mantenha o ponteiro sobre cada nó do pipeline e clique em Propriedades. O menu de propriedades de cada nó permite visualizar os objetos e as operações associadas ao nó.
No menu superior direito, clique em Implantar. Esta etapa envia o pipeline para o Cloud Data Fusion. Você executará o pipeline na próxima seção deste guia de início rápido.
Visualizar o pipeline
O pipeline implantado aparece na visualização de detalhes do pipeline, onde é possível fazer o seguinte:
- Veja a estrutura e a configuração do pipeline.
- executar o pipeline manualmente ou configurar uma programação ou um gatilho;
- conferir um resumo das execuções históricas do pipeline, incluindo ambientes de execução, registros e métricas.
Executar o pipeline
Na visualização de detalhes do pipeline, clique em Executar para executar o pipeline.
Ao executar um pipeline, o Cloud Data Fusion faz o seguinte:
- Provisiona um cluster temporário do Dataproc
- Executa o pipeline no cluster usando o Apache Spark
- Exclui o cluster
Ver os resultados
Após alguns minutos, o pipeline é concluído. O status do pipeline muda para Concluído e o número de registros processados por cada nó é exibido.
- Acesse a interface da Web do BigQuery.
Para conferir um exemplo dos resultados, acesse o conjunto de dados
DataFusionQuickstart
no projeto, clique na tabelatop_rated_inexpensive
e execute uma consulta simples. Exemplo:SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
Substitua PROJECT_ID pela ID do seu projeto.
Limpar
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
- Excluir o conjunto de dados do BigQuery que seu pipeline gravou neste guia de início rápido.
Opcional: exclua o projeto.
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
A seguir
- Siga um tutorial do Cloud Data Fusion.
- Saiba mais sobre os conceitos do Cloud Data Fusion.