Criar e executar um fluxo de trabalho SQL no Dataform
Neste guia de início rápido, mostramos o seguinte processo no Dataform para criar um fluxo de trabalho SQL e executá-lo no BigQuery:
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs BigQuery and Dataform.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative as APIs BigQuery and Dataform.
Funções exigidas
Para receber as permissões necessárias para executar todas as tarefas neste tutorial, peça ao administrador para conceder a você os seguintes papéis do IAM:
-
Administrador do Dataform (
roles/dataform.admin
) em repositórios -
Editor do Dataform (
roles/dataform.editor
) em espaços de trabalho e invocações de fluxo de trabalho
Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Criar um repositório do Dataform
No console do Google Cloud, acesse a página do Dataform.
Clique em
Criar repositório.Na página Criar repositório, faça o seguinte:
No campo Código do repositório, insira
quickstart-repository
.Na lista Região, selecione
europe-west4
.Clique em Criar.
Criar e inicializar um espaço de trabalho de desenvolvimento do Dataform
No console do Google Cloud, acesse a página do Dataform.
Clique em
quickstart-repository
.Clique em
Criar espaço de trabalho de desenvolvimento.Na janela Criar espaço de trabalho de desenvolvimento, faça o seguinte:
No campo Código do espaço de trabalho, digite
quickstart-workspace
.Clique em Criar.
A página do espaço de trabalho de desenvolvimento é exibida.
Clique em Inicializar espaço de trabalho.
Criar uma visualização
Nas seções a seguir, defina uma visualização que será usada posteriormente como fonte de dados para uma tabela.
Criar um arquivo SQLX para definir uma visualização
No painel Files, ao lado de
definitions/
, clique no menu More.Clique em Criar arquivo.
No painel Criar novo arquivo, faça o seguinte:
No campo Adicionar um caminho de arquivo, insira
definitions/quickstart-source.sqlx
.Clique em Criar arquivo.
Definir uma visualização
No painel Arquivos, expanda a pasta de definições.
Clique em
definitions/quickstart-source.sqlx
.No arquivo, digite o seguinte snippet de código:
config { type: "view" } SELECT "apples" AS fruit, 2 AS count UNION ALL SELECT "oranges" AS fruit, 5 AS count UNION ALL SELECT "pears" AS fruit, 1 AS count UNION ALL SELECT "bananas" AS fruit, 0 AS count
Clique em Formatar.
Criar uma tabela
Nas seções a seguir, defina o tipo de tabela em um arquivo SQLX e, em seguida,
escreva uma instrução SELECT
para definir a estrutura da tabela no mesmo arquivo.
Criar um arquivo SQLX para definição de tabela
No painel Arquivos, ao lado de
definitions/
, clique no menu Mais e selecione Criar arquivo.No campo Adicionar um caminho de arquivo, insira
definitions/quickstart-table.sqlx
.Clique em Criar arquivo.
Definir o tipo, a estrutura e as dependências da tabela
No painel Arquivos, expanda o diretório
definitions/
.Selecione
quickstart-table.sqlx
e insira o seguinte tipo de tabela e instruçãoSELECT
:config { type: "table" } SELECT fruit, SUM(count) as count FROM ${ref("quickstart-source")} GROUP BY 1
Clique em Formatar.
Depois de definir o tipo de tabela, o Dataform gera um erro de validação de consulta porque quickstart-source
ainda não existe no BigQuery. Esse erro
é resolvido quando você executar o fluxo de trabalho SQL posteriormente neste tutorial.
Conceder acesso ao Dataform ao BigQuery
Para executar fluxos de trabalho no BigQuery, a conta de serviço do Dataform precisa ter os seguintes papéis necessários:
- Editor de dados do BigQuery em projetos em que o Dataform precisa de acesso de leitura e gravação. Eles geralmente incluem o projeto que hospeda o repositório do Dataform.
- Leitor de dados do BigQuery em projetos em que o Dataform precisa de acesso somente leitura.
- Usuário de jobs do BigQuery no projeto que hospeda o repositório do Dataform.
Para conceder esses papéis, siga estas etapas:
No console do Google Cloud, abra a página IAM.
Clique em Adicionar.
No campo Novos principais, insira o ID da conta de serviço do Dataform.
Na lista suspensa Selecionar um papel, escolha o papel Usuário de jobs do BigQuery.
Clique em Adicionar outro papel e, na lista suspensa Selecionar um papel, selecione o papel Editor de dados do BigQuery.
Clique em Adicionar outro papel e, na lista suspensa Selecionar um papel, selecione o papel Leitor de dados do BigQuery.
Clique em Save.
Executar o fluxo de trabalho
No console do Google Cloud, acesse a página do Dataform.
Na página
quickstart-workspace
, clique em Iniciar execução.Clique em Todas as ações.
No painel Execute, clique em Iniciar execução.
O Dataform usa as configurações de repositório padrão para criar o conteúdo do seu fluxo de trabalho em um conjunto de dados do BigQuery chamado
dataform
.
Acessar registros de execução no Dataform
Na página
quickstart-repository
, clique em Registros de execução de fluxo de trabalho.Para acessar os detalhes da execução, clique na última execução.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
Excluir o conjunto de dados criado no BigQuery
Para evitar cobranças por recursos do BigQuery, exclua o conjunto de dados chamado dataform
.
No Console do Google Cloud, acesse a página BigQuery.
No painel Explorer, expanda o projeto e selecione
dataform
.Clique no menu
Ações e selecione Excluir.Na caixa de diálogo Excluir conjunto de dados, digite
delete
no campo e clique em Excluir.
Excluir o espaço de trabalho de desenvolvimento do Dataform
A criação do espaço de trabalho de desenvolvimento do Dataform não gera custos. Para excluir o espaço de trabalho de desenvolvimento, siga estas etapas:
No console do Google Cloud, acesse a página do Dataform.
Clique em
quickstart-repository
.Na guia Espaços de trabalho de desenvolvimento, clique no menu Mais
ao lado dequickstart-workspace
e, em seguida, selecione Excluir.Para confirmar, clique em Excluir.
Excluir o repositório do Dataform
A criação de repositórios do Dataform não gera custos. Para excluir o repositório, siga estas etapas:
No console do Google Cloud, acesse a página do Dataform.
Ao
quickstart-repository
, clique no menu Mais e selecione Excluir.Na janela Excluir repositório, insira o nome do repositório para confirmar a exclusão.
Para confirmar, clique em Excluir.
A seguir
Para saber mais sobre o Dataform, consulte a Visão geral do Dataform.
Para saber mais sobre os recursos do Dataform, consulte Visão geral dos recursos do Dataform.
Para saber mais sobre o Dataform Core, consulte Visão geral do Dataform Core.
Para saber como substituir as configurações padrão do Dataform do seu repositório, consulte Definir configurações do Dataform.
Para saber mais sobre como gerenciar conjuntos de dados no BigQuery, consulte Como gerenciar conjuntos de dados.
Para saber como gerenciar tabelas no BigQuery, consulte Gerenciar tabelas.