Crie e execute um fluxo de trabalho no Dataform
Este início rápido explica o seguinte processo no Dataform para criar um fluxo de trabalho e executá-lo no BigQuery:
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
Criar e gerir repositórios, espaços de trabalho e invocações de fluxo de trabalho:
Administrador do Dataform (
roles/dataform.admin
) -
Executar fluxos de trabalho no BigQuery:
-
Editor de dados do BigQuery (
roles/bigquery.dataEditor
) -
Utilizador de tarefas do BigQuery (
roles/bigquery.jobUser
)
-
Editor de dados do BigQuery (
Na Google Cloud consola, aceda à página Dataform.
Clique em
Criar repositório.Na página Criar repositório, faça o seguinte:
No campo ID do repositório, introduza
quickstart-repository
.Na lista Região, selecione
europe-west4
.Clique em Criar.
Na Google Cloud consola, aceda à página Dataform.
Clique em
quickstart-repository
.Clique em
Criar espaço de trabalho de desenvolvimento.Na janela Criar espaço de trabalho de desenvolvimento, faça o seguinte:
No campo ID do espaço de trabalho, introduza
quickstart-workspace
.Clique em Criar.
É apresentada a página do espaço de trabalho de desenvolvimento.
Clique em Inicializar espaço de trabalho.
No painel Ficheiros, junto a
definitions/
, clique no menu Mais.Clique em Criar ficheiro.
No painel Criar novo ficheiro, faça o seguinte:
No campo Adicionar um caminho de ficheiro, introduza
definitions/quickstart-source.sqlx
.Clique em Criar ficheiro.
No painel Ficheiros, expanda a pasta de definições.
Clique em
definitions/quickstart-source.sqlx
.No ficheiro, introduza o seguinte fragmento do código:
config { type: "view" } SELECT "apples" AS fruit, 2 AS count UNION ALL SELECT "oranges" AS fruit, 5 AS count UNION ALL SELECT "pears" AS fruit, 1 AS count UNION ALL SELECT "bananas" AS fruit, 0 AS count
Clique em Formatar.
No painel Ficheiros, junto a
definitions/
, clique no menu Mais e, de seguida, selecione Criar ficheiro.No campo Adicionar um caminho de ficheiro, introduza
definitions/quickstart-table.sqlx
.Clique em Criar ficheiro.
No painel Files (Ficheiros), expanda o diretório
definitions/
.Selecione
quickstart-table.sqlx
e, de seguida, introduza o seguinte tipo de tabela eSELECT
declaração:config { type: "table" } SELECT fruit, SUM(count) as count FROM ${ref("quickstart-source")} GROUP BY 1
Clique em Formatar.
Na Google Cloud consola, aceda à página Dataform.
Na página
quickstart-workspace
, clique em Iniciar execução.Clique em Todas as ações.
Clique em Iniciar execução.
Na caixa de diálogo que é aberta, clique em Permitir para conceder autorização ao BigQuery Pipelines para aceder à sua Conta Google.
O Dataform usa as predefinições do repositório para criar o conteúdo do seu fluxo de trabalho num conjunto de dados do BigQuery denominado
dataform
.Na página
quickstart-repository
, clique em Registos de execução do fluxo de trabalho.Para ver os detalhes da execução, clique na execução mais recente.
Na Google Cloud consola, aceda à página BigQuery.
No painel Explorador, expanda o projeto e selecione
dataform
.Clique no menu
Ações e, de seguida, selecione Eliminar.Na caixa de diálogo Eliminar conjunto de dados, introduza
delete
no campo e, de seguida, clique em Eliminar.Na Google Cloud consola, aceda à página Dataform.
Clique em
quickstart-repository
.No separador Espaços de trabalho de desenvolvimento, clique no menu Mais
junto ao espaço de trabalho que quer eliminar e, de seguida, selecione Eliminar.quickstart-workspace
Para confirmar, clique em Eliminar.
Na Google Cloud consola, aceda à página Dataform.
Em
quickstart-repository
, clique no menu Mais e, de seguida, selecione Eliminar.Na janela Eliminar repositório, introduza o nome do repositório para confirmar a eliminação.
Para confirmar, clique em Eliminar.
Para saber mais sobre o Dataform, consulte a vista geral do Dataform.
Para saber mais sobre as funcionalidades do Dataform, consulte o artigo Funcionalidades do Dataform.
Para saber mais sobre o Dataform core, consulte a vista geral do Dataform core.
Para saber como substituir as predefinições do Dataform do seu repositório, consulte o artigo Configure as definições do fluxo de trabalho do Dataform.
Para saber como gerir conjuntos de dados no BigQuery, consulte o artigo Gerir conjuntos de dados.
Para saber como gerir tabelas no BigQuery, consulte o artigo Gerir tabelas.
Funções necessárias
Para receber as autorizações de que precisa para criar e executar um fluxo de trabalho no Dataform, peça ao seu administrador que lhe conceda as seguintes funções da IAM no projeto que vai alojar o seu repositório do Dataform:
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.
Crie um repositório do Dataform
Crie e inicialize um espaço de trabalho de desenvolvimento do Dataform
Crie uma vista
Nas secções seguintes, define uma vista que vai usar mais tarde como origem de dados para uma tabela.
Crie um ficheiro SQLX para definir uma vista
Defina uma vista
Criar uma tabela
Nas secções seguintes, define o tipo de tabela num ficheiro SQLX e, em seguida, escreve uma declaração SELECT
para definir a estrutura da tabela no mesmo ficheiro.
Crie um ficheiro SQLX para a definição da tabela
Defina o tipo, a estrutura e as dependências da tabela
Depois de definir o tipo de tabela, o Dataform gera um erro de validação de consulta porque quickstart-source
ainda não existe no BigQuery. Este erro é resolvido quando executar o fluxo de trabalho mais tarde neste tutorial.
Execute o fluxo de trabalho no BigQuery
Veja registos de execução no Dataform
Limpar
Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.
Elimine o conjunto de dados criado no BigQuery
Para evitar incorrer em custos por recursos do BigQuery, elimine o conjunto de dados denominado dataform
.
Elimine o espaço de trabalho de desenvolvimento do Dataform
A criação do espaço de trabalho de desenvolvimento do Dataform não acarreta custos, mas para eliminar o espaço de trabalho de desenvolvimento, pode seguir estes passos:
Elimine o repositório do Dataform
A criação de um repositório do Dataform não incorre em custos, mas pode seguir estes passos para eliminar o repositório: