Criar e executar um fluxo de trabalho SQL no Dataform

Neste guia de início rápido, explicamos o seguinte processo no Dataform para criar um fluxo de trabalho SQL e executá-lo no BigQuery:

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. Ative as APIs BigQuery and Dataform.

    Ative as APIs

  5. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  6. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  7. Ative as APIs BigQuery and Dataform.

    Ative as APIs

Funções exigidas

Para ter as permissões necessárias para executar todas as tarefas neste tutorial, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

  • Administrador do Dataform (roles/dataform.admin): repositórios
  • Editor do Dataform (roles/dataform.editor): espaços de trabalho e invocações de fluxo de trabalho

Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Também é possível conseguir as permissões necessárias com papéis personalizados ou outros papéis predefinidos.

Criar um repositório do Dataform

  1. No Console do Google Cloud, acesse a página Dataform.

    Acessar o Dataform

  2. Clique em Criar repositório.

  3. Na página Criar repositório, faça o seguinte:

    1. No campo Código do repositório, insira quickstart-repository.

    2. Na lista Região, selecione europe-west4.

    3. Clique em Criar.

Criar e inicializar um espaço de trabalho de desenvolvimento do Dataform

  1. No Console do Google Cloud, acesse a página Dataform.

    Acessar o Dataform

  2. Clique em quickstart-repository.

  3. Clique em Criar desenvolvimento. Workspace.

  4. Na janela Criar espaço de trabalho de desenvolvimento, faça o seguinte:

    1. No campo Código do espaço de trabalho, digite quickstart-workspace.

    2. Clique em Criar.

    A página do espaço de trabalho de desenvolvimento é exibida.

  5. Clique em Inicializar espaço de trabalho.

.

Criar uma visualização

Nas seções a seguir, você vai definir uma visualização que será usada posteriormente como um repositório fonte para uma tabela.

Criar um arquivo SQLX para definir uma visualização

  1. No painel Arquivos, ao lado de definitions/, clique no Menu Mais.

  2. Clique em Criar arquivo.

  3. No painel Criar novo arquivo, faça o seguinte:

    1. No campo Adicionar um caminho de arquivo, insira definitions/quickstart-source.sqlx.

    2. Clique em Criar arquivo.

Definir uma visualização

  1. No painel Arquivos, expanda a pasta de definições.

  2. Clique em definitions/quickstart-source.sqlx.

  3. No arquivo, digite o seguinte snippet de código:

    config {
     type: "view"
    }
    
    SELECT
     "apples" AS fruit,
     2 AS count
    UNION ALL
    SELECT
     "oranges" AS fruit,
     5 AS count
    UNION ALL
    SELECT
     "pears" AS fruit,
     1 AS count
    UNION ALL
    SELECT
     "bananas" AS fruit,
     0 AS count
    
  4. Clique em Formatar.

Criar uma tabela

Nas seções a seguir, você vai definir o tipo de tabela em um arquivo SQLX e depois Escreva uma instrução SELECT para definir a estrutura da tabela no mesmo arquivo.

Criar um arquivo SQLX para definição de tabela

  1. No painel Arquivos, ao lado de definitions/, clique no no menu Mais e selecione Criar arquivo.

  2. No campo Adicionar um caminho de arquivo, insira definitions/quickstart-table.sqlx.

  3. Clique em Criar arquivo.

Definir o tipo, a estrutura e as dependências da tabela

  1. No painel Arquivos, expanda o diretório definitions/.

  2. Selecione quickstart-table.sqlx, insira o seguinte tipo de tabela e Instrução SELECT:

    config {
     type: "table"
    }
    
    SELECT
     fruit,
     SUM(count) as count
    FROM ${ref("quickstart-source")}
    GROUP BY 1
    
  3. Clique em Formatar.

Depois de definir o tipo de tabela, o Dataform gera um erro de validação de consulta porque quickstart-source ainda não existe no BigQuery. Isso é resolvido quando você executa o fluxo de trabalho SQL posteriormente neste tutorial.

Conceder acesso ao Dataform ao BigQuery

Para executar fluxos de trabalho no BigQuery, o Dataform a conta de serviço precisa ter os seguintes papéis obrigatórios:

Para conceder esses papéis, siga estas etapas:

  1. No console do Google Cloud, abra a página IAM.

    Acessar a página do IAM

  2. Clique em Adicionar.

  3. No campo Novos principais, insira seu serviço do Dataform ID da conta de serviço.

  4. Na lista suspensa Selecionar papel, selecione o papel Usuário de jobs do BigQuery.

  5. Clique em Adicionar outro papel e, em seguida, no menu suspenso Selecionar um papel selecione o papel Editor de dados do BigQuery.

  6. Clique em Adicionar outro papel e, em seguida, no menu suspenso Selecionar um papel selecione o papel Leitor de dados do BigQuery.

  7. Clique em Salvar.

Executar o fluxo de trabalho

  1. No Console do Google Cloud, acesse a página Dataform.

    Acessar o Dataform

  2. Na página quickstart-workspace, clique em Iniciar execução.

  3. Clique em Todas as ações.

  4. No painel Executar, clique em Iniciar execução.

    O Dataform usa as configurações padrão do repositório para criar conteúdo do fluxo de trabalho em um conjunto de dados do BigQuery chamado dataform:

Acessar registros de execução no Dataform

  1. Na página quickstart-repository, clique em Registros de execução de fluxo de trabalho.

  2. Para acessar os detalhes da execução, clique na última execução.

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

Excluir o conjunto de dados criado no BigQuery

Para evitar cobranças de recursos do BigQuery, exclua a conjunto de dados chamado dataform.

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e selecione dataform.

  3. Clique no menu Ações e selecione Excluir.

  4. Na caixa de diálogo Excluir conjunto de dados, insira delete no campo e depois Clique em Excluir.

Excluir o espaço de trabalho de desenvolvimento do Dataform

A criação do espaço de trabalho de desenvolvimento do Dataform não gera custos, apenas excluir espaço de trabalho de desenvolvimento, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Dataform.

    Acessar o Dataform

  2. Clique em quickstart-repository.

  3. Na guia Espaços de trabalho de desenvolvimento, clique em Menu Mais por quickstart-workspace e selecione Excluir.

  4. Para confirmar, clique em Excluir.

Excluir o repositório do Dataform

A criação do repositório do Dataform não tem custos, mas é preciso excluir o repositório, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Dataform.

    Acessar o Dataform

  2. Até quickstart-repository, clique no menu Mais do . e selecione Excluir.

  3. Na janela Excluir repositório, insira o nome do repositório para confirmar a exclusão.

  4. Para confirmar, clique em Excluir.

A seguir