Criar e executar um fluxo de trabalho SQL no Dataform

Este guia de início rápido explica o seguinte processo no Dataform para criar um fluxo de trabalho SQL e executá-lo no BigQuery:

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery and Dataform APIs.

    Enable the APIs

Funções exigidas

Para receber as permissões necessárias para realizar todas as tarefas neste tutorial, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

  • Administrador do Dataform (roles/dataform.admin): repositórios
  • Editor do Dataform (roles/dataform.editor): espaços de trabalho e invocações de fluxo de trabalho

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

criar um repositório do Dataform

  1. No Console do Google Cloud, acesse a página Dataform.

    Acessar o Dataform

  2. Clique em Criar repositório.

  3. Na página Criar repositório, faça o seguinte:

    1. No campo Código do repositório, insira quickstart-repository.

    2. Na lista Região, selecione europe-west4.

    3. Clique em Criar.

criar e inicializar um espaço de trabalho de desenvolvimento do Dataform

  1. No Console do Google Cloud, acesse a página Dataform.

    Acessar o Dataform

  2. Clique em quickstart-repository.

  3. Clique em Criar espaço de trabalho de desenvolvimento.

  4. Na janela Criar espaço de trabalho de desenvolvimento, faça o seguinte:

    1. No campo Código do espaço de trabalho, digite quickstart-workspace.

    2. Clique em Criar.

    A página do espaço de trabalho de desenvolvimento aparece.

  5. Clique em Inicializar espaço de trabalho.

Criar uma visualização

Nas seções a seguir, você define uma visualização que será usada posteriormente como fonte de dados para uma tabela.

criar um arquivo SQLX para definir uma visualização

  1. No painel Files, ao lado de definitions/, clique no menu More.

  2. Selecione Criar arquivo.

  3. No painel Criar novo arquivo, faça o seguinte:

    1. No campo Adicionar um caminho de arquivo, insira definitions/quickstart-source.sqlx.

    2. Selecione Criar arquivo.

Defina uma visualização

  1. No painel Files, abra a pasta de definições.

  2. Clique em definitions/quickstart-source.sqlx.

  3. No arquivo, digite este snippet de código:

    config {
     type: "view"
    }
    
    SELECT
     "apples" AS fruit,
     2 AS count
    UNION ALL
    SELECT
     "oranges" AS fruit,
     5 AS count
    UNION ALL
    SELECT
     "pears" AS fruit,
     1 AS count
    UNION ALL
    SELECT
     "bananas" AS fruit,
     0 AS count
    
  4. Clique em Formatar.

Criar uma tabela

Nas próximas seções, você vai definir o tipo de tabela em um arquivo SQLX e, em seguida, escreverá uma instrução SELECT para definir a estrutura da tabela no mesmo arquivo.

criar um arquivo SQLX para definição de tabela

  1. No painel Files, ao lado de definitions/, clique no menu More e selecione Create file.

  2. No campo Adicionar um caminho de arquivo, insira definitions/quickstart-table.sqlx.

  3. Selecione Criar arquivo.

Defina o tipo, a estrutura e as dependências da tabela

  1. No painel Files, abra o diretório definitions/.

  2. Selecione quickstart-table.sqlx e insira o tipo de tabela e a instrução SELECT:

    config {
     type: "table"
    }
    
    SELECT
     fruit,
     SUM(count) as count
    FROM ${ref("quickstart-source")}
    GROUP BY 1
    
  3. Clique em Formatar.

Depois de definir o tipo de tabela, o Dataform gera um erro de validação de consulta porque quickstart-source ainda não existe no BigQuery. Esse erro é resolvido quando você executa o fluxo de trabalho SQL mais adiante neste tutorial.

conceder acesso ao Dataform ao BigQuery

Para executar fluxos de trabalho no BigQuery, a conta de serviço do Dataform precisa ter os seguintes papéis:

Para conceder esses papéis, siga estas etapas:

  1. No console do Google Cloud, abra a página IAM.

    Acessar a página do IAM

  2. Clique em Adicionar.

  3. No campo Novos participantes, insira o ID da conta de serviço do Dataform.

  4. Na lista suspensa Selecionar um papel, escolha a opção Usuário de jobs do BigQuery.

  5. Clique em Adicionar outro papel e, na lista suspensa Selecionar um papel, selecione Editor de dados do BigQuery.

  6. Clique em Adicionar outro papel e, na lista suspensa Selecionar um papel, selecione Leitor de dados do BigQuery.

  7. Clique em Salvar.

Executar o fluxo de trabalho

  1. No Console do Google Cloud, acesse a página Dataform.

    Acessar o Dataform

  2. Na página quickstart-workspace, clique em Iniciar execução.

  3. Clique em Todas as ações.

  4. No painel Executar, clique em Iniciar execução.

    O Dataform usa as configurações de repositório padrão para criar o conteúdo do seu fluxo de trabalho em um conjunto de dados do BigQuery chamado dataform.

Acessar registros de execução no Dataform

  1. Na página quickstart-repository, clique em Registros de execução de fluxo de trabalho.

  2. Para conferir os detalhes, clique na última execução.

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

Excluir o conjunto de dados criado no BigQuery

Para evitar cobranças por recursos do BigQuery, exclua o conjunto de dados chamado dataform.

  1. No Console do Google Cloud, acesse a página BigQuery.

    Ir para o BigQuery

  2. No painel Explorer, expanda o projeto e selecione dataform.

  3. Clique no menu Ações e selecione Excluir.

  4. Na caixa de diálogo Excluir conjunto de dados, insira delete no campo e clique em Excluir.

Excluir o espaço de trabalho de desenvolvimento do Dataform

A criação de espaços de trabalho de desenvolvimento do Dataform não gera custos, mas, para excluir o espaço de trabalho de desenvolvimento, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Dataform.

    Acessar o Dataform

  2. Clique em quickstart-repository.

  3. Na guia Espaços de trabalho de desenvolvimento, clique no menu Mais ao lado de quickstart-workspace e selecione Excluir.

  4. Para confirmar, clique em Excluir.

Excluir o repositório do Dataform

A criação de repositórios do Dataform não gera custos, mas, para excluir o repositório, siga estas etapas:

  1. No Console do Google Cloud, acesse a página Dataform.

    Acessar o Dataform

  2. Em quickstart-repository, clique no menu Mais e selecione Excluir.

  3. Na janela Excluir repositório, insira o nome do repositório para confirmar a exclusão.

  4. Para confirmar, clique em Excluir.

A seguir