Crie e execute um fluxo de trabalho no Dataform

Este início rápido explica o seguinte processo no Dataform para criar um fluxo de trabalho e executá-lo no BigQuery:

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery and Dataform APIs.

    Enable the APIs

  8. Funções necessárias

    Para receber as autorizações de que precisa para criar e executar um fluxo de trabalho no Dataform, peça ao seu administrador que lhe conceda as seguintes funções da IAM no projeto que vai alojar o seu repositório do Dataform:

    Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

    Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.

    Crie um repositório do Dataform

    1. Na Google Cloud consola, aceda à página Dataform.

      Aceder ao Dataform

    2. Clique em Criar repositório.

    3. Na página Criar repositório, faça o seguinte:

      1. No campo ID do repositório, introduza quickstart-repository.

      2. Na lista Região, selecione europe-west4.

      3. Clique em Criar.

    Crie e inicialize um espaço de trabalho de desenvolvimento do Dataform

    1. Na Google Cloud consola, aceda à página Dataform.

      Aceder ao Dataform

    2. Clique em quickstart-repository.

    3. Clique em Criar espaço de trabalho de desenvolvimento.

    4. Na janela Criar espaço de trabalho de desenvolvimento, faça o seguinte:

      1. No campo ID do espaço de trabalho, introduza quickstart-workspace.

      2. Clique em Criar.

      É apresentada a página do espaço de trabalho de desenvolvimento.

    5. Clique em Inicializar espaço de trabalho.

    Crie uma vista

    Nas secções seguintes, define uma vista que vai usar mais tarde como origem de dados para uma tabela.

    Crie um ficheiro SQLX para definir uma vista

    1. No painel Ficheiros, junto a definitions/, clique no menu Mais.

    2. Clique em Criar ficheiro.

    3. No painel Criar novo ficheiro, faça o seguinte:

      1. No campo Adicionar um caminho de ficheiro, introduza definitions/quickstart-source.sqlx.

      2. Clique em Criar ficheiro.

    Defina uma vista

    1. No painel Ficheiros, expanda a pasta de definições.

    2. Clique em definitions/quickstart-source.sqlx.

    3. No ficheiro, introduza o seguinte fragmento do código:

      config {
       type: "view"
      }
      
      SELECT
       "apples" AS fruit,
       2 AS count
      UNION ALL
      SELECT
       "oranges" AS fruit,
       5 AS count
      UNION ALL
      SELECT
       "pears" AS fruit,
       1 AS count
      UNION ALL
      SELECT
       "bananas" AS fruit,
       0 AS count
      
    4. Clique em Formatar.

    Criar uma tabela

    Nas secções seguintes, define o tipo de tabela num ficheiro SQLX e, em seguida, escreve uma declaração SELECT para definir a estrutura da tabela no mesmo ficheiro.

    Crie um ficheiro SQLX para a definição da tabela

    1. No painel Ficheiros, junto a definitions/, clique no menu Mais e, de seguida, selecione Criar ficheiro.

    2. No campo Adicionar um caminho de ficheiro, introduza definitions/quickstart-table.sqlx.

    3. Clique em Criar ficheiro.

    Defina o tipo, a estrutura e as dependências da tabela

    1. No painel Files (Ficheiros), expanda o diretório definitions/.

    2. Selecione quickstart-table.sqlx e, de seguida, introduza o seguinte tipo de tabela e SELECT declaração:

      config {
       type: "table"
      }
      
      SELECT
       fruit,
       SUM(count) as count
      FROM ${ref("quickstart-source")}
      GROUP BY 1
      
    3. Clique em Formatar.

    Depois de definir o tipo de tabela, o Dataform gera um erro de validação de consulta porque quickstart-source ainda não existe no BigQuery. Este erro é resolvido quando executar o fluxo de trabalho mais tarde neste tutorial.

    Execute o fluxo de trabalho no BigQuery

    1. Na Google Cloud consola, aceda à página Dataform.

      Aceder ao Dataform

    2. Na página quickstart-workspace, clique em Iniciar execução.

    3. Clique em Todas as ações.

    4. Clique em Iniciar execução.

    5. Na caixa de diálogo que é aberta, clique em Permitir para conceder autorização ao BigQuery Pipelines para aceder à sua Conta Google.

      O Dataform usa as predefinições do repositório para criar o conteúdo do seu fluxo de trabalho num conjunto de dados do BigQuery denominado dataform.

    Veja registos de execução no Dataform

    1. Na página quickstart-repository, clique em Registos de execução do fluxo de trabalho.

    2. Para ver os detalhes da execução, clique na execução mais recente.

    Limpar

    Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.

    Elimine o conjunto de dados criado no BigQuery

    Para evitar incorrer em custos por recursos do BigQuery, elimine o conjunto de dados denominado dataform.

    1. Na Google Cloud consola, aceda à página BigQuery.

      Aceda ao BigQuery

    2. No painel Explorador, expanda o projeto e selecione dataform.

    3. Clique no menu Ações e, de seguida, selecione Eliminar.

    4. Na caixa de diálogo Eliminar conjunto de dados, introduza delete no campo e, de seguida, clique em Eliminar.

    Elimine o espaço de trabalho de desenvolvimento do Dataform

    A criação do espaço de trabalho de desenvolvimento do Dataform não acarreta custos, mas para eliminar o espaço de trabalho de desenvolvimento, pode seguir estes passos:

    1. Na Google Cloud consola, aceda à página Dataform.

      Aceder ao Dataform

    2. Clique em quickstart-repository.

    3. No separador Espaços de trabalho de desenvolvimento, clique no menu Mais junto ao espaço de trabalho que quer eliminar e, de seguida, selecione Eliminar.quickstart-workspace

    4. Para confirmar, clique em Eliminar.

    Elimine o repositório do Dataform

    A criação de um repositório do Dataform não incorre em custos, mas pode seguir estes passos para eliminar o repositório:

    1. Na Google Cloud consola, aceda à página Dataform.

      Aceder ao Dataform

    2. Em quickstart-repository, clique no menu Mais e, de seguida, selecione Eliminar.

    3. Na janela Eliminar repositório, introduza o nome do repositório para confirmar a eliminação.

    4. Para confirmar, clique em Eliminar.

    O que se segue?