Declare uma origem de dados

Este documento mostra como declarar origens de dados do BigQuery com o Dataform core.

Pode declarar qualquer tipo de tabela do BigQuery como uma origem de dados no Dataform. A declaração de origens de dados do BigQuery externas ao Dataform permite-lhe tratar essas origens de dados como objetos do Dataform.

A declaração de origens de dados é opcional, mas pode ser útil quando quer fazer o seguinte:

  • Referencie ou resolva origens declaradas da mesma forma que qualquer outra tabela no Dataform.
  • Veja as origens declaradas no gráfico do Dataform visualizado.
  • Use o Dataform para gerir as descrições ao nível da tabela e da coluna de tabelas criadas externamente.
  • Acionar invocações de fluxo de trabalho que incluem todos os dependentes de uma origem de dados externa.

Pode declarar origens de dados através de ficheiros JavaScript ou SQLX. Num ficheiro JavaScript, pode declarar várias origens de dados por ficheiro. Num ficheiro SQLX, pode declarar uma origem de dados por ficheiro.

Antes de começar

Antes de declarar uma origem de dados, crie e inicialize um espaço de trabalho de desenvolvimento no seu repositório.

Funções necessárias

Para receber as autorizações de que precisa para declarar uma origem de dados, peça ao seu administrador que lhe conceda a função do IAM Editor do Dataform (roles/dataform.editor) nos espaços de trabalho. Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.

Crie um ficheiro JavaScript para várias declarações de origens de dados

Armazene ficheiros JavaScript para declarações de origens de dados no diretório definitions/. Para criar um novo ficheiro JavaScript no diretório definitions/, siga estes passos:

  1. Na Google Cloud consola, aceda à página Dataform.

    Aceda à página do formulário de dados

  2. Selecione um repositório.

  3. Selecione um espaço de trabalho de desenvolvimento.

  4. No painel Ficheiros, junto a definitions/, clique no menu Mais.

  5. Clique em Criar ficheiro.

  6. No painel Criar novo ficheiro, faça o seguinte:

    1. No campo Adicionar um caminho de ficheiro, após definitions/, introduza o nome do ficheiro seguido de .js. Por exemplo, definitions/declarations.js.

      Os nomes de ficheiros só podem incluir números, letras, hífenes e sublinhados.

    2. Clique em Criar ficheiro.

Adicione uma declaração a um ficheiro JavaScript

Pode declarar várias origens de dados por ficheiro JavaScript. Para adicionar uma nova declaração, siga estes passos:

  1. No espaço de trabalho de desenvolvimento, no painel Ficheiros, clique no ficheiro JavaScript para declarações de origens de dados.
  2. No ficheiro, para cada origem de dados, adicione o seguinte fragmento do código:

      declare({
        database: "DATABASE_PROJECT_ID",
        schema: "BIGQUERY_SCHEMA",
        name: "RELATION_NAME",
      });
    

    Substitua o seguinte:

    • DATABASE_PROJECT_ID: o ID do projeto que contém a origem de dados.
    • BIGQUERY_SCHEMA: o conjunto de dados do BigQuery no qual a origem de dados existe.
    • RELATION_NAME: o nome da tabela ou da vista que quer usar como origem de dados. Posteriormente, pode usar esse nome para fazer referência à origem de dados no Dataform.

Crie um ficheiro SQLX para a declaração da origem de dados

Armazene ficheiros SQLX para declarações de origens de dados no diretório definitions/. Para criar um novo ficheiro SQLX no diretório definitions/, siga estes passos:

  1. Na Google Cloud consola, aceda à página Dataform.

    Aceda à página do formulário de dados

  2. Selecione um repositório.

  3. Selecione um espaço de trabalho de desenvolvimento.

  4. No painel Ficheiros, junto a definitions/, clique no menu Mais.

  5. Clique em Criar ficheiro.

  6. No painel Criar novo ficheiro, faça o seguinte:

    1. No campo Adicionar um caminho de ficheiro, após definitions/, introduza o nome do ficheiro seguido de .sqlx. Por exemplo, definitions/dataset-declaration.sqlx.

      Os nomes de ficheiros só podem incluir números, letras, hífenes e sublinhados.

    2. Clique em Criar ficheiro.

Declare uma origem de dados

Pode declarar uma origem de dados por ficheiro de declaração SQLX. Para declarar uma origem de dados no bloco de configuração de um ficheiro SQLX, siga estes passos:

  1. No espaço de trabalho de desenvolvimento, no painel Ficheiros, clique no ficheiro SQLX para a declaração da origem de dados.
  2. No ficheiro, introduza o seguinte fragmento do código:

    config {
      type: "declaration",
      database: "DATABASE",
      schema: "SCHEMA",
      name: "NAME",
    }
    

    Substitua o seguinte:

    • DATABASE: o ID do projeto que contém a origem de dados.
    • SCHEMA: o conjunto de dados do BigQuery no qual a origem de dados existe.
    • NAME: o nome da tabela ou da vista que quer usar como origem de dados. Posteriormente, pode usar esse nome para fazer referência à origem de dados no Dataform.
  3. Opcional: clique em Formatar.

O seguinte exemplo de código mostra uma declaração de amostra da tabela shakespeare no conjunto de dados samples do projeto como uma origem de dados:bigquery-public-data

    config {
      type: "declaration",
      database: "bigquery-public-data",
      schema: "samples",
      name: "shakespeare",
    }

O que se segue?