BigQuery

Com o conector do BigQuery, você pode realizar operações de inserção, exclusão, atualização e leitura nos dados do Google BigQuery.

Antes de começar

Antes de usar o conector do BigQuery, faça o seguinte:

  • No seu projeto do Google Cloud, faça o seguinte:
    • Conceder o papel do IAM roles/connectors.admin ao usuário e configurar o conector.
    • Conceda os seguintes papéis de IAM à conta de serviço que você quer usar para o conector:
      • roles/bigquery.dataEditor

      Uma conta de serviço é um tipo especial de Conta do Google destinada a representar um usuário não humano que precisa ser autenticado e autorizado a acessar dados nas APIs do Google. Se você não tiver uma conta de serviço, será necessário criar uma. Para mais informações, consulte Como criar uma conta de serviço.

    • Ative os seguintes serviços:
      • secretmanager.googleapis.com (API Secret Manager)
      • connectors.googleapis.com (API Connectors)

      Para entender como ativar os serviços, consulte Como ativar serviços.

    Se esses serviços ou permissões não tiverem sido ativados no seu projeto, você precisará ativá-los ao configurar o conector.

Configurar o conector

Para configurar o conector, crie uma conexão com a fonte de dados (sistema de back-end). Uma conexão é específica a uma fonte de dados. Isso significa que, se você tiver muitas fontes de dados, precisará criar uma conexão separada para cada uma. Para criar uma conexão, siga estas etapas:

  1. No console do Cloud, acesse a página Integration Connectors > Conexões e selecione ou crie um projeto do Google Cloud.

    Acessar a página "Conexões"

  2. Clique em + CRIAR NOVO para abrir a página Criar conexão.
  3. Na seção Local, escolha o local da conexão.
    1. Região: selecione um local na lista suspensa.

      Para conferir a lista de todas as regiões com suporte, consulte Locais.

    2. Clique em PRÓXIMA.
  4. Na seção Detalhes da conexão, faça o seguinte:
    1. Conector: selecione BigQuery na lista suspensa de conectores disponíveis.
    2. Versão do conector: selecione a versão do conector na lista suspensa de versões disponíveis.
    3. No campo Nome da conexão, insira um nome para a instância de conexão

      Os nomes de conexão precisam atender aos seguintes critérios:

      • Os nomes de conexões podem usar letras, números ou hifens.
      • As letras precisam ser minúsculas.
      • Os nomes das conexões precisam começar com uma letra e terminar com uma letra ou um número.
      • Os nomes das conexões não podem ter mais de 49 caracteres.
    4. Como opção, insira uma Descrição para a instância de conexão.
    5. Como opção, ative o Cloud Logging e selecione um nível de registro. Por padrão, o nível de registro é definido como Error.
    6. Conta de serviço: selecione uma conta de serviço que tenha os papéis necessários.
    7. Opcionalmente, defina as Configurações do nó de conexão:

      • Número mínimo de nós: digite o número mínimo de nós de conexão.
      • Número máximo de nós: digite o número máximo de nós de conexão.

      Um nó é uma unidade (ou réplica) de uma conexão que processa transações. Mais nós são necessários para processar mais transações para uma conexão e, por outro lado, menos nós são necessários para processar menos transações. Para entender como os nós afetam os preços do conector, consulte Preços dos nós de conexão. Se você não inserir qualquer valor, por padrão, os nós mínimos serão definidos como 2 (para melhor disponibilidade) e os nós máximos serão definidos como 50.

    8. ID do projeto: insira o ID do projeto do Google Cloud em que os dados estão armazenados.
    9. ID do conjunto de dados: insira o ID do conjunto de dados do BigQuery.
    10. Usar proxy: marque esta caixa de seleção para configurar um servidor proxy para a conexão e defina os seguintes valores:
      • Esquema de autenticação de proxy: selecione o tipo de autenticação para autenticar com o servidor proxy. Há compatibilidade com os seguintes tipos de autenticação:
        • Básico: autenticação HTTP básica.
        • Resumo: autenticação HTTP de resumo.
      • Usuário proxy: um nome de usuário a ser usado para autenticar com o servidor proxy.
      • Senha de proxy: a chave secreta do Secret Manager da senha do usuário.
      • Tipo de SSL de proxy: o tipo de SSL a ser usado para se conectar ao servidor proxy. Há compatibilidade com os seguintes tipos de autenticação:
        • Automático: configuração padrão. Se o URL for HTTPS, a opção Túnel será usada. Se o URL for HTTP, a opção NUNCA será usada.
        • Sempre: a conexão será sempre com SSL ativado.
        • Nunca: a conexão não está com SSL ativado.
        • Túnel: a conexão é feita por um proxy de encapsulamento. O servidor proxy abre uma conexão com o host remoto e o tráfego flui de ida e volta pelo proxy.
      • Na seção Servidor proxy, insira os detalhes do servidor proxy.
        1. Clique em + Adicionar destino.
        2. Selecione um Tipo de destino.
          • Endereço do host: especifique o nome do host ou o endereço IP do destino.

            Se quiser estabelecer uma conexão privada com seu sistema de back-end, faça o seguinte:

    11. Outra opção é clicar em + ADICIONAR MARCADOR para adicionar um rótulo à conexão na forma de um par de chave-valor.
    12. Clique em PRÓXIMA.
  5. Na seção Autenticação, insira os detalhes da autenticação.
    1. Selecione se você quer autenticar com o OAuth 2.0: código de autorização ou continuar sem autenticação.

      Para entender como configurar a autenticação, consulte Configurar a autenticação.

    2. Clique em PRÓXIMA.
  6. Revisão: revise os detalhes de conexão e autenticação.
  7. Clique em Criar.

Configurar a autenticação

Digite os detalhes com base na autenticação que você quer usar.

  • Sem autenticação: selecione essa opção se você não precisar de autenticação.
  • OAuth 2.0 - Código de autorização: selecione esta opção para autenticar usando um fluxo de login de usuário baseado na Web. Especifique os seguintes detalhes:
    • ID do cliente: o ID do cliente necessário para se conectar ao serviço de back-end do Google.
    • Escopos: uma lista separada por vírgulas dos escopos desejados. Para conferir todos os escopos do OAuth 2.0 compatíveis com o serviço do Google necessário, consulte a seção relevante na página Escopos do OAuth 2.0 para APIs do Google.
    • Chave secreta do cliente: selecione a chave Gerenciador de secrets. É preciso criar o secret do Secret Manager antes de configurar a autorização.
    • Versão do secret: a versão do secret do cliente no Secret Manager.

    Para o tipo de autenticação Authorization code, depois de criar a conexão, você precisa realizar mais algumas etapas para configurar a autenticação. Para mais informações, consulte Etapas adicionais após a criação da conexão.

Etapas adicionais após a criação da conexão

Se você selecionou OAuth 2.0 - Authorization code para siga estas etapas extras depois de criar a conexão:

  1. Na página "Conexões", localize a conexão recém-criada.

    O Status do novo conector será Autorização necessária.

  2. Clique em Autorização necessária.

    O painel Editar autorização é mostrado.

  3. Copie o valor do URI de redirecionamento para seu aplicativo externo.
  4. Verifique os detalhes da autorização.
  5. Clique em Autorizar.

    Se a autorização for bem-sucedida, o status da conexão será definido como Ativo no Página "Conexões".

Reautorização do código de autorização

Se você estiver usando o tipo de autenticação Authorization code e tiver feito alterações na configuração do BigQuery, faça o seguinte: reautorize sua conexão com o BigQuery. Para autorizar novamente uma conexão, siga estas etapas:

  1. Clique na conexão necessária na página "Conexões".

    Isso abre a página de detalhes da conexão.

  2. Clique em Editar para editar os detalhes da conexão.
  3. Verifique os detalhes de OAuth 2.0: código de autorização na seção Autenticação.

    Se necessário, faça as mudanças necessárias.

  4. Clique em Salvar. Isso leva você à página de detalhes da conexão.
  5. Clique em Edit authorization na seção Authentication. Isso mostra o painel Autorizar.
  6. Clique em Autorizar.

    Se a autorização for bem-sucedida, o status da conexão será definido como Ativo na página Conexões.

Entidades, operações e ações

Todos os Integration Connectors fornecem uma camada de abstração para os objetos do aplicativo conectado. Só é possível acessar os objetos de um aplicativo por esta abstração. A abstração é exposta a você como entidades, operações e ações.

  • Entidade: uma entidade pode ser considerada um objeto ou um conjunto de propriedades no aplicativo ou serviço conectado. A definição de uma entidade difere de um conector para outro. Por exemplo, em um conector de banco de dados, as tabelas são as entidades, em um conector de servidor de arquivos, as pastas são as entidades e, em um conector de sistema de mensagens, as filas são as entidades.

    No entanto, é possível que um conector não aceite ou não tenha entidades. Nesse caso, a lista Entities estará vazia.

  • Operação: uma operação é a atividade que pode ser realizada em uma entidade. É possível executar qualquer uma das seguintes operações em uma entidade:

    Selecionar uma entidade na lista disponível gera uma lista de operações disponíveis para ela. Para uma descrição detalhada das operações, consulte as operações de entidades da tarefa "Conectores". No entanto, se um conector não oferecer suporte a nenhuma das operações de entidade, essas operações sem suporte não serão listadas na lista Operations.

  • Ação: uma ação é uma função de primeira classe disponibilizada para a integração por meio da interface do conector. Uma ação permite fazer alterações em uma ou mais entidades e varia de um conector para outro. Normalmente, uma ação tem alguns parâmetros de entrada e um de saída. No entanto, é possível que o conector não ofereça suporte a nenhuma ação. Nesse caso, a lista Actions estará vazia.

Limitações do sistema

O conector do BigQuery processa no máximo oito transações por segundo, por throttles qualquer transações além desse limite. Por padrão, o Integration Connectors aloca dois nós para melhor disponibilidade para uma conexão.

Para informações sobre os limites aplicáveis aos Integration Connectors, consulte Limites.

Tipos de dados compatíveis

Veja a seguir os tipos de dados compatíveis com este conector:

  • BIGINT
  • Binário
  • BIT
  • BOOLEAN
  • CHAR
  • DATE
  • DECIMAL
  • DOUBLE
  • FLOAT
  • INTEGER
  • LONGN VARCHAR
  • VARCHAR LONGO
  • NCHAR
  • NUMERIC
  • NVARCHAR
  • REAL
  • INT PEQUENO
  • TIME
  • TIMESTAMP
  • INT pequeno
  • VARBINARY
  • VARCHAR

Problemas conhecidos

O conector do BigQuery não aceita a chave primária de uma tabela do BigQuery. Isso significa que você não pode executar as operações de entidade Get, Update e Delete usando um entityId. Como alternativa, use a cláusula de filtro para filtrar registros com base em um ID.

Ações

Nesta seção, descrevemos as ações disponíveis no conector do BigQuery.

Ação CancelJob

Com essa ação, você pode cancelar um job em execução do BigQuery.

A tabela a seguir descreve os parâmetros de entrada da ação CancelJob.

Nome do parâmetro Tipo de dados Descrição
JobId String O ID do job que você quer cancelar. Este campo é obrigatório.
Região String A região onde o job está sendo executado no momento. Isso não é necessário se o trabalho for uma região dos EUA ou da UE.

Ação GetJob

Essa ação permite recuperar as informações de configuração e o estado de execução de um job atual.

A tabela a seguir descreve os parâmetros de entrada da ação GetJob.

Nome do parâmetro Tipo de dados Descrição
JobId String O ID do job para o qual você quer recuperar a configuração. Este campo é obrigatório.
Região String A região em que o job está sendo executado. Isso não será necessário se o job for uma região dos EUA ou da UE.

Ação InsertJob

Essa ação permite inserir um job do BigQuery, que pode ser selecionado mais tarde para recuperar os resultados da consulta.

A tabela a seguir descreve os parâmetros de entrada da ação InsertJob.

Nome do parâmetro Tipo de dados Descrição
Consulta String A consulta a ser enviada ao BigQuery. Este campo é obrigatório.
IsDML String Precisa ser definido como true se a consulta for uma instrução DML ou false caso contrário. O valor padrão é false.
DestinationTable String A tabela de destino da consulta, no formato DestProjectId:DestDatasetId.DestTable.
WriteDisposition String Especifica como gravar dados na tabela de destino. como truncar resultados existentes, anexar resultados existentes ou gravar somente quando a tabela estiver vazia. Confira a seguir valores:
  • WRITE_TRUNCATE
  • WRITE_APPEND
  • WRITE_EMPTY
O valor padrão é WRITE_TRUNCATE.
DryRun String Especifica se a execução do job é um teste.
MaximumBytesBilled String Especifica o máximo de bytes que podem ser processados pelo job. O BigQuery cancela a job se ele tentar processar mais bytes do que o valor especificado.
Região String Especifica a região em que o job precisa ser executado.

Ação InsertLoadJob

Essa ação permite inserir um job de carregamento do BigQuery, que adiciona dados do Google Cloud Storage a uma tabela.

A tabela a seguir descreve os parâmetros de entrada da ação InsertLoadJob.

Nome do parâmetro Tipo de dados Descrição
SourceURIs String Uma lista separada por espaços de URIs do Google Cloud Storage.
SourceFormat String O formato de origem dos arquivos. Veja a seguir os valores compatíveis:
  • AVRO
  • NEWLINE_DELIMITED_JSON
  • DATASTORE_BACKUP
  • PARQUET
  • ORC
  • CSV
DestinationTable String A tabela de destino da consulta no formato DestProjectId.DestDatasetId.DestTable.
DestinationTableProperties String Um objeto JSON que especifica o nome, a descrição e a lista de rótulos da tabela.
DestinationTableSchema String Uma lista JSON que especifica os campos usados para criar a tabela.
DestinationEncryptionConfiguration String Um objeto JSON que especifica as configurações de criptografia do KMS para a tabela.
SchemaUpdateOptions String Uma lista JSON que especifica as opções a serem aplicadas ao atualizar o esquema da tabela de destino.
TimePartitioning String Um objeto JSON que especifica o tipo e o campo de particionamento de tempo.
RangePartitioning String Um objeto JSON que especifica o campo e os buckets de particionamento de intervalo.
Clustering String Um objeto JSON que especifica os campos a serem usados para clustering.
Detectar automaticamente String Especifica se as opções e o esquema precisam ser determinados automaticamente para arquivos JSON e CSV.
CreateDisposition String Especifica se a tabela de destino precisa ser criada, caso ainda não exista. Confira a seguir os valores aceitos:
  • CREATE_IF_NEEDED
  • CREATE_NEVER
O valor padrão é CREATE_IF_NEEDED.
WriteDisposition String Especifica como gravar dados na tabela de destino, como: truncar os resultados existentes, anexar resultados existentes ou gravar somente quando a tabela estiver vazia. Veja a seguir os valores compatíveis:
  • WRITE_TRUNCATE
  • WRITE_APPEND
  • WRITE_EMPTY
O valor padrão é WRITE_APPEND.
Região String Especifica a região onde o job precisa ser executado. Os recursos do Google Cloud Storage e o conjunto de dados do BigQuery precisam estar na mesma região.
DryRun String Especifica se a execução do job é uma simulação. O valor padrão é false.
MaximumBadRecords String Especifica o número de registros que podem ser inválidos antes que todo o job seja cancelado. Por padrão, todos os registros precisam ser válidos. O valor padrão é 0.
IgnoreUnknownValues String Especifica se os campos desconhecidos precisam ser ignorados no arquivo de entrada ou tratá-los como erros. Por padrão, eles são tratados como erros. O valor padrão é false.
AvroUseLogicalTypes String Especifica se os tipos lógicos do AVRO precisam ser usados para converter dados do AVRO em tipos do BigQuery. O padrão o valor é true.
CSVSkipLeadingRows String Especifica quantas linhas pular no início dos arquivos CSV. Isso geralmente é usado para pular linhas de cabeçalho.
CSVEncoding String Tipo de codificação dos arquivos CSV. Confira a seguir os valores compatíveis:
  • ISO-8859-1
  • UTF-8
O valor padrão é UTF-8.
CSVNullMarker String Se fornecida, essa string é usada para valores NULL em arquivos CSV. Por padrão, os arquivos CSV não é possível usar NULL.
CSVFieldDelimiter String Caractere usado para separar colunas em arquivos CSV. O valor padrão é uma vírgula (,).
CSVQuote String O caractere usado em campos entre aspas em arquivos CSV. Pode ser definido como vazio para desativar o uso de aspas. O valor padrão é aspas duplas (").
CSVAllowQuotedNewlines String Especifica se os arquivos CSV podem conter novas linhas dentro dos campos entre aspas. O valor padrão é false.
CSVAllowJaggedRows String Especifica se os arquivos CSV podem conter campos ausentes. O valor padrão é false.
DSBackupProjectionFields String Uma lista JSON de campos a serem carregados de um backup do Cloud Datastore.
ParquetOptions String Um objeto JSON que especifica as opções de importação específicas do Parquet.
DecimalTargetTypes String Uma lista JSON que mostra a ordem de preferência aplicada a tipos numéricos.
HivePartitioningOptions String Um objeto JSON que especifica as opções de particionamento do lado da origem.

Executar consulta SQL personalizada

Para criar uma consulta salva, siga estas etapas:

  1. Siga as instruções detalhadas para adicionar uma tarefa de conectores.
  2. Quando você configurar a tarefa do conector, selecione Ações no tipo de ação que você quer realizar.
  3. Na lista Ação, selecione Executar consulta personalizada e clique em Concluído.

    imagem mostrando execute-custom-query-action imagem mostrando execute-custom-query-action

  4. Expanda a seção Entrada de tarefas e faça o seguinte:
    1. No campo Tempo limite após, digite o número de segundos de espera até que a consulta seja executada.

      Valor padrão: 180 segundos

    2. No campo Número máximo de linhas, digite o número máximo de linhas a serem retornadas do banco de dados.

      Valor padrão: 25.

    3. Para atualizar a consulta personalizada, clique em Editar script personalizado. A caixa de diálogo Editor de script é aberta.

      imagem mostrando custom-sql-query imagem mostrando custom-sql-query

    4. Na caixa de diálogo Editor de script, insira a consulta SQL e clique em Salvar.

      É possível usar um ponto de interrogação (?) em uma instrução SQL para representar um único parâmetro que precisa ser especificado na lista de parâmetros de consulta. Por exemplo, a seguinte consulta SQL seleciona todas as linhas da tabela Employees que correspondem aos valores especificados na coluna LastName:

      SELECT * FROM Employees where LastName=?

    5. Se você usou pontos de interrogação na consulta SQL, adicione o parâmetro clicando em + Adicionar nome do parâmetro para cada ponto de interrogação. Ao executar a integração, esses parâmetros substituem os pontos de interrogação (?) na consulta SQL sequencialmente. Por exemplo, se você tiver adicionado três pontos de interrogação (?), deverá adicionar três parâmetros em ordem de sequência.

      imagem mostrando add-query-param imagem mostrando add-query-param

      Para adicionar parâmetros de consulta, faça o seguinte:

      1. Na lista Tipo, selecione o tipo de dados do parâmetro.
      2. No campo Valor, insira o valor do parâmetro.
      3. Para adicionar vários parâmetros, clique em + Adicionar parâmetro de consulta.

Usar o Terraform para criar conexões

Use o recurso do Terraform para criar uma nova conexão.

Para saber como aplicar ou remover uma configuração do Terraform, consulte Comandos básicos do Terraform.

Para conferir um exemplo de modelo do Terraform para criação de conexão, consulte exemplo de modelo.

Ao criar essa conexão usando o Terraform, defina as seguintes variáveis no arquivo de configuração do Terraform:

Nome do parâmetro Tipo de dados Obrigatório Descrição
project_id STRING Verdadeiro O ID do projeto que contém o conjunto de dados do BigQuery, por exemplo, myproject.
dataset_id STRING Falso ID do conjunto de dados do BigQuery sem o nome do projeto. Por exemplo, mydataset.
proxy_enabled BOOLEAN Falso Marque esta caixa de seleção para configurar um servidor proxy para a conexão.
proxy_auth_scheme ENUM Falso O tipo de autenticação a ser usado para autenticar o proxy do ProxyServer. Os valores aceitos são: BASIC, DIGEST, NONE
proxy_user STRING Falso Um nome de usuário a ser usado para autenticar no proxy ProxyServer.
proxy_password SECRET Falso Uma senha a ser usada para autenticar no proxy ProxyServer.
proxy_ssltype ENUM Falso O tipo de SSL a ser usado na conexão com o proxy ProxyServer. Os valores aceitos são: AUTO, ALWAYS, NEVER, TUNNEL

Usar a conexão do BigQuery em uma integração

Depois que você cria a conexão, ela fica disponível nos Apigee Integration e Application Integration. É possível usar a conexão em uma integração pela tarefa de conectores.

  • Para entender como criar e usar a tarefa Conectores na integração da Apigee, consulte a Tarefa Conectores.
  • Para entender como criar e usar a tarefa "Conectores" na integração de aplicativos, consulte Tarefa "Conectores".

Receber ajuda da comunidade do Google Cloud

Poste suas dúvidas e converse sobre esse conector na comunidade do Google Cloud em Fóruns do Cloud.

A seguir