BigQuery

Com o conector do BigQuery, é possível executar operações de inserção, exclusão, atualização e leitura nos dados do Google BigQuery.

Antes de começar

Antes de usar o conector do BigQuery, faça o seguinte:

No seu projeto do Google Cloud, faça o seguinte:
- Conceda o papel do IAM roles/connectors.admin ao usuário que estiver configurando o conector.
- Conceda os seguintes papéis de IAM à conta de serviço que você quer usar para o conector:
  - roles/bigquery.dataEditor
  Uma conta de serviço é um tipo especial de Conta do Google destinada a representar um usuário não humano que precisa ser autenticado e autorizado a acessar dados nas APIs do Google. Se você não tiver uma conta de serviço, será necessário criar uma. Para mais informações, consulte Como criar uma conta de serviço.
- Ative os seguintes serviços:
  - secretmanager.googleapis.com (API Secret Manager)
  - connectors.googleapis.com (API Connectors)
  Para entender como ativar os serviços, consulte Como ativar serviços.
Se esses serviços ou permissões não tiverem sido ativados no seu projeto, você precisará ativá-los ao configurar o conector.

Configurar o conector

Para configurar o conector, crie uma conexão com a fonte de dados (sistema de back-end). Uma conexão é específica a uma fonte de dados. Isso significa que, se você tiver muitas fontes de dados, precisará criar uma conexão separada para cada uma. Para criar uma conexão, siga estas etapas:

No console do Cloud, acesse a página Integration Connectors > Conexões e selecione ou crie um projeto do Google Cloud.
Acesse a página "Conexões"
Clique em + CRIAR NOVO para abrir a página Criar conexão.
Na seção Local, escolha o local da conexão.
1. Região: selecione um local na lista suspensa.
  Para acessar a lista de todas as regiões com suporte, consulte Locais.
2. Clique em PRÓXIMA.
Na seção Detalhes da conexão, faça o seguinte:
1. Conector: selecione BigQuery na lista suspensa de conectores disponíveis.
2. Versão do conector: selecione a versão do conector na lista suspensa de versões disponíveis.
3. No campo Nome da conexão, insira um nome para a instância de conexão
  Os nomes de conexão precisam atender aos seguintes critérios:
  - Os nomes de conexões podem usar letras, números ou hifens.
  - As letras precisam ser minúsculas.
  - Os nomes das conexões precisam começar com uma letra e terminar com uma letra ou um número.
  - Os nomes das conexões não podem exceder 63 caracteres.
4. Como opção, insira uma Descrição para a instância de conexão.
5. Conta de serviço: selecione uma conta de serviço que tenha os papéis necessários.
6. Opcionalmente, defina as Configurações do nó de conexão:
  - Número mínimo de nós: digite o número mínimo de nós de conexão.
  - Número máximo de nós: digite o número máximo de nós de conexão.
  Um nó é uma unidade (ou réplica) de uma conexão que processa transações. Mais nós são necessários para processar mais transações para uma conexão e, por outro lado, menos nós são necessários para processar menos transações. Para entender como os nós afetam os preços do conector, consulte Preços dos nós de conexão. Se você não inserir qualquer valor, por padrão, os nós mínimos serão definidos como 2 (para melhor disponibilidade) e os nós máximos serão definidos como 50.
7. ID do projeto: insira o ID do projeto do Google Cloud em que os dados estão armazenados.
8. ID do conjunto de dados: o ID do conjunto de dados do BigQuery.
9. Usar proxy: marque esta caixa de seleção para configurar um servidor proxy para a conexão e defina os seguintes valores:
10. Outra opção é clicar em + ADICIONAR MARCADOR para adicionar um rótulo à conexão na forma de um par de chave-valor.
11. Clique em PRÓXIMA.
Na seção Authentication, insira os detalhes da autenticação.
1. A conexão do BigQuery não requer autenticação.
2. Clique em PRÓXIMA.
Revisão: revise os detalhes de conexão e autenticação.
Clique em Criar.

Entidades, operações e ações

Todos os Integration Connectors fornecem uma camada de abstração para os objetos do aplicativo conectado. Só é possível acessar os objetos de um aplicativo por esta abstração. A abstração é exposta a você como entidades, operações e ações.

Entidade: uma entidade pode ser considerada um objeto ou um conjunto de propriedades no aplicativo ou serviço conectado. A definição de uma entidade difere de um conector para outro. Por exemplo, em um conector de banco de dados, as tabelas são as entidades, em um conector de servidor de arquivos, as pastas são as entidades e, em um conector de sistema de mensagens, as filas são as entidades.
No entanto, é possível que um conector não aceite ou não tenha entidades. Nesse caso, a lista Entities estará vazia.
Operação: uma operação é a atividade que pode ser realizada em uma entidade. É possível executar qualquer uma das seguintes operações em uma entidade:
- List
- Receber
- Criar
- Atualizar
- Excluir
Selecionar uma entidade na lista disponível gera uma lista de operações disponíveis para ela. Para uma descrição detalhada das operações, consulte as operações de entidades da tarefa "Conectores". No entanto, se um conector não oferecer suporte a nenhuma das operações da entidade, essas operações não serão listadas na lista Operations.
Ação: uma ação é uma função de primeira classe disponibilizada para a integração por meio da interface do conector. Uma ação permite fazer alterações em uma ou mais entidades e varia de um conector para outro. No entanto, é possível que o conector não ofereça suporte a nenhuma ação. Nesse caso, a lista Actions estará vazia.

Limitações do sistema

O conector do BigQuery pode processar no máximo 8 transações por segundo, por nó, e limita qualquer transação além desse limite. Por padrão, os Integration Connectors alocam dois nós (para melhor disponibilidade) para uma conexão.

Para informações sobre os limites aplicáveis aos Integration Connectors, consulte Limites.

Observação:o número de nós dos conectores de integração será escalonado automaticamente com base no seu uso. No entanto, se você quiser reservar capacidade para grandes volumes sem esperar pelo escalonamento automático, ajuste o valor mínimo do nó para uma conexão. São necessários mais nós para processar mais transações para uma conexão. Por outro lado, menos nós serão necessários se uma conexão processar menos transações. Para configurar os valores do nó, faça o seguinte:

Se você for um cliente de pagamento por utilização, configure o valor mínimo e máximo do nó na página de edição de conexão.
Se você é um cliente de assinatura, entre em contato com o suporte.

O número máximo de transações que um nó pode processar depende de vários fatores. Portanto, antes de ajustar os nós mínimos para melhorar a capacidade de processamento, verifique se os sistemas de back-end estão configurados de maneira ideal para lidar com o tráfego necessário.

Tipos de dados compatíveis

Veja a seguir os tipos de dados compatíveis com este conector:

BIGINT
Binário
BIT
BOOLEAN
CHAR
DATA
DECIMAL
DOUBLE
FLOAT
INTEIRO
VARCHAR LONGO
VARCHAR LONGO
NCHAR
NUMERIC
NVARCHAR
REAL
INT. MENOR
TEMPO
TIMESTAMP
INTRODUÇÃO
VARBINARY
VARCHAR

Problemas conhecidos

O conector do BigQuery não aceita a chave primária em uma tabela do BigQuery. Isso significa que não é possível executar as operações da entidade "Get", "Update" e "Delete" usando um entityId. Como alternativa, é possível usar a cláusula de filtro para filtrar registros com base em um ID.

Ações

Esta seção descreve as ações disponíveis no conector do BigQuery.

Observação:os resultados de todas as operações e ações da entidade estarão disponíveis como uma resposta JSON no parâmetro de resposta connectorOutputPayload da tarefa Connectors depois que você executar a integração.

Ação CancelJob

Essa ação permite cancelar um job em execução do BigQuery.

A tabela a seguir descreve os parâmetros de entrada da ação CancelJob.

Nome do parâmetro	Tipo de dados	Descrição
JobId	String	O ID do job que você quer cancelar. Esse campo é obrigatório.
Região	String	A região em que o job está sendo executado no momento. Isso não é necessário se o job for em uma região dos EUA ou da UE.

Ação GetJob

Essa ação permite recuperar as informações de configuração e o estado de execução de um job atual.

A tabela a seguir descreve os parâmetros de entrada da ação GetJob.

Nome do parâmetro	Tipo de dados	Descrição
JobId	String	O ID do job para o qual você quer recuperar a configuração. Esse campo é obrigatório.
Região	String	A região em que o job está sendo executado no momento. Isso não é necessário se o job for em uma região dos EUA ou da UE.

Ação InsertJob

Essa ação permite inserir um job do BigQuery, que pode ser selecionado mais tarde para recuperar os resultados da consulta.

A tabela a seguir descreve os parâmetros de entrada da ação InsertJob.

Nome do parâmetro	Tipo de dados	Descrição
Consulta	String	A consulta a ser enviada ao BigQuery. Esse campo é obrigatório.
IsDML	String	Precisará ser definido como `true` se a consulta for uma instrução DML. Caso contrário, será `false`. O valor padrão é `false`.
DestinationTable	String	A tabela de destino da consulta, no formato `DestProjectId:DestDatasetId.DestTable`.
WriteDisposition	String	Especifica como gravar dados na tabela de destino, como truncar os resultados atuais, anexar resultados atuais ou gravar somente quando a tabela estiver vazia. Confira a seguir os valores compatíveis: WRITE_TRUNCATE WRITE_APPEND WRITE_EMPTY O valor padrão é WRITE_TRUNCATE.
DryRun	String	Especifica se a execução do job é uma simulação.
MaximumBytesBilled	String	Especifica o máximo de bytes que podem ser processados pelo job. O BigQuery vai cancelar o job se ele tentar processar mais bytes do que o valor especificado.
Região	String	Especifica a região em que o job precisa ser executado.

Ação InsertLoadJob

Essa ação permite inserir um job de carregamento do BigQuery, que adiciona dados do Google Cloud Storage a uma tabela.

A tabela a seguir descreve os parâmetros de entrada da ação InsertLoadJob.

Nome do parâmetro	Tipo de dados	Descrição
SourceURIs	String	Uma lista separada por espaço de URIs do Google Cloud Storage.
SourceFormat	String	O formato de origem dos arquivos. Confira a seguir os valores aceitos: AVRO NEWLINE_DELIMITED_JSON DATASTORE_BACKUP PARQUET ORC CSV
DestinationTable	String	A tabela de destino da consulta, no formato `DestProjectId.DestDatasetId.DestTable`.
DestinationTableProperties	String	Um objeto JSON que especifica o nome, a descrição e a lista de rótulos compatíveis da tabela.
DestinationTableSchema	String	Uma lista JSON especificando os campos usados para criar a tabela.
DestinationEncryptionConfiguration	String	Um objeto JSON que especifica as configurações de criptografia do KMS para a tabela.
SchemaUpdateOptions	String	Uma lista JSON especificando as opções a serem aplicadas ao atualizar o esquema da tabela de destino.
TimePartitioning	String	Um objeto JSON especificando o tipo e o campo de particionamento de tempo.
RangePartitioning	String	Um objeto JSON que especifica o campo de particionamento de intervalo e os buckets.
Clustering	String	Um objeto JSON especificando os campos a serem usados para clustering.
Detectar automaticamente	String	Especifica se as opções e o esquema devem ser determinados automaticamente para arquivos JSON e CSV.
CreateDisposition	String	Especifica se a tabela de destino precisa ser criada, se ainda não existir. Veja a seguir os valores compatíveis: CREATE_IF_NEEDED CREATE_NEVER O valor padrão é CREATE_IF_NEEDED.
WriteDisposition	String	Especifica como gravar dados na tabela de destino, como truncar os resultados atuais, anexar resultados atuais ou gravar somente quando a tabela estiver vazia. Veja a seguir os valores compatíveis: WRITE_TRUNCATE WRITE_APPEND WRITE_EMPTY O valor padrão é WRITE_APPEND.
Região	String	Especifica a região em que o job precisa ser executado. Os recursos do Google Cloud Storage e o conjunto de dados do BigQuery precisam estar na mesma região.
DryRun	String	Especifica se a execução do job é uma simulação. O valor padrão é `false`.
MaximumBadRecords	String	Especifica o número de registros que podem ser inválidos antes que todo o job seja cancelado. Por padrão, todos os registros precisam ser válidos. O valor padrão é `0`.
IgnoreUnknownValues	String	Especifica se os campos desconhecidos precisam ser ignorados no arquivo de entrada ou tratados como erros. Por padrão, elas são tratadas como erros. O valor padrão é `false`.
AvroUseLogicalTypes	String	Especifica se os tipos lógicos do AVRO precisam ser usados para converter dados do AVRO em tipos do BigQuery. O valor padrão é `true`.
CSVSkipLeadingRows	String	Especifica quantas linhas serão ignoradas no início dos arquivos CSV. Isso geralmente é usado para pular linhas de cabeçalho.
CSVEncoding	String	Tipo de codificação dos arquivos CSV. Confira a seguir os valores aceitos: ISO-8859-1 UTF-8 O valor padrão é UTF-8.
CSVNullMarker	String	Se fornecida, essa string é usada para valores NULL nos arquivos CSV. Por padrão, os arquivos CSV não podem usar NULL.
CSVFieldDelimiter	String	O caractere usado para separar colunas em arquivos CSV. O valor padrão é uma vírgula (`,`).
CSVQuote	String	O caractere usado para campos entre aspas em arquivos CSV. Pode ser definido como vazio para desativar as cotações. O valor padrão são aspas duplas (`"`).
CSVAllowQuotedNewlines	String	Especifica se os arquivos CSV podem conter novas linhas dentro dos campos entre aspas. O valor padrão é `false`.
CSVAllowJaggedRows	String	Especifica se os arquivos CSV podem conter campos ausentes. O valor padrão é `false`.
DSBackupProjectionFields	String	Uma lista JSON de campos a serem carregados de um backup do Cloud Datastore.
ParquetOptions	String	Um objeto JSON que especifica as opções de importação específicas de Parquet.
DecimalTargetTypes	String	Uma lista JSON que fornece a ordem de preferência aplicada aos tipos numéricos.
HivePartitioningOptions	String	Um objeto JSON especificando as opções de particionamento do lado da origem.

Executar consulta SQL personalizada

Para criar uma consulta personalizada, siga estas etapas:

Siga as instruções detalhadas para adicionar uma tarefa de conectores.
Depois de configurar a tarefa do conector, selecione Ações no tipo de ação que você quer realizar.
Na lista Ação, selecione Executar consulta personalizada e clique em Concluído.
Expanda a seção Entrada de tarefas e faça o seguinte:
1. No campo Tempo limite após, digite o número de segundos de espera até que a consulta seja executada.
  Valor padrão: 180 segundos.
2. No campo Número máximo de linhas, digite o número máximo de linhas a serem retornadas do banco de dados.
  Valor padrão: 25.
3. Para atualizar a consulta personalizada, clique em Editar consulta personalizada. A caixa de diálogo Editor de script é aberta.
4. Na caixa de diálogo Editor de script, insira a consulta SQL e clique em Salvar.
  É possível usar um ponto de interrogação (?) em uma instrução SQL para representar um único parâmetro que precisa ser especificado na lista de parâmetros de consulta. Por exemplo, a seguinte consulta SQL seleciona todas as linhas da tabela Employees que correspondem aos valores especificados na coluna LastName:
```
SELECT * FROM Employees where LastName=?
```
  Observação:há suporte para as instruções de linguagem de manipulação de dados (DML) e de linguagem de definição de dados (DDL).
5. Se você usou pontos de interrogação na consulta SQL, adicione o parâmetro clicando em + Adicionar nome do parâmetro para cada ponto de interrogação. Ao executar a integração, esses parâmetros substituem os pontos de interrogação (?) na consulta SQL sequencialmente. Por exemplo, se você tiver adicionado três pontos de interrogação (?), deverá adicionar três parâmetros em ordem de sequência. Para adicionar parâmetros de consulta, faça o seguinte:
  1. Na lista Tipo, selecione o tipo de dados do parâmetro.
  2. No campo Valor, insira o valor do parâmetro.
  3. Para adicionar vários parâmetros, clique em + Adicionar parâmetro de consulta.

Usar o Terraform para criar conexões

Use o recurso do Terraform (em inglês) para criar uma nova conexão.

Para saber como aplicar ou remover uma configuração do Terraform, consulte Comandos básicos do Terraform.

Confira um exemplo de modelo do Terraform para criar uma conexão em exemplo.

Ao criar essa conexão usando o Terraform, você precisa definir as seguintes variáveis no arquivo de configuração do Terraform:

Nome do parâmetro	Tipo de dados	Obrigatório	Descrição
project_id	STRING	Verdadeiro	O ID do projeto que contém o conjunto de dados do BigQuery. Por exemplo, myproject.
dataset_id	STRING	Falso	ID do conjunto de dados do BigQuery sem o nome do projeto, por exemplo, mydataset.
proxy_enabled	BOOLEAN	Falso	Marque essa caixa de seleção para configurar um servidor proxy para a conexão.
proxy_auth_scheme	ENUM	Falso	O tipo de autenticação a ser usado para autenticar o proxy ProxyServer. Valores aceitos: BASIC, DIGEST, NONE
proxy_user	STRING	Falso	Um nome de usuário a ser usado para autenticação no proxy ProxyServer.
proxy_password	SECRET	Falso	Uma senha a ser usada para autenticação no proxy ProxyServer.
proxy_ssltype	ENUM	Falso	O tipo de SSL a ser usado na conexão com o proxy do ProxyServer. Os valores aceitos são: AUTO, ALWAYS, NEVER, SELECTED

Usar a conexão do BigQuery em uma integração

Depois de criar a conexão, ela ficará disponível tanto na Apigee Integration quanto na Application Integration. Use a conexão em uma integração por meio da tarefa Conectores.

Para entender como criar e usar a tarefa Conectores na integração da Apigee, consulte Tarefa Conectores.
Para entender como criar e usar a tarefa de conectores na Application Integration, consulte Tarefa "Conectores".

Receber ajuda da comunidade do Google Cloud

Poste suas dúvidas e converse sobre esse conector na comunidade do Google Cloud em Fóruns do Cloud.

A seguir

Entenda como suspender e retomar uma conexão.
Entenda como monitorar o uso do conector.
Entenda como visualizar os registros do conector.