O que é o BigQuery Omni?

O BigQuery Omni permite executar análises do BigQuery em dados armazenados no Amazon S3 ou no Armazenamento de Blobs do Azure.

Diversas organizações armazenam dados em várias nuvens públicas. Muitas vezes, esses dados acabam ficando isolados, já que é difícil extrair insights de todos eles. Você quer analisar dados com uma ferramenta de várias nuvens que seja barata, rápida e não gere mais sobrecarga da governança de dados descentralizada. Com o BigQuery Omni, esses atritos são reduzidos com uma interface unificada.

O BigQuery Omni leva o mecanismo de análise do BigQuery para os dados onde eles estão. Isso permite que você acesse e analise dados sem mover ou copiar dados. Além disso, é possível mover dados entre nuvens para combinar dados entre nuvens usando a transferência entre nuvens.

O BigQuery Omni é uma solução de análise entre nuvens com a capacidade de analisar dados onde eles estão e a flexibilidade de replicar dados quando necessário.

Como funciona

A arquitetura do BigQuery separa a computação do armazenamento, o que permite escalonar horizontalmente o BigQuery conforme necessário para lidar com cargas de trabalho muito grandes. O BigQuery Omni estende essa arquitetura com a execução do mecanismo de consulta do BigQuery em outras nuvens. Assim, você não precisa mover fisicamente os dados para o armazenamento do BigQuery. O processamento acontece no local em que os dados já estão.

Arquitetura do BigQuery Omni

Os resultados da consulta podem ser retornados ao Google Cloud por uma conexão segura. Por exemplo, para serem exibidos no console do Google Cloud. Também é possível gravar os resultados diretamente no armazenamento do Amazon S3 ou no Armazenamento de Blobs do Azure. Nesse caso, não haverá movimentação entre nuvens dos resultados da consulta.

O BigQuery Omni usa papéis padrão do IAM da AWS ou princípios do Azure Active Directory para acessar os dados na sua assinatura. Você delega o acesso de leitura ou gravação ao BigQuery Omni e pode revogar quando quiser.

Fluxo de dados entre o Google e a AWS ou o Azure

A imagem a seguir descreve o fluxo de dados para consultas: a instrução SELECT. Isso também se aplica a instruções DDL: CREATE EXTERNAL TABLE.

Fluxo de dados de consultas entre Google e AWS ou Azure.

Etapa Google Cloud AWS ou Azure
1 O plano de controle do BigQuery recebe jobs de consulta do cliente por meio do console do Cloud ou da CLI/API BigQuery.
2 O plano de controle do BigQuery envia jobs de consulta para processamento no plano de dados do BigQuery (no AWS/Azure)
3 O plano de dados do BigQuery recebe consultas do plano de controle por uma conexão VPN.
4 O plano de dados do BigQuery lê os dados da tabela de buckets de armazenamento do cliente (armazenamento da AWS S3 ou Armazenamento de Blobs do Azure)
5 O plano de dados do BigQuery executa o job de consulta nos dados da tabela. O processamento de dados de tabela ocorre na região selecionada da AWS ou do Azure
6 O resultado da consulta (até 2 MB) é transmitido do plano de dados para o plano de controle via conexão VPN.
7 O plano de controle do BigQuery recebe resultados de job de consulta para exibição ao cliente em resposta ao job de consulta. Esses dados são armazenados temporariamente (até 24 horas).
8 O resultado da consulta é retornado ao usuário.

A imagem a seguir descreve o fluxo de dados para consultas de exportação: EXPORT DATA.

Fluxo de dados entre o Google e a AWS ou o Azure para consultas de exportação.

Etapa Google Cloud AWS ou Azure
1 O plano de controle do BigQuery recebe jobs de consulta de exportação do cliente por meio do console do Cloud ou da CLI/API BigQuery. A consulta contém o caminho de destino do resultado da consulta em buckets de armazenamento do cliente (armazenamento do AWS S3 ou Armazenamento de Blobs do Azure)
2 O plano de controle do BigQuery envia jobs de consulta de exportação para processamento no plano de dados do BigQuery (na AWS/no Azure)
3 O plano de dados do BigQuery recebe uma consulta de exportação do plano de controle por meio de uma conexão VPN
4 O plano de dados do BigQuery lê os dados da tabela de buckets de armazenamento do cliente (armazenamento da AWS S3 ou Armazenamento de Blobs do Azure)
5 O plano de dados do BigQuery executa o job de consulta nos dados da tabela. O processamento de dados de tabela ocorre na região selecionada da AWS ou do Azure
6 O BigQuery grava o resultado da consulta no caminho de destino especificado nos buckets de armazenamento do cliente (armazenamento do AWS S3 ou Armazenamento de Blobs do Azure)

Benefícios do BigQuery Omni

Desempenho. É possível extrair insights mais rapidamente, já que os dados não são copiados nas nuvens e as consultas são executadas na mesma região em que os dados residem.

Custo. Você economiza custos de saída de rede porque os dados não são migrados. Não há cobranças extras na sua conta da AWS nem do Azure relacionadas à análise do BigQuery Omni, porque as consultas são executadas em clusters gerenciados pelo Google. Você paga somente pela execução das consultas, de acordo com o modelo de preços do BigQuery.

Segurança e governança de dados. Você gerencia os dados na assinatura da AWS ou do Azure. Não é necessário mover ou copiar os dados brutos da nuvem pública. Toda a computação é feita no serviço multilocatário do BigQuery, que é executado na mesma região dos dados.

Arquitetura sem servidor. Assim como o restante do BigQuery, o BigQuery Omni é uma oferta sem servidor. O Google implanta e gerencia os clusters que executam o BigQuery Omni. Você não precisa provisionar recursos nem gerenciar clusters.

Gerenciamento mais fácil. O BigQuery Omni tem uma interface de gerenciamento unificada por meio do Google Cloud. O BigQuery Omni pode usar sua conta do Google Cloud e projetos do BigQuery. É possível gravar uma consulta SQL padrão no console do Cloud para consultar dados na AWS ou no Azure e ver os resultados exibidos no console do Cloud.

Transferência entre nuvens. É possível carregar dados de buckets do S3 e do Armazenamento de Blobs do Azure para tabelas nativas do BigQuery. Para mais informações, consulte Transferência entre nuvens (AWS) e Transferência entre nuvens (Azure).

Limitações

Algumas limitações do BigQuery Omni:

  • Preços sob demanda não estão disponíveis. Para mais informações, consulte Preços neste documento.
  • Não é possível criar tabelas padrão no BigQuery Omni. O BigQuery Omni só aceita tabelas externas.
  • Todas as limitações de tabelas externas se aplicam às tabelas externas do BigQuery Omni.
  • O tamanho máximo do resultado para consultas interativas é de 2 MB.
  • As visualizações INFORMATION_SCHEMA de OBJECT_PRIVILEGES, STREAMING_TIMELINE_BY_* e TABLE_SNAPSHOTS não estão disponíveis para tabelas do BigQuery Omni.
  • As junções com outras tabelas INFORMATION_SCHEMA e outras tabelas externas em aws-us-east-1 ou azure-eastus2 não estão disponíveis.
  • As visualizações materializadas para tabelas externas do BigQuery Omni não são compatíveis.
  • Estas instruções SQL não são compatíveis
    • Instruções do BigQuery ML
    • As instruções da linguagem de definição de dados (DDL) que exigem dados gerenciados no BigQuery não são compatíveis. Por exemplo, CREATE EXTERNAL TABLE ou CREATE SCHEMA são compatíveis, mas CREATE MATERIALIZED VIEW não.
    • Instruções da linguagem de manipulação de dados (DML).
    • Instruções da linguagem de controle de dados (DCL).
    • As instruções SQL para reservar e atribuir slots não são compatíveis.
  • As consultas programadas são compatíveis apenas com a API ou a CLI.
  • A opção de tabela de destino está desativada para consultas no BigQuery Omni. Só EXPORT consultas são permitidas.
  • A API BigQuery Storage não está disponível nas regiões do BigQuery Omni.

Preços

O BigQuery Omni oferece preços fixos, que tornam os custos das consultas previsíveis. Para ativar os preços fixos, use as Reservas do BigQuery para comprar slots em uma das regiões do BigQuery Omni.

Para mais informações, consulte Preços do BigQuery Omni.

Local

O BigQuery processa consultas no mesmo local do conjunto de dados que contém as tabelas que você está consultando. Depois que você cria o conjunto de dados, o local não pode ser alterado. Os dados residem na sua conta da AWS ou do Azure.

Regiões compatíveis

Descrição da região Nome da região
AWS
AWS - US East (N. Virginia) aws-us-east-1
Azure
Azure - East US 2 azure-eastus2

A seguir