Introdução à metastore do BigQuery

A metastore do BigQuery é uma metastore totalmente gerenciada para produtos de análise de dados no Google Cloud. Ele fornece uma única fonte da verdade para gerenciar metadados de várias origens. A metastore pode ser acessada pelo BigQuery e por vários mecanismos de processamento de dados abertos, o que a torna uma ferramenta útil para analistas e engenheiros de dados.

Por exemplo, é possível usar a metastore do BigQuery como o catálogo com motores de consulta de código aberto, como o Apache Spark. As tabelas criadas com o Spark podem ser consultadas usando o BigQuery sem que seja necessário sincronizar os metadados.

Vantagens

A metastore do BigQuery oferece várias vantagens para o gerenciamento e a análise de dados:

  • Arquitetura sem servidor. A metastore do BigQuery fornece uma arquitetura sem servidor, eliminando a necessidade de gerenciamento de servidor ou cluster. Isso ajuda a reduzir a sobrecarga operacional, simplifica a implantação e permite o escalonamento automático com base na demanda.
  • Interoperabilidade do mecanismo. O Metastore do BigQuery oferece acesso direto às tabelas no BigQuery, permitindo consultar tabelas de formato aberto armazenadas no BigQuery sem configuração adicional. Por exemplo, é possível criar uma tabela no Spark e consultar diretamente no BigQuery. Isso ajuda a simplificar seu fluxo de trabalho de análise e reduz a necessidade de movimentação de dados complexa ou processos ETL.
  • Experiência do usuário unificada. O BigQuery Metastore oferece um fluxo de trabalho unificado no BigQuery e no BigQuery Studio. Isso permite usar o Spark diretamente no BigQuery e no BigQuery Studio. Exemplo:

    Primeiro, crie uma tabela no Spark com um notebook do BigQuery Studio.

    Criar tabela no BQMS

    Em seguida, você pode consultar a mesma tabela do Spark no console doGoogle Cloud .

    Consultar tabela no BQMS

Integrações compatíveis

É possível usar a metastore do BigQuery com o console do Google Cloud , a CLI gcloud ou as APIs REST do BigQuery.

O metastore do BigQuery é compatível com as seguintes integrações:

Diferenças com o BigLake Metastore

A metastore do BigQuery é a metastore recomendada no Google Cloud.

As principais diferenças entre a metastore do BigQuery e a do BigLake incluem os seguintes detalhes:

  • O BigLake Metastore é um serviço de metastore independente que é diferente do BigQuery e só oferece suporte a tabelas Iceberg. Ele tem um modelo de recurso de três partes diferente. As tabelas no BigLake não são descobertas automaticamente no BigQuery.

  • A metastore do BigQuery é baseada no catálogo do BigQuery e se integra diretamente a ele. As tabelas no metastore do BigQuery são mutáveis em vários mecanismos de código aberto, e as mesmas tabelas podem ser consultadas no BigQuery. Quando você usa o BigQuery, há apenas uma fonte de verdade para seus metadados. Por exemplo, o metastore do BigQuery oferece suporte à integração direta com o Spark. Essa integração oferece um fluxo de trabalho mais simples e ajuda a reduzir a redundância ao armazenar metadados e executar jobs.

A seguir