Introdução à metastore do BigQuery
A metastore do BigQuery é uma metastore totalmente gerenciada para produtos de análise de dados no Google Cloud. Ele fornece uma única fonte da verdade para gerenciar metadados de várias origens. A metastore pode ser acessada pelo BigQuery e por vários mecanismos de processamento de dados abertos, o que a torna uma ferramenta útil para analistas e engenheiros de dados.
Por exemplo, é possível usar a metastore do BigQuery como o catálogo com motores de consulta de código aberto, como o Apache Spark. As tabelas criadas com o Spark podem ser consultadas usando o BigQuery sem que seja necessário sincronizar os metadados.
Vantagens
A metastore do BigQuery oferece várias vantagens para o gerenciamento e a análise de dados:
- Arquitetura sem servidor. A metastore do BigQuery fornece uma arquitetura sem servidor, eliminando a necessidade de gerenciamento de servidor ou cluster. Isso ajuda a reduzir a sobrecarga operacional, simplifica a implantação e permite o escalonamento automático com base na demanda.
- Interoperabilidade do mecanismo. O Metastore do BigQuery oferece acesso direto às tabelas no BigQuery, permitindo consultar tabelas de formato aberto armazenadas no BigQuery sem configuração adicional. Por exemplo, é possível criar uma tabela no Spark e consultar diretamente no BigQuery. Isso ajuda a simplificar seu fluxo de trabalho de análise e reduz a necessidade de movimentação de dados complexa ou processos ETL.
Experiência do usuário unificada. O BigQuery Metastore oferece um fluxo de trabalho unificado no BigQuery e no BigQuery Studio. Isso permite usar o Spark diretamente no BigQuery e no BigQuery Studio. Exemplo:
Primeiro, crie uma tabela no Spark com um notebook do BigQuery Studio.
Em seguida, você pode consultar a mesma tabela do Spark no console doGoogle Cloud .
Integrações compatíveis
É possível usar a metastore do BigQuery com o console do Google Cloud , a CLI gcloud ou as APIs REST do BigQuery.
O metastore do BigQuery é compatível com as seguintes integrações:
- Formatos de tabelas. Apache Iceberg 1.5.2 ou mais recente.
- Dataproc. Versão 2.2 ou mais recente.
- Mecanismos de processamento de dados. Spark versão 3.3 ou mais recente.
- Plug-ins. Plugin de catálogo do BigQuery metastore Iceberg.
Diferenças com o BigLake Metastore
A metastore do BigQuery é a metastore recomendada no Google Cloud.
As principais diferenças entre a metastore do BigQuery e a do BigLake incluem os seguintes detalhes:
O BigLake Metastore é um serviço de metastore independente que é diferente do BigQuery e só oferece suporte a tabelas Iceberg. Ele tem um modelo de recurso de três partes diferente. As tabelas no BigLake não são descobertas automaticamente no BigQuery.
A metastore do BigQuery é baseada no catálogo do BigQuery e se integra diretamente a ele. As tabelas no metastore do BigQuery são mutáveis em vários mecanismos de código aberto, e as mesmas tabelas podem ser consultadas no BigQuery. Quando você usa o BigQuery, há apenas uma fonte de verdade para seus metadados. Por exemplo, o metastore do BigQuery oferece suporte à integração direta com o Spark. Essa integração oferece um fluxo de trabalho mais simples e ajuda a reduzir a redundância ao armazenar metadados e executar jobs.
A seguir
- Migrar dados do metastore do Dataproc para o metastore do BigQuery
- Usar o metastore do BigQuery com o Dataproc
- Usar a metastore do BigQuery com o Dataproc Serverless