Formatos ideais de dados e metadados para lakehouses

Este documento orienta você sobre os formatos ideais de dados e metadados ao projetar seu data lakehouse com o BigLake.

Um data lakehouse é uma arquitetura de dados que combina a estrutura de um data warehouse com a flexibilidade de dados brutos de um data lake. Essa arquitetura oferece flexibilidade e escalonabilidade para uma ampla variedade de casos de uso de dados. A solução de data lakehouseGoogle Cloud é chamada de BigLake, que conecta Google Cloud e serviços de código aberto para criar uma interface unificada de análise e IA. Um data lakehouse criado com o BigLake consiste nos seguintes componentes principais:

  • Recursos de armazenamento: Cloud Storage ou BigQuery, com o Apache Iceberg como o formato de tabela aberta recomendado
  • Um metastore: metastore do BigLake
  • Um mecanismo de consulta: BigQuery, Apache Spark, Apache Flink, Trino ou outros mecanismos de código aberto
  • Uma ferramenta para gravação e análise de dados: várias conexões do BigQuery e de código aberto

O BigLake agrupa todos esses componentes em uma única experiência com governança uniforme. Para mais informações sobre a arquitetura e as inovações do BigLake, consulte BigLake evolved (em inglês).

Selecionar uma metastore

Para seu metastore, recomendamos usar o BigLake Metastore. O metastore do BigLake é um metastore totalmente gerenciado e sem servidor para seu lakehouse no Google Cloud. Ele fornece uma única fonte de verdade para metadados de várias origens e pode ser acessado no BigQuery e em vários mecanismos de processamento de dados abertos, eliminando a necessidade de copiar e sincronizar metadados entre diferentes repositórios com ferramentas personalizadas. O metastore do BigLake é compatível com o Dataplex Universal Catalog, que oferece controles de acesso unificados e refinados em todos os mecanismos compatíveis e permite governança de ponta a ponta, incluindo recursos abrangentes de linhagem, qualidade e capacidade de descoberta de dados.

Selecionar um formato de tabela

Com o BigLake Metastore como o metastore do seu lakehouse aberto, você tem as seguintes opções para o formato das suas tabelas:

  • Escolha tabelas padrão do BigQuery para dados gerenciados no BigQuery. Essas tabelas são totalmente gerenciadas pelo BigQuery e têm os recursos mais avançados de análise e gerenciamento de dados. Ainda é possível conectar essas tabelas ao BigLake Metastore. Escolha essa opção para tabelas que não são do Iceberg.
  • Escolha Tabelas do BigLake Iceberg no BigQuery para uma experiência totalmente gerenciada no BigQuery. Essas tabelas são do Iceberg, criadas no BigQuery e armazenadas no Cloud Storage. Como todas as tabelas que usam o metastore do BigLake, elas podem ser lidas por mecanismos de código aberto ou pelo BigQuery. No entanto, o BigQuery é o único mecanismo que pode gravar diretamente nelas. Escolha essa opção se quiser que seu fluxo de trabalho de extração, transformação e carregamento (ETL) seja gerenciado pelo BigQuery.
  • Escolha Tabelas do BigLake Iceberg para uma experiência semimanual no Google Cloud. Essas tabelas são do Iceberg, criadas com mecanismos de código aberto e armazenadas no Cloud Storage. Como todas as tabelas que usam o metastore do BigLake, elas podem ser lidas por mecanismos de código aberto ou pelo BigQuery. No entanto, somente o mecanismo de código aberto que criou a tabela pode gravar nela. Escolha essa opção se quiser que seu fluxo de trabalho de ETL seja gerenciado pelo mecanismo de código aberto.
  • Escolha tabelas externas para tabelas fora do metastore do BigLake. Os dados e metadados dessas tabelas são totalmente autogerenciados, e você depende totalmente dos recursos de formatos de tabela aberta (como Iceberg, Apache Hudi ou Delta Lake). O BigQuery só pode ler essas tabelas. Escolha essa opção para dados e metadados que você quer gerenciar por conta própria em um catálogo de terceiros.

Use a tabela a seguir para comparar as opções de formato de tabela:

Tabelas externas Tabelas do BigLake Iceberg Tabelas do BigLake Iceberg no BigQuery Tabelas padrão do BigQuery
Metastore Metastore externa ou auto-hospedada Metastore do BigLake Metastore do BigLake Metastore do BigLake
Armazenamento Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
Gerenciamento Cliente ou terceiros Google Google (experiência altamente gerenciada) Google (experiência mais gerenciada)
Leitura / gravação Mecanismos de código aberto (leitura/gravação)

BigQuery (somente leitura)
Mecanismos de código aberto (leitura/gravação)

BigQuery (somente leitura)
Mecanismos de código aberto (somente leitura com bibliotecas do Iceberg, interoperabilidade de leitura/gravação com a API BigQuery Storage)

BigQuery (leitura/gravação)

Mecanismos de código aberto (interoperabilidade de leitura/gravação com a API BigQuery Storage)

BigQuery (leitura/gravação)

Use cases Migrações, tabelas de teste para cargas do BigQuery e autogestão Open lakehouse Lakehouse aberto, armazenamento de nível empresarial para análises, streaming e IA Armazenamento de nível empresarial para análises, streaming e IA

A seguir