Formatos de dados e metadados ideais para lakehouses

Este documento explica os formatos de dados e metadados ideais à medida que estrutura o seu data lakehouse com o BigLake.

Um data lakehouse é uma arquitetura de dados que combina a estrutura de um data warehouse com a flexibilidade dos dados não processados de um lago de dados. Esta arquitetura oferece flexibilidade e escalabilidade para uma vasta gama de exemplos de utilização de dados. A solução de data lakehouse chama-se BigLake, que associa Google Cloud serviços de código aberto e proprietários para criar uma interface unificada para estatísticas e IA.Google Cloud Um data lakehouse criado com o BigLake é composto pelos seguintes componentes principais:

  • Capacidades de armazenamento: Cloud Storage ou BigQuery, com o Apache Iceberg como o formato de tabela aberta recomendado
  • Um metastore: metastore do BigLake
  • Um motor de consulta: BigQuery, Apache Spark, Apache Flink, Trino ou outros motores de código aberto
  • Uma ferramenta para escrita e estatísticas de dados: várias ligações do BigQuery e de código aberto

O BigLake agrupa todos estes componentes numa única experiência com uma gestão uniforme. Para mais informações sobre a arquitetura e as inovações do BigLake, consulte o artigo O BigLake evoluiu.

Selecione um metastore

Para o metastore, recomendamos que use o metastore do BigLake. O metastore do BigLake é um metastore totalmente gerido e sem servidor para o seu lakehouse no Google Cloud. Fornece uma única fonte de verdade para metadados de várias origens e é acessível a partir do BigQuery e de vários motores de processamento de dados abertos, o que elimina a necessidade de copiar e sincronizar metadados entre diferentes repositórios com ferramentas personalizadas. O metastore do BigLake é suportado com o Catálogo universal do Dataplex, que fornece controlos de acesso unificados e detalhados em todos os motores suportados e permite a governação ponto a ponto que inclui capacidades abrangentes de linhagem, qualidade dos dados e capacidade de deteção.

Selecione um formato de tabela

Com o metastore do BigLake como metastore para o seu lakehouse aberto, tem as seguintes opções para o formato das suas tabelas:

  • Escolha tabelas padrão do BigQuery para dados geridos no BigQuery. Estas tabelas são totalmente geridas pelo BigQuery e têm as funcionalidades de gestão e análise de dados mais avançadas. Pode continuar a associar estas tabelas ao metastore do BigLake. Escolha esta opção para tabelas que não sejam do tipo Iceberg.
  • Escolha tabelas Iceberg do BigLake no BigQuery para uma experiência totalmente gerida no BigQuery. Estas tabelas são tabelas Iceberg que cria a partir do BigQuery e armazena no Cloud Storage. Tal como todas as tabelas que usam o metastore do BigLake, podem ser lidas por motores de código aberto ou pelo BigQuery. No entanto, o BigQuery é o único motor que pode escrever diretamente nos mesmos. Escolha esta opção se quiser que o fluxo de trabalho de extração, transformação e carregamento (ETL) seja gerido pelo BigQuery.
  • Escolha tabelas Iceberg do BigLake para uma experiência semigerida no Google Cloud. Estas tabelas são tabelas Iceberg que cria a partir de motores de código aberto e armazena no Cloud Storage. Tal como todas as tabelas que usam o metastore do BigLake, podem ser lidas por motores de código aberto ou pelo BigQuery. No entanto, o motor de código aberto que criou a tabela é o único motor que pode escrever nela. Escolha esta opção se quiser que o fluxo de trabalho de ETL seja gerido pelo motor de código aberto.
  • Escolha tabelas externas para tabelas fora do metastore do BigLake. Os dados e os metadados destas tabelas são totalmente autogeridos, em que depende totalmente das capacidades dos formatos de tabelas abertos (como o Iceberg, o Apache Hudi ou o Delta Lake). O BigQuery só tem a capacidade de ler destas tabelas. Escolha esta opção para dados e metadados que quer gerir por conta própria num catálogo de terceiros.

Use a tabela seguinte para comparar as opções de formato de tabela:

Tabelas externas Tabelas Iceberg do BigLake Tabelas Iceberg do BigLake no BigQuery Tabelas padrão do BigQuery
Metastore Metastore externo ou autoalojado Metastore do BigLake Metastore do BigLake Metastore do BigLake
Armazenamento Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
Gestão Cliente ou terceiros Google Google (experiência altamente gerida) Google (experiência mais gerida)
Leitura / escrita Motores de código aberto (leitura/escrita)

BigQuery (só de leitura)
Motores de código aberto (leitura/escrita)

BigQuery (só de leitura)
Motores de código aberto (apenas leitura com bibliotecas Iceberg, interoperabilidade de leitura/escrita com a API BigQuery Storage)

BigQuery (leitura/escrita)

Motores de código aberto (interoperabilidade de leitura/escrita com a API BigQuery Storage)

BigQuery (leitura/escrita)

Exemplos de utilização Migrações, tabelas de preparação para carregamentos do BigQuery, autogestão Abra a casa no lago Lakehouse aberto, armazenamento de nível empresarial para estatísticas, streaming e IA Armazenamento de nível empresarial para estatísticas, streaming e IA

O que se segue?