Formatos de dados e metadados ideais para lakehouses
Este documento explica os formatos de dados e metadados ideais à medida que estrutura o seu data lakehouse com o BigLake.
Um data lakehouse é uma arquitetura de dados que combina a estrutura de um data warehouse com a flexibilidade dos dados não processados de um lago de dados. Esta arquitetura oferece flexibilidade e escalabilidade para uma vasta gama de exemplos de utilização de dados. A solução de data lakehouse chama-se BigLake, que associa Google Cloud serviços de código aberto e proprietários para criar uma interface unificada para estatísticas e IA.Google Cloud Um data lakehouse criado com o BigLake é composto pelos seguintes componentes principais:
- Capacidades de armazenamento: Cloud Storage ou BigQuery, com o Apache Iceberg como o formato de tabela aberta recomendado
- Um metastore: metastore do BigLake
- Um motor de consulta: BigQuery, Apache Spark, Apache Flink, Trino ou outros motores de código aberto
- Uma ferramenta para escrita e estatísticas de dados: várias ligações do BigQuery e de código aberto
O BigLake agrupa todos estes componentes numa única experiência com uma gestão uniforme. Para mais informações sobre a arquitetura e as inovações do BigLake, consulte o artigo O BigLake evoluiu.
Selecione um metastore
Para o metastore, recomendamos que use o metastore do BigLake. O metastore do BigLake é um metastore totalmente gerido e sem servidor para o seu lakehouse no Google Cloud. Fornece uma única fonte de verdade para metadados de várias origens e é acessível a partir do BigQuery e de vários motores de processamento de dados abertos, o que elimina a necessidade de copiar e sincronizar metadados entre diferentes repositórios com ferramentas personalizadas. O metastore do BigLake é suportado com o Catálogo universal do Dataplex, que fornece controlos de acesso unificados e detalhados em todos os motores suportados e permite a governação ponto a ponto que inclui capacidades abrangentes de linhagem, qualidade dos dados e capacidade de deteção.
Selecione um formato de tabela
Com o metastore do BigLake como metastore para o seu lakehouse aberto, tem as seguintes opções para o formato das suas tabelas:
- Escolha tabelas padrão do BigQuery para dados geridos no BigQuery. Estas tabelas são totalmente geridas pelo BigQuery e têm as funcionalidades de gestão e análise de dados mais avançadas. Pode continuar a associar estas tabelas ao metastore do BigLake. Escolha esta opção para tabelas que não sejam do tipo Iceberg.
- Escolha tabelas Iceberg do BigLake no BigQuery para uma experiência totalmente gerida no BigQuery. Estas tabelas são tabelas Iceberg que cria a partir do BigQuery e armazena no Cloud Storage. Tal como todas as tabelas que usam o metastore do BigLake, podem ser lidas por motores de código aberto ou pelo BigQuery. No entanto, o BigQuery é o único motor que pode escrever diretamente nos mesmos. Escolha esta opção se quiser que o fluxo de trabalho de extração, transformação e carregamento (ETL) seja gerido pelo BigQuery.
- Escolha tabelas Iceberg do BigLake para uma experiência semigerida no Google Cloud. Estas tabelas são tabelas Iceberg que cria a partir de motores de código aberto e armazena no Cloud Storage. Tal como todas as tabelas que usam o metastore do BigLake, podem ser lidas por motores de código aberto ou pelo BigQuery. No entanto, o motor de código aberto que criou a tabela é o único motor que pode escrever nela. Escolha esta opção se quiser que o fluxo de trabalho de ETL seja gerido pelo motor de código aberto.
- Escolha tabelas externas para tabelas fora do metastore do BigLake. Os dados e os metadados destas tabelas são totalmente autogeridos, em que depende totalmente das capacidades dos formatos de tabelas abertos (como o Iceberg, o Apache Hudi ou o Delta Lake). O BigQuery só tem a capacidade de ler destas tabelas. Escolha esta opção para dados e metadados que quer gerir por conta própria num catálogo de terceiros.
Use a tabela seguinte para comparar as opções de formato de tabela:
Tabelas externas | Tabelas Iceberg do BigLake | Tabelas Iceberg do BigLake no BigQuery | Tabelas padrão do BigQuery | |
---|---|---|---|---|
Metastore | Metastore externo ou autoalojado | Metastore do BigLake | Metastore do BigLake | Metastore do BigLake |
Armazenamento | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
Gestão | Cliente ou terceiros | Google (experiência altamente gerida) | Google (experiência mais gerida) | |
Leitura / escrita |
Motores de código aberto (leitura/escrita) BigQuery (só de leitura) |
Motores de código aberto (leitura/escrita) BigQuery (só de leitura) |
Motores de código aberto (apenas leitura com bibliotecas Iceberg, interoperabilidade de leitura/escrita com a API BigQuery Storage)
BigQuery (leitura/escrita) |
Motores de código aberto (interoperabilidade de leitura/escrita com a
API BigQuery Storage) BigQuery (leitura/escrita) |
Exemplos de utilização | Migrações, tabelas de preparação para carregamentos do BigQuery, autogestão | Abra a casa no lago | Lakehouse aberto, armazenamento de nível empresarial para estatísticas, streaming e IA | Armazenamento de nível empresarial para estatísticas, streaming e IA |
O que se segue?
- Saiba mais sobre o metastore do BigLake.