Formatos ideais de dados e metadados para lakehouses
Este documento orienta você sobre os formatos ideais de dados e metadados ao projetar seu data lakehouse com o BigLake.
Um data lakehouse é uma arquitetura de dados que combina a estrutura de um data warehouse com a flexibilidade de dados brutos de um data lake. Essa arquitetura oferece flexibilidade e escalonabilidade para uma ampla variedade de casos de uso de dados. A solução de data lakehouseGoogle Cloud é chamada de BigLake, que conecta Google Cloud e serviços de código aberto para criar uma interface unificada de análise e IA. Um data lakehouse criado com o BigLake consiste nos seguintes componentes principais:
- Recursos de armazenamento: Cloud Storage ou BigQuery, com o Apache Iceberg como o formato de tabela aberta recomendado
- Um metastore: metastore do BigLake
- Um mecanismo de consulta: BigQuery, Apache Spark, Apache Flink, Trino ou outros mecanismos de código aberto
- Uma ferramenta para gravação e análise de dados: várias conexões do BigQuery e de código aberto
O BigLake agrupa todos esses componentes em uma única experiência com governança uniforme. Para mais informações sobre a arquitetura e as inovações do BigLake, consulte BigLake evolved (em inglês).
Selecionar uma metastore
Para seu metastore, recomendamos usar o BigLake Metastore. O metastore do BigLake é um metastore totalmente gerenciado e sem servidor para seu lakehouse no Google Cloud. Ele fornece uma única fonte de verdade para metadados de várias origens e pode ser acessado no BigQuery e em vários mecanismos de processamento de dados abertos, eliminando a necessidade de copiar e sincronizar metadados entre diferentes repositórios com ferramentas personalizadas. O metastore do BigLake é compatível com o Dataplex Universal Catalog, que oferece controles de acesso unificados e refinados em todos os mecanismos compatíveis e permite governança de ponta a ponta, incluindo recursos abrangentes de linhagem, qualidade e capacidade de descoberta de dados.
Selecionar um formato de tabela
Com o BigLake Metastore como o metastore do seu lakehouse aberto, você tem as seguintes opções para o formato das suas tabelas:
- Escolha tabelas padrão do BigQuery para dados gerenciados no BigQuery. Essas tabelas são totalmente gerenciadas pelo BigQuery e têm os recursos mais avançados de análise e gerenciamento de dados. Ainda é possível conectar essas tabelas ao BigLake Metastore. Escolha essa opção para tabelas que não são do Iceberg.
- Escolha Tabelas do BigLake Iceberg no BigQuery para uma experiência totalmente gerenciada no BigQuery. Essas tabelas são do Iceberg, criadas no BigQuery e armazenadas no Cloud Storage. Como todas as tabelas que usam o metastore do BigLake, elas podem ser lidas por mecanismos de código aberto ou pelo BigQuery. No entanto, o BigQuery é o único mecanismo que pode gravar diretamente nelas. Escolha essa opção se quiser que seu fluxo de trabalho de extração, transformação e carregamento (ETL) seja gerenciado pelo BigQuery.
- Escolha Tabelas do BigLake Iceberg para uma experiência semimanual no Google Cloud. Essas tabelas são do Iceberg, criadas com mecanismos de código aberto e armazenadas no Cloud Storage. Como todas as tabelas que usam o metastore do BigLake, elas podem ser lidas por mecanismos de código aberto ou pelo BigQuery. No entanto, somente o mecanismo de código aberto que criou a tabela pode gravar nela. Escolha essa opção se quiser que seu fluxo de trabalho de ETL seja gerenciado pelo mecanismo de código aberto.
- Escolha tabelas externas para tabelas fora do metastore do BigLake. Os dados e metadados dessas tabelas são totalmente autogerenciados, e você depende totalmente dos recursos de formatos de tabela aberta (como Iceberg, Apache Hudi ou Delta Lake). O BigQuery só pode ler essas tabelas. Escolha essa opção para dados e metadados que você quer gerenciar por conta própria em um catálogo de terceiros.
Use a tabela a seguir para comparar as opções de formato de tabela:
Tabelas externas | Tabelas do BigLake Iceberg | Tabelas do BigLake Iceberg no BigQuery | Tabelas padrão do BigQuery | |
---|---|---|---|---|
Metastore | Metastore externa ou auto-hospedada | Metastore do BigLake | Metastore do BigLake | Metastore do BigLake |
Armazenamento | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
Gerenciamento | Cliente ou terceiros | Google (experiência altamente gerenciada) | Google (experiência mais gerenciada) | |
Leitura / gravação |
Mecanismos de código aberto (leitura/gravação) BigQuery (somente leitura) |
Mecanismos de código aberto (leitura/gravação) BigQuery (somente leitura) |
Mecanismos de código aberto (somente leitura com bibliotecas do Iceberg, interoperabilidade de leitura/gravação com a API BigQuery Storage)
BigQuery (leitura/gravação) |
Mecanismos de código aberto (interoperabilidade de leitura/gravação com a API BigQuery Storage) BigQuery (leitura/gravação) |
Use cases | Migrações, tabelas de teste para cargas do BigQuery e autogestão | Open lakehouse | Lakehouse aberto, armazenamento de nível empresarial para análises, streaming e IA | Armazenamento de nível empresarial para análises, streaming e IA |
A seguir
- Saiba mais sobre o metastore do BigLake.