BigLake 是一個儲存引擎,提供整合式介面,可讓數據分析和 AI 引擎以安全、受管理且高效能的方式查詢多重格式、多雲端和多模組資料。建構單一副本 AI 湖倉,降低對自訂資料基礎架構的管理和需求。
Google 在 2024 年 SIGMOD 活動中發表的新研究「BigQuery's Evolution toward a Multi-Cloud Lakehouse」,持續推動創新。
部署 Google 推薦的解決方案,整合資料湖泊和資料倉儲,輕鬆儲存、處理及分析結構化和非結構化資料
使用數據分析與 AI,儲存結構化資料、非結構化資料及查詢的單一副本
對分散式資料進行精細的存取權控管和多雲端管理
開放格式的湖倉資料自動資料管理,提供全代管體驗
優點
無論資料儲存的位置和方式為何,您都能運用分散式資料進行數據分析,同時透過單一資料副本選擇最佳分析工具、開放原始碼或雲端原生服務。
提供 Apache Spark、Presto 和 Trino 等開放原始碼引擎的精細存取權控管機制,以及 Parquet 等開放格式。針對 BigQuery 支援的資料湖泊執行效能查詢。
與 Dataplex 相互整合,大規模提供管理服務,包括邏輯資料組織、集中式政策與中繼資料管理、品質與生命週期管理,以實現分散式資料一致性。
主要功能與特色
使用 BigLake,就不必為使用者授予檔案層級存取權。您可以對與現有 BigQuery 資料表類似的物件儲存資料表,套用資料表、資料列、資料欄層級的安全性政策。
探索所有 BigLake 資料表,包括在 Data Catalog 中透過 Amazon S3、Azure Data Lake Gen2 定義的表格。設定精細的存取權控管,並在透過 BigQuery Omni 查詢時,跨雲端強制實行此設定。
物件資料表可讓受管理的 AI 工作負載使用多模組資料。使用 BigQuery SQL 及其 Vertex AI 整合功能,輕鬆建構 AI 用途。
支援開放式資料表和檔案格式,包括 Parquet、Avro、ORC、CSV、JSON。這個 API 透過 Apache Arrow 提供多個運算引擎。資料表格式透過資訊清單原生支援 Apache Iceberg、Delta 和 Hudi。
說明文件
定價
BigLake 會依據 BigLake 資料表的查詢作業來計價,包括:
1. BigQuery 定價適用於在 Google Cloud Storage 中定義的 BigLake 資料表查詢。
2. BigQuery Omni 定價適用於在 Amazon S3 和 Azure Data Lake Gen 2 中定義的 BigLake 資料表查詢。
3. 使用 BigLake 連接器的開放原始碼引擎查詢:BigLake 連接器使用 BigQuery Storage API,且適用相應的定價 - 根據讀取的位元組數和輸出計費。
4. 如使用中繼資料快取、物件資料表和 BigLake Metastore 加速查詢,系統將收取額外費用。
例如:* 每個月可免費使用 BigQuery 處理 1 TB 的資料。