BigLake は、分析エンジンと AI エンジンでマルチフォーマット、マルチクラウド、マルチモーダルのデータを安全かつ管理されたパフォーマンスの高い方法でクエリするための統合インターフェースを提供するストレージ エンジンです。カスタム データ インフラストラクチャの管理と必要性を削減するように設計された単一コピーの AI レイクハウスを構築できます。
2024 年の SIGMOD イベントでは、新しい調査 BigQuery's Evolution toward a Multi-Cloud Lakehouse(BigQuery のマルチクラウド レイクハウスに向けた進化)などの継続的なイノベーションについて発表する予定です。
データレイクとデータ ウェアハウスを統合して、構造化データと非構造化データの両方を保存、処理、分析できる Google 推奨のソリューションをデプロイしましょう
分析と AI を使用して、構造化データと非構造化データとクエリの単一コピーを保存
分散データに対するきめ細かいアクセス制御とマルチクラウド ガバナンス。
オープン形式のレイクハウスの自動データ管理によるフルマネージド エクスペリエンス
利点
データの保存場所や方法に関係なく、分散データの分析が可能になります。また、データのコピーの 1 つを基にして、最適な分析ツール、オープンソース、またはクラウド ネイティブを選択できます。
Apache Spark、Presto、Trino などのオープンソース エンジンや Parquet などのオープン フォーマットをカバーするきめ細かなアクセス制御。BigQuery を利用したデータレイクで効率の良いクエリを行います。
Dataplex と統合して、論理データ編成、ポリシーとメタデータの一元管理、品質とライフサイクル管理などの大規模な管理を行い、分散データ間の整合性を確保します。
主な機能
BigLake を使用すると、エンドユーザーにファイルレベルのアクセス権を付与する必要がなくなります。既存の BigQuery テーブルと同様のオブジェクト ストア テーブルに、テーブル、行、列レベルのセキュリティ ポリシーを適用します。
Amazon S3、Azure データレイク Gen 2 で定義したものも含め、すべての BigLake テーブルを Data Catalog で探します。 BigQuery Omni を使用してクエリを実行する場合、きめ細かいアクセス制御を構成して、クラウド全体で適用させます。
オブジェクト テーブルを使用すると、管理された AI ワークロードにマルチモーダルなデータを使用できます。BigQuery SQL とその Vertex AI インテグレーションを使用して、AI ユースケースを簡単に構築できます。
Parquet、Avro、ORC、CSV、JSON などのオープンソースのテーブル形式とファイル形式をサポート。この API は、Apache Arrow で複数のコンピューティング エンジンに対応します。テーブル形式は、マニフェストを介して Apache Iceberg、Delta、Hudi をネイティブにサポートしています。
ドキュメント
Cloud Storage BigLake テーブルに保存されているデータに対してクエリを実行する方法を学習します。
料金
BigLake の料金は、次のような BigLake テーブルに対するクエリに基づいています。
1. BigQuery の料金は、Google Cloud Storage で定義された BigLake テーブルに対するクエリに適用されます。
2. Amazon S3 と Azure Data Lake Gen 2 で定義された BigLake テーブルに対するクエリには BigQuery Omni の料金が適用されます。
3. BigLake コネクタを使用するオープンソース エンジンからのクエリ: BigLake コネクタは BigQuery Storage API を使用し、対応する料金が適用されます(バイト数の読み取りと下りの料金が請求されます)。
4. メタデータ キャッシュ保存、オブジェクト テーブル、BigLake Metastore を使用したクエリの高速化には、追加の費用が適用されます。
例: * 毎月 1 TB までは、BigQuery でのデータ処理を無料でご利用いただけます。