Google のデータクラウドでデータ キュレーションを加速
Manpreet Singh
Principal Customer Engineer, Data Analytics
※この投稿は米国時間 2026 年 4 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。
エンタープライズ環境では、データが複数のソースシステムに細かく断片化されていることがよくあります。データ キュレーションは、元データを整理、クリーニング、拡充して、高品質な AI 対応データアセットに変換するプロセスです。ETL ツール、手動の SQL、Python を使用して元データのマージやクリーンアップを行い、ダッシュボードを構築するという従来の方法では、このプロセスは AI と分析にとって主なボトルネックになります。
Google のデータクラウドには、分析情報が得られるまでの時間を短縮し、これらのワークフローを自動化するために設計されたキュレーション アクセラレータがいくつか用意されています。
1. 半構造化データに対する Cloud Storage での自動検出
最新のキュレーションの最初のステップは、Cloud Storage 内のダークデータのカタログ化を手動で行う手間を省くことです。
-
自動データ検出: Dataplex Universal Catalog の自動検出機能は、GCS バケットをスキャンして、自動的に構造化データ用の外部テーブルを作成し、メタデータをカタログ化します。
-
アドホック分析: バイブクエリを介して Gemini を活用した分析を即座に行い、価値と品質を評価できます。従来の ETL プロセスでデータを読み込む必要がありません。
-
ガバナンスの統合: きめ細かいアクセス制御と自動メタデータ生成を元データのストレージ レイヤに直接適用でき、最初からセキュリティとガバナンスを組み込めます。
2. メタデータのキュレーションと拡張
キュレーションの加速では、列と行からデータのセマンティック理解への移行が重要なポイントとなっています。
-
自動インサイト: データ分析情報機能は、列の説明、リレーションシップのグラフ、自然言語で提案された質問を自動的に生成します。これにより、メタデータのドキュメント化が迅速化され、新しいデータや未知のデータに直面した際の初期の探索と分析が加速されます。
-
会話型分析のグラウンディング: これらの分析情報は、後でデータ内の会話型分析のグラウンディングに役立ち、エージェントはアセットがビジネスにどのように関連しているかを理解するための追加のコンテキストを得ることができます。これにより、自然言語を使用してデータとチャットする際の回答の精度が向上します。
3. 統合ガバナンス: 品質、プロファイリング、リネージ
信頼できるキュレーションには、データの健全性と移動を追跡する堅牢なメタデータ フレームワークが必要です。
-
データ プロファイリング: データ プロファイリングは、統計的特性(null の数、分布など)を自動的に特定して、異常を早期に検出します。
-
品質管理: ユーザーはデータ品質チェックを定義して実行し、データが組織の品質基準を満たしていることを確認できます。自動データ品質を使用すると、スキャンの自動化、ルールに照らしたデータの検証、データが品質要件を満たしていない場合のアラートの記録を行うことができます。
-
リネージ追跡: テーブルレベルと列レベルのリネージにより、エンジニアはデータが変換を通じてどのように移動しているかを追跡できます。この透明性により、キュレーションが加速され、パイプライン エラーのデバッグが容易になります。
4. パイプライン開発のためのエージェント ワークフロー
Google のデータクラウドには、取り込みと変換のための高負荷のコード生成を処理する AI エージェントが導入されています。
-
データ エンジニアリング エージェント: このエージェントを利用すると、Gemini in BigQuery を活用して、自然言語を使用するか、技術設計ドキュメントを渡すことでパイプラインを構築および管理できます。
-
データ サイエンス エージェント: このエージェントは Colab Enterprise ノートブックと BigQuery ノートブックに統合されていて、探索的データ分析(EDA)の自動化や、複雑な ML 対応パイプラインの Python / PySpark コードの生成に利用できます。
5. カタログ主導のアセット検出とデータ プロダクト
大規模な組織で作業の重複をなくすには、キュレーションでの再利用と社内マーケットプレイスに重点を置く必要があります。
-
まず検出: 新しいパイプラインを構築する前に、チームは Dataplex Data Catalog を使用して既存のアセットを検出します。
-
データ プロダクト: データは、データアセットの論理的グループ化で拡充されたデータ プロダクトとして公開され、特定のビジネス上の問題を解決するために、検出可能で信頼性が高く、アクセス可能であることを保証するために正式にパッケージ化されます。
-
BigQuery Sharing(旧称: Analytics Hub): この機能により、インプレース共有が可能になり、社内チームとサードパーティ チームがデータを移動またはコピーすることなく、キュレートされたデータにアクセスできるようになり、信頼できる唯一の情報源が維持されます。
6. マルチモーダル データのキュレーションのための組み込み AI 機能
企業が生成するマルチモーダル データが増加するにつれて、キュレーションは画像、音声、ドキュメントなどの非構造化形式にも及ぶようになりました。以下に示す機能は、こうした進化するニーズに対応します。
-
生成 AI 関数で再定義された SQL: データチームは、標準 SQL 演算子を使用することで、ML の専門知識がなくても品質や基準によってデータを分類、ランク付けできます。BigQuery の AI 関数を使用すると、ユーザーは感情分析、要約、エンティティ抽出を SQL ステートメント内で直接実行できます。
-
エンベディングの生成: キュレーション パイプラインでベクトル エンベディングを生成できるようになり、類似検索、プロダクト レコメンデーション、ログ分析、エンティティ解決、重複除去などのユースケースを大規模なデータセット全体で実現できます。
-
マルチモーダル テーブル: これを使用すると、非構造化データを標準テーブルに統合し、SQL を使用してマルチモーダル データを操作できます。
7. 継続的クエリによるリアルタイムのキュレーション
リアルタイムのキュレーションを実現するために、BigQuery には、データが継続的に移動する場合もノーコードの取り込みと SQL ベースの変換を可能にする簡単な方法が用意されています。
-
Pub/Sub から BigQuery へ: 直接サブスクリプションにより、ストリーミング データを BigQuery テーブルにノーコードで取り込むことができます。
-
継続的クエリ: これは、継続的に実行される SQL ステートメントであり、受信データをリアルタイムで処理します。キュレートされた出力は、Pub/Sub、Bigtable、または Spanner に即座にストリーミングでき、ダウンストリーム アプリケーションやリアルタイム ダッシュボードの強化につながります。
まとめると、これらのキュレーション アクセラレータは、最も時間のかかるステップを自動化することで、データのクリーニングと整理という低速な手作業をなくします。準備にかかる時間を短縮し、意思決定に費やす時間を増やしましょう。これらのキュレーション アクセラレータを今すぐお試しください。
- データ分析担当プリンシパル カスタマー エンジニア、Manpreet Singh



