分析を加速する BigQuery での AI を活用したデータ準備機能、一般提供開始
Tim Bezold
Product Manager
Amit Virmani
Engineering Manager
※この投稿は米国時間 2025 年 4 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。
Gartner® によると、Gartner の多くの顧客が、現在の業務時間の 90% 以上(複雑な業界では 94% 程度まで)を、高度な分析、データ サイエンス、データ エンジニアリングのためのデータ準備に費やしていると報告しています1。昨年、Google は BigQuery のデータ準備機能を導入しました。これにより、データ分析チームは Gemini in BigQuery を使用してデータを整理できるようになりました。Gemini がデータとスキーマを分析し、データのクリーニング、変換、拡充に関するコンテキストアウェアな提案を提供するため、データ準備の面倒な作業が簡単に行えます。
BigQuery のデータ準備へのアプローチは、データ パイプライン構築の自動化にも役立ちます。これにより、さまざまな技術的バックグラウンドを持つユーザーが、SQL の習熟度に関係なく、分析用データを効率的に準備できます。データが準備できたら、BigQuery のサーバーレスかつクラウドネイティブな AI 対応データ分析プラットフォームで、データ統合ワークロードを実行できます。
Google はこのたび、BigQuery のデータ準備機能の一般提供を開始しました。BigQuery パイプラインとも統合し、データの取り込みと変換のタスクを接続して、すべて統合された環境で、増分処理を伴うエンドツーエンドのデータ パイプラインを作成できるようになりました。BigQuery のデータ準備機能によって生成されたすべての変換を SQL コードとして表示し、BigQuery リポジトリと Git を使用してコードを共同編集および管理できます。


BigQuery のデータ準備機能の復習
BigQuery のデータ準備機能は Gemini を活用して、データ準備プロセス全体を通してインテリジェントなガイダンスを提供します。以下に例を示します。
-
包括的な変換機能: データ準備機能は BigQuery で実行されるため、型変換、文字列操作、日付と時刻の演算、JSON 抽出など、幅広いデータ変換関数をサポートしています。
-
データ標準化: Gemini in BigQuery は、データとスキーマを分析して、データのクリーニングと変換に関するインテリジェントな提案を提供します。たとえば、有効な日付形式を識別し、それに応じてデータを標準化できます。
-
自動スキーマ マッピング: 組み込みのスキーマ処理により、スキーマ ドリフトを管理し、本番環境パイプラインの障害を防ぐことができます。
-
データ拡充のための AI が提案する結合キー: BigQuery のデータ準備機能は、データを分析し、データ拡充のために関連する結合キーを提案します。
さらに、視覚的なローコード データ パイプライン機能も利用できます。
-
視覚的なデータ パイプライン: ユーザー フレンドリーでローコードの視覚的なインターフェースで、複雑なデータ パイプラインを設計、実行、モニタリングできます。BigQuery のフルマネージドかつ完全にサーバーレスなプラットフォーム上での費用対効果の高い処理は、あらゆるユースケースにスケーリングできます。変更されたデータをより効率的に伝播させるために、データを増分処理するように準備を構成することもできます。
-
エラーテーブルを使用したデータ品質の適用: 検証ルールを定義し、無効な行を指定されたエラーテーブルに自動的にルーティングすることで、データの品質と整合性を確保します。
-
GitHub インテグレーションによるデプロイの合理化: パイプクエリ構文でデータ準備を表示し、バージョン管理のために Git リポジトリにエクスポートできます。
BigQuery パイプラインでタスク全体を統合
データ準備タスクを含む一連のデータ処理タスクを、BigQuery パイプラインで、定義した順序で視覚的に接続できるようになりました。BigQuery パイプラインとのデータ準備の統合により、自動化とオーケストレーションのフローの一部としてデータ準備を簡単に追加でき、データの取り込み、準備、変換、読み込みを含むエンドツーエンドのデータ パイプラインを実現できます。


BigQuery リポジトリで CL を管理する
データ準備機能では、パイプクエリ構文で SQL コードが生成されるようになりました。これにより、複雑なクエリが簡素化され、読みやすさが向上します。また、データ エンジニアはデータ準備コードを簡単に確認し、より大きなパイプラインに含め、データ準備を CI / CD プロセスに統合して、コラボレーション、バージョン管理、自動デプロイを改善できます。この透明性で、ビジュアル変換とコードのギャップが埋まり、チームや好みを越えて連携しやすくなります。
BigQuery のデータ準備機能は BigQuery リポジトリおよび Git との統合により、データ準備アセットに堅牢なバージョン管理とコラボレーション機能を提供します。データ準備をコード アーティファクトとして扱い、リポジトリにチェックインすることで、変更の追跡およびチームメンバーとの共同作業が可能になり、必要に応じて以前のバージョンに戻すこともできます。この統合により、開発プロセスが合理化され、コードの再利用が促進されて、データ準備ロジックの管理と監査が容易になります。


お客様の声
北米における屋根材の大手メーカーである GAF は、BigQuery 上でデータ変換パイプラインを作成するためにデータ準備機能を採用しています。
「GAF は ETL インフラストラクチャのモダナイゼーションを検討していたため、BigQuery ネイティブのローコード ソリューションを採用しました。BigQuery のデータ準備機能は、当社の熟練したビジネス ユーザーと分析チームがデータ準備プロセスでセルフサービス分析を可能にするのに役立つでしょう。」- GAF、エンタープライズ データ管理および分析担当マネージメント ディレクター Puja Panchagnula 氏
mCloud Technologies は、エネルギー、建築、製造などの分野の企業が、資産のパフォーマンス、信頼性、サステナビリティを最適化できるよう支援しています。
「当社はパートナー企業からファイル データフィードを受け取っています。BigQuery のデータ準備機能により、プロダクト マネージャーはデータ エンジニアリング チームのサポートをほとんど、あるいはまったく必要とせずに、データの準備と運用を行うことができます。」- mCloud Technologies、最高製品および技術責任者 Jim Christian 氏
Public Value Technologies は、ドイツの公共放送機関(ARD)2 社による合弁企業です。
「Public Value Technologies は、当社のデータメッシュ ソリューションと AI アプリケーション用に、メディア パートナーからデータフィードを受け取っています。BigQuery のデータ準備機能により、当社のデータ アナリストとデータ サイエンティストは、データを標準化および前処理するデータフィードをローコード方法で迅速に統合できるようになりました。」- Public Value Technologies、データ エンジニア チームリード Korbinian Schwinger 氏
始める
BigQuery のデータ準備機能は、強力な AI 機能、直感的なインターフェース、BigQuery データ パイプラインとの緊密な統合により、組織がデータを管理および準備する方法に革命をもたらします。この革新的なソリューションは、煩雑な作業を自動化し、データ品質を向上させ、ユーザーを支援することで、データの準備に費やす時間を削減し、生産性を向上させます。
BigQuery データ準備機能の利用を開始するには、以下のリソースをご覧ください。
-
一般公開ドキュメントを参照する
-
5 分間のデモ動画を見る
-
チュートリアルに沿って操作する
1. Gartner, State of Metadata Management: Aggressively Pursue Metadata to Enable AI and Generative AI、Mark Beyer、Guido De Simoni、2024 年 9 月 4 日。Gartner は、Gartner, Inc. またはその関係会社の米国およびその他の国における登録商標およびサービスマークであり、同社の許可を得て使用されているものです。All rights reserved.
-プロダクト マネージャー Tim Bezold
-エンジニアリング マネージャー Amit Virmani