コンテンツに移動
データ分析

BigQuery の新しいデータ エンジニアリング エージェントでデータ パイプラインを自動化

2025年5月1日
Firat Tekiner

Product Management

Honza Fedak

Director of Engineering

Try Gemini 2.5

Our most intelligent model is now available on Vertex AI

Try now

※この投稿は米国時間 2025 年 4 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。

長年にわたり、データチームは BigQuery プラットフォームを活用して分析を強化し、重要なビジネス分析情報を引き出してきました。しかし、こうした分析情報を提供するデータパイプラインの構築、管理、トラブルシューティングは複雑で時間のかかるプロセスであり、専門的な知識と多くの手作業を必要とします。本日発表する BigQuery データ エンジニアリング エージェントは、データ エンジニアリングの簡素化と高速化を推進する Google のビジョンの大きな一歩となるものです。

このエージェントは単なる支援ツールを超えたエージェント ソリューションとして設計されており、データ ワークフローにおいてお客様のインテリジェントなパートナーとして機能します。面倒なタスクを自動化し、チームメンバーと連携し、継続的に学習と適応を繰り返すことで、チームメンバーがデータから価値を引き出すという最も重要な業務に集中できるようにします。

データ エンジニアリング エージェントが必要な理由

データの世界は絶えず変化しています。組織はかつてないほど多くのデータを生成しており、そのデータのソースや形式も多岐にわたります。そして、企業が競争力を維持するためには、より迅速に行動し、データドリブンな意思決定を行うことが求められます。

このことから課題が生じ、従来のデータ エンジニアリングのアプローチでは、以下のようなことがよく見られました。

  • 煩雑な手動コーディング: パイプラインの構築や変更には、複雑な SQL クエリの作成や更新が必要になることがあります。これは時間がかかり、エラーが発生しやすい作業です。

  • スキーマにおける課題: さまざまなソースのデータを適切な形式にマッピングする作業は、特に、スキーマが進化するにつれ、時間がかかるものになっていきます。

  • トラブルシューティングが困難: パイプラインの問題を診断して修正するには、長時間にわたってログやコードを精査しなければならないことがあり、そのような場合には重要な分析情報を引き出すまでに時間がかかります。

  • 専門知識のサイロ化: パイプラインの構築と維持には専門的なスキルが必要であることが多く、ボトルネックが生じたり、作業に従事できる人材が限られたりする場合があります。

BigQuery データ エンジニアリング エージェントは、これらの課題に正面から取り組み、データ パイプラインの構築と管理を促進することを目的としています。

AI を活用した新しいデータ エンジニアリング チーム

24 時間 365 日いつでも対応可能な、熟練のデータ エンジニアのチームがパイプラインの開発、メンテナンス、トラブルシューティングといった面倒な作業にすぐに対応し、データチームがより多くの、より価値の高い作業に集中できるようサポートしてくれることを想像してみてください。Google は、それを実現するデータ エンジニアリング エージェントの試験運用版の提供を開始します。

BigQuery データ エンジニアリング エージェントがどのような点でゲーム チェンジャーとなるのか、そのいくつかを以下に紹介します。

1. パイプラインの自律的な構築と変更

データの取り込み、変換、検証を行うための新しいパイプラインが必要な場合は、自然言語で必要なことを説明すれば、あとはエージェントが処理します。次に例を示します。

「customer_orders バケットからデータを読み込み、日付形式を標準化し、注文 ID に基づいて重複エントリを削除して clean_orders という名前の BigQuery テーブルに読み込むパイプラインを作成して。」

エージェントは、データ エンジニアリングのベスト プラクティスとお客様固有の環境とコンテキストを理解して、必要な SQL コードを生成し、パイプラインを構築し、基本的な単体テストを作成します。これは単なる自動化でなく、インテリジェントかつコンテキストアウェアの自動化です。

既存のパイプラインを更新する必要がある場合は、変更したい内容をエージェントに伝えるだけです。エージェントは、既存のコードを分析して変更案を提案するだけでなく、ダウンストリーム プロセスにどのような影響が及ぶ可能性があるかも示します。変更内容の確認と承認はお客様が行うので制御権は変わらずお客様にありますが、面倒な作業はエージェントが担当します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/DataEngBlog_-_Image_1.max-1600x1600.png

2. 予防的トラブルシューティングと最適化

パイプラインの問題は、エージェントがパイプラインをモニタリングし、スキーマやデータドリフトなどの問題を特定して修正案を提案します。専任のエキスパートがデータ インフラストラクチャを常に監視しているようなものです。

https://storage.googleapis.com/gweb-cloudblog-publish/images/DataEngBlog_-_Image_2.max-1600x1600.png

3. パイプラインの一括作成

データ エンジニアリング エージェントの強力な用途の一つは、以前に取得したコンテキストや知識を使用してパイプラインの生成や変更をスケーリングすることです。これにより、さまざまな部門やユースケースに合わせて、必要に応じてカスタマイズを行いつつ、パイプラインを迅速にスケーリングできます。大規模な自動化には、コマンドラインや API を使用します。以下の例では、エージェントがコマンドラインから指示を受け取り、分野固有のエージェントの指示を利用して、パイプラインを一括作成しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/DataEngBlog_-_Image_3.max-1200x1200.png

仕組み: これらを支えるインテリジェンス

エージェントは、多くの組織が直面する複雑さに対処するために、以下のような重要なコンセプトに基づいて機能します。

  • 階層的なコンテキスト: エージェントは以下のような複数の情報源を活用します。

    • 普遍的な理解(一般的なデータ形式、SQL のベスト プラクティスなど)

    • 業界の慣習に関する業種固有の知識(医療や金融におけるデータ形式など)

    • 組織の認識(会社や部門に固有のビジネス コンテキスト、データ構造、命名規則、セキュリティ ポリシーなど)

    • データ パイプライン固有の情報の理解(ソースとターゲットのスキーマ、変換、依存関係などの詳細)

  • 継続的な学習: エージェントは指示に従うだけでなく、ユーザーとのやり取りや以前に開発されたパイプラインから学習します。エージェントの知識は、お客様の環境で作業を行うにつれて、時間の経過とともに継続的に向上していきます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/DataEngBlog_-_Image_4.max-1100x1100.png

連携するマルチエージェント環境

BigQuery データ エンジニアリング エージェントは、専門エージェントが連携して複雑な目標を達成するマルチエージェント環境の一部です。各エージェントは実際のデータ エンジニアリング チームのように、相互に協力したりタスクを委任したりします。

  • 取り込みエージェント: さまざまなソースからのデータの取り込みを専門的に処理します。

  • 変換エージェント: 効率的で信頼性の高いデータ パイプラインを作成します。

  • 検証エージェント: データの品質と整合性を確保します。

  • トラブルシューティング エージェント: 問題を事前に特定して解決します。

  • データ品質エージェント: Dataplex メタデータを利用して、データをモニタリングして異常を事前に通知します。

初期段階として、取り込み、変換、トラブルシューティングのタスクに重点を置いていますが、これらの初期の機能は他の重要なデータ エンジニアリング タスクにも拡大する予定です。

ワークフローを自由にカスタマイズ

Google では、BigQuery Studio の UI で作業する、お気に入りの IDE でコードを作成する、コマンドラインからパイプラインを管理するなど、どのような場合でもサポートできるようにしたいと考えています。データ エンジニアリング エージェントは、現時点では BigQuery Studio のパイプライン エディタと API / CLI での利用に限られますが、今後他のコンテキストでも使用できるようにしていく予定です。

データ エンジニアリング エージェントとデータ ワーカー

AI を活用したエージェントは、データ ワーカーがデータとやり取りする方法や、データから価値を引き出す方法を変革するものですが、現状ではその可能性のほんの一部が発揮されているにすぎません。BigQuery データ エンジニアリング エージェントにより、データ エンジニア、データ アナリスト、データ サイエンティストの役割は従来の境界を超えて拡大し、それらのチームはより多くのことをより迅速に、より確実に達成できるようになります。こうしたエージェントはインテリジェントな協力者として機能し、ワークフローを効率化し、煩雑なタスクを自動化し、生産性を新たなレベルへと引き上げます。初期段階として、データレイク内のデータをブロンズからシルバーに昇格させるというコアなデータエンジニアリング タスクに焦点を当て、そこから拡大していく予定です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/DataEngBlog_-_Image_6.max-1500x1500.png

BigQuery データ エンジニアリング エージェントは、Dataplex、BigQuery ML、Vertex AI などのプロダクトと組み合わせることで、データを管理し、処理し、そこから価値を引き出す方法を変革できます。複雑なタスクを自動化し、コラボレーションを促進し、あらゆるスキルレベルのデータ ワーカーを支援することで、データドリブンなイノベーションの新しい時代への道を切り拓きます。

準備ができたら

真にインテリジェントで自律的なデータ プラットフォームを構築するための取り組みはまだ始まったばかりです。今後も、お客様のあらゆるデータニーズに対応する、より強力で直感的なパートナーとして機能するように、データ エンジニアリング エージェントを継続的に拡張していきます。

BigQuery データ エンジニアリング エージェントはまもなくご利用いただけるようになります。お客様のデータ エンジニアリング ワークフローに適合させ、データの可能性を最大限に引き出すためにご活用くださることを楽しみにしています。ご利用をご希望の場合は、こちらからご登録ください。

-プロダクト マネジメント Firat Tekiner
-エンジニアリング担当ディレクター Honza Fedak

投稿先