コンテンツに移動
データ分析

データ エンジニアリング エージェントのプレビュー版を提供開始

2025年11月7日
Tim Bezold

Product Management, Data Engineering Agent

Varun Chandra

Engineering Manager, Data Engineering Agent

Try Gemini Enterprise Business Edition today

The front door to AI in the workplace

Try now

※この投稿は米国時間 2025 年 11 月 4 日に、Google Cloud blog に投稿されたものの抄訳です。

データは現代の企業にとって生命線ですが、それを有効活用するプロセスには多くの摩擦が伴います。データ エンジニア、アナリスト、データ サイエンティストは、組織の中でも最も専門性が高く価値のある人材ですが、その多くの時間を反復的で影響の小さい作業に費やしています。パイプラインを手作業で構築、維持する代わりに、それを自動化するためのベスト プラクティスやルールの定義に集中できたらどうでしょうか。

本日、Google はこの課題を解決するための大きな転換点となる発表を行いました。Gemini のテクノロジーを活用し、最も複雑で時間のかかるデータ エンジニアリング作業を自動化するように設計されたファーストパーティ エージェント、BigQuery データ エンジニアリング エージェントのプレビュー版を発表しました。

この Data Engineering Agent は単なる機能改善にとどまりません。真に自律的なデータ エンジニアリング オペレーションによって、私たちの働き方そのものを変革します。IDC によると、「生成 AI やその他の自動化ソリューションにより、2026 年までに企業は 1 兆ドルを超える生産性向上を実現する見込みです1」と報告されています。

現在利用できる強力な機能を詳しく見ていきましょう。

パイプラインの開発とメンテナンス

Data Engineering Agent を使えば、堅牢なデータ パイプラインを簡単に構築、維持できます。このエージェントは BigQuery パイプラインで利用でき、次の作業をサポートします。

  • 自然言語によるパイプラインの作成: パイプラインの要件を自然な言葉で説明するだけで、エージェントが必要な SQL コードを自動生成します。生成されたコードは、指示ファイルを使ってカスタマイズできるデータ エンジニアリングのベスト プラクティスに準拠しています。たとえば、「customer_orders バケットからデータを読み込み、日付形式を標準化し、重複を削除して clean_orders という名前の BigQuery テーブルにロードするパイプラインを作成して」といった指示です。

  • インテリジェントなパイプラインの変更: 既存のパイプラインを更新する場合は、変更する内容をエージェントに伝えるだけで OK です。エージェントが既存のコードを分析し、必要な変更を提案してくれるので、ユーザーはそれを確認して承認するだけで済みます。たとえば、「customer_orders バケットからデータを取り込み、日付形式を標準化し、重複を削除して clean_orders という名前の BigQuery テーブルにロードするパイプラインを作成して」といった指示です。エージェントは、ベスト プラクティスに基づいた設計原則に従い、既存のパイプラインを最適化、再設計して冗長な処理を排除し、さらにパーティショニングなどの BigQuery のクエリ最適化機能を活用できるようにします。

  • Dataplex Universal Catalog との統合: このエージェントは、Google Cloud のデータ ガバナンス サービスである Dataplex を活用します。Dataplex からビジネス用語集やデータ プロファイルなどの追加メタデータを自動取得し、新しいテーブルのメタデータ生成やパイプラインの関連性、パフォーマンスを向上させます。

  • カスタム指示とロジックの組み込み: カスタム指示を設定し、パイプライン内でユーザー定義関数(UDF)を活用することで、独自のビジネス ロジックやエンジニアリングのベスト プラクティスを組み込むことができます。

  • コード ドキュメントの自動生成: エージェントは、パイプラインの明確で簡潔なドキュメントを列の説明とともに自動生成します。これにより、チーム全体のパイプラインに対する理解が進み、保守も容易になります。

スペイン語のニュースとエンターテイメント グループである PRISA Media は、早期アクセスのお客様として、データ エンジニアリング エージェントを試用し、良好な成果を上げています。

このエージェントは、新しい開発アプローチを模索できるソリューションを提供し、複雑なデータ エンジニアリング タスクに対応できる大きな可能性を示しています。SCD Type 2 ディメンションの作成といった高度なデータ モデリング タスクでも、要件を正確に解釈する優れた能力を発揮します。現時点でも、メンテナンスや小規模な最適化の自動化によってすでに価値をもたらしており、将来的には真に際立ったツールへと進化するための基盤が整っていると考えています。」- スペイン語のニュースとエンターテイメント グループ PRISA リードデータ エンジニア Fernando Calo 氏

データの準備、変換、モデリング

データ プロジェクトの最初のステップは、多くの場合、最も時間がかかるフェーズです。それは、未加工データの理解、準備、クリーニングです。たとえば、データ エンジニアリング エージェントを使えば、Google Cloud Storage に保存された未加工ファイルにアクセスできます。エージェントは、提供された指示に基づいてデータを自動的にクリーンアップし、重複を削除し、フォーマットや標準化を行います。Dataplex との統合により、Dataplex リポジトリで定義されたルールに基づいてデータ品質アサーションを生成し、個人情報(PII)を含むとフラグ付けされた列を自動的に暗号化できます。データ品質の問題を特定したり、形式を標準化したりするために、複雑なクエリを作成する必要はもうありません。

さらに、エージェントは必要なコードを生成して主要なデータ変換タスクを実行し、分析用データの準備にかかる時間を大幅に短縮します。このプロセスでは、データセットの結合や集計などの操作を自動化します。

また、複雑なデータ モデリングもサポートします。自然言語のプロンプトを使用して、ソーステーブルから直接、データボールトやスター スキーマといった高度なスキーマを生成できます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/image2_0HJ21Mv.gif

パイプラインのトラブルシューティング

問題が発生した場合は、データ エンジニアリング エージェントが迅速な特定と解決を支援します。ログやコードを手作業で調べる代わりに、エージェントを呼び出して問題を診断できます。このデータ エンジニアリング エージェントは Gemini Cloud Assist と統合されており、実行ログを分析して障害の根本原因を特定し、解決策を提案します。これにより、パイプラインをこれまでにない速さで復旧、再稼働させることができます。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/2_-_troubleshoot_1.gif

パイプラインの移行

データスタックのモダナイズを進めたいと考えているチームでは、データ エンジニアリング エージェントが、統合された Google Cloud データ プラットフォームへの移行を大幅にスピードアップできます。Vodafone が BigQuery に移行した際も、その効果が発揮されました。

Dataform 環境への移行の過程で、データ エンジニア エージェントは既存のすべてのデータと変換スクリプトを 100% 自動的に複製し、手作業による介入なしで処理することに成功しました。この取り組みにより、手作業による ETL 移行に通常かかる時間を 90% 短縮し、移行プロセスを大幅に加速させることができました。」- Vodafone エンジニアリング責任者 Chris Benfield 氏

お客様はすでに BigQuery パイプラインに移行し、次のような成果を上げています。

  • コードの標準化と統合: 処理エンジンを統合する場合は、エージェントが BigQuery パイプラインの標準化を支援します。既存のコードをエージェントに渡すだけで、同等の最適化済み BigQuery パイプラインが自動生成され、運用の複雑さやコストを削減できます。

  • レガシーツールからの移行: エージェントは、レガシーデータ処理ツールで使用されている独自形式や構成を、ネイティブな BigQuery パイプラインに変換します。

今後の展望

データ エンジニアリング エージェントの歩みは、まだ始まったばかりです。Google は、データ エンジニアリング チームが直面するさまざまな課題に対応できるよう、機能拡張を継続的に進めています。今後は、Cloud Composer におけるパイプラインのオーケストレーション、プロアクティブなトラブルシューティング、IDE との統合など、エージェントの対応領域がさらに広がっていく予定です。

使ってみる

BigQuery データ エンジニアリング エージェントは今すぐご利用いただけます。この新しいインテリジェント パートナーを、日々の業務でどのように活用していただけるのかを楽しみにしています。

データ エンジニアリング ワークフローを次のステージへ進めましょう

  1. エージェントへのアクセス: BigQuery Studio の BigQuery Pipelines または Dataform UI に移動し、画面の [エージェントに質問] ボタンから利用できます。

  2. 詳細: 設定手順やベスト プラクティスは公式ドキュメントをご覧ください。

  3. フィードバック: ご意見やご要望は bigquery-dea-feedback@google.com までメールでお寄せください

1. IDC Market Perspective、GenAI's Impact on Enterprise Software、#US52547624、2024 年 9 月

-データ エンジニアリング エージェント担当プロダクト マネジメント Tim Bezold

-データ エンジニアリング エージェント担当エンジニアリング マネージャー Varun Chandr

投稿先