データ分析

Google 生成 AI 向けの Apache Airflow 演算子を発表

2024年8月16日

Christian Yarros

Strategic Cloud Engineer, Google

※この投稿は米国時間 2024 年 8 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。

データ分析の環境は急速に進化しており、生成 AI はこの変革の原動力となっています。データから有意義なコンテンツを生成する生成モデルによって、データドリブンな意思決定へのアプローチ方法が変わってきています。Google Cloud の統合 AI 開発プラットフォームである Vertex AI は、この革新を先導する Gemini のような高性能の生成モデルを提供しています。

このたび、Apache Airflow と、Google Cloud のフルマネージドのワークフローオーケストレーションサービスである Cloud Composer がオーケストレーションを担うデータパイプラインに Vertex AI の生成モデルを統合することが、かつてないほど容易になりました。apache-airflow-providers-google パッケージの最新リリース（バージョン 10.21.0）では、Vertex AI の生成モデルを操作するために次の 3 つの新しい Airflow 演算子が追加されました。

いくつかのユースケースをご紹介し、新しい演算子の使用方法を説明します。

生成 AI を活用したデータパイプライン

このインテグレーションにより、データ分析パイプラインに、以下をはじめとする新たな可能性が開かれます。

自動インサイト: 元データから要約、レポート、その他価値の高い分析情報を生成し、データアナリストの時間とリソースを節約します。
データ拡充: 生成モデルによる合成データでデータセットを強化することで、分析の範囲を拡大し、ダウンストリームアプリケーションを向上させます。
高度な異常検出: 生成モデルを活用してデータ内の異常なパターンや外れ値を特定し、異常検出システムを強化します。
テキスト エンベディング: 非構造化テキストの膨大なコーパスを構造化することで、すべてのテキストを客観的に比較、分析し、分析情報を引き出すことが可能になります。
コンテンツ生成: 説明、タグ、ドキュメント値など、DAG メタデータを提供します。また、パイプラインのコンテキスト認識に基づいて、メールやアラートなどをカスタマイズできます。
翻訳: テキスト、ファイル、その他のコンテンツを Gemini がサポートする 35 以上の言語に翻訳します。

新しい Airflow 演算子の使用

言語モデルを使って予測を生成するには、TextGenerationModelPredictOperator を使用します。

例:

読み込んでいます...

テキストエンベディングを生成するには、TextEmbeddingModelGetEmbeddingsOperator を使用します。

例:

読み込んでいます...

生成モデルを使用してコンテンツを生成するには、GenerativeModelGenerateContentOperator を使用します。

例:

読み込んでいます...

各演算子は、モデルのレスポンスを「model_response」キーの XCom に返します。

可能性のある実践的な用途

上述のユースケースを拡張すると、Vertex AI 生成モデル、Apache Airflow、Google Cloud を連携させることで、次のようなソリューションを実現できる可能性があります。

ターゲット マーケティング: Airflow を使用して、メールキャンペーンの最適化プロセスのスケジュール設定とオーケストレーションを行います。週単位または月単位で Google スプレッドシートから顧客データを抽出し、Google Cloud Storage に保存します。Google 生成モデル Airflow 演算子を使用して顧客データを分析し、顧客セグメントごとにパーソナライズされた複数の件名とコンテンツオプションを作成します。

データ クレンジング: Google Cloud Storage のステージング領域から未加工の顧客データのバッチを処理する Airflow DAG を構築します。Google 生成モデル Airflow 演算子を活用して、住所の検証と標準化を行い、可能な限りエラーを修正し、欠落している情報を入力します。手動による確認が必要な住所にフラグを付け、クレンジングしたデータを BigQuery に読み込みます。

コスト最適化のための異常検出: Airflow DAG を設定して、モニタリング用の API からクラウドリソースの使用状況データを日単位または時間単位で収集します。過去の使用パターンに基づいてトレーニングされた Google 生成モデルをデプロイし、Google 生成モデル Airflow 演算子でモデルを参照することでデータを分析し、CPU 使用量、ネットワークトラフィック、ストレージ消費量の異常な増減を特定します。著しい異常が検出された場合、調査と是正措置のためにインフラストラクチャチームにアラートを送信します。

新しい方法でビジュアル コンテンツを表現する: 画像 / 動画ファイルが Google Cloud Storage にアップロードされたときにトリガーする Airflow DAG を作成します。Google 生成モデル Airflow 演算子のマルチモーダル機能を使用して、これらのファイルを表す表形式データを生成し（例: ファイルメタデータ、時系列オブジェクトの検出、音声文字起こしデータ、フレーム分析）、新しい表形式データを BigQuery に読み込んで、より詳しい分析情報を取得します。

レポートの統合: Google 生成モデル Airflow 演算子を使用して、何百、何千もの関連 PDF ファイルを読み取り、それらをレポートに要約します。手作業によるドキュメントの作成、確認、社内承認の必要性を削減します。Google Cloud Storage に結果をエクスポートします。Rapid evaluation API サービスを使用して結果を評価します。

カスタマー サービスのフィードバックの自動化: 毎日、CCAI カスタマーサービスの文字起こしを Google Cloud Storage にエクスポートします。Google 生成モデル Airflow 演算子を実行し、これらの文字起こしを分析し、カスタマーサービスの改善点についてフィードバックを提供します。結果は BigQuery にエクスポートされるか、カスタマーサービスチームに毎日メールで送信されます。

Airflow DAG とタスクアラートの改善: DAG が失敗した場合、Google 生成モデル Airflow 演算子にエラーメッセージおよび関連する DAG 情報をプロンプト入力します。そのレスポンスは、Cloud Logging のログベースのアラート戦略にコンテキストの理解を追加するため使用します。