コンテンツに移動
データ分析

Google 生成 AI 向けの Apache Airflow 演算子を発表

2024年8月16日
Christian Yarros

Strategic Cloud Engineer, Google

※この投稿は米国時間 2024 年 8 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。

データ分析の環境は急速に進化しており、生成 AI はこの変革の原動力となっています。データから有意義なコンテンツを生成する生成モデルによって、データドリブンな意思決定へのアプローチ方法が変わってきています。Google Cloud の統合 AI 開発プラットフォームである Vertex AI は、この革新を先導する Gemini のような高性能の生成モデルを提供しています。

このたび、Apache Airflow と、Google Cloud のフルマネージドのワークフロー オーケストレーション サービスである Cloud Composer がオーケストレーションを担うデータ パイプラインに Vertex AI の生成モデルを統合することが、かつてないほど容易になりました。apache-airflow-providers-google パッケージの最新リリース(バージョン 10.21.0)では、Vertex AI の生成モデルを操作するために次の 3 つの新しい Airflow 演算子が追加されました。

いくつかのユースケースをご紹介し、新しい演算子の使用方法を説明します。

生成 AI を活用したデータ パイプライン

このインテグレーションにより、データ分析パイプラインに、以下をはじめとする新たな可能性が開かれます。

  • 自動インサイト: 元データから要約、レポート、その他価値の高い分析情報を生成し、データ アナリストの時間とリソースを節約します。

  • データ拡充: 生成モデルによる合成データでデータセットを強化することで、分析の範囲を拡大し、ダウンストリーム アプリケーションを向上させます。

  • 高度な異常検出: 生成モデルを活用してデータ内の異常なパターンや外れ値を特定し、異常検出システムを強化します。

  • テキスト エンベディング: 非構造化テキストの膨大なコーパスを構造化することで、すべてのテキストを客観的に比較、分析し、分析情報を引き出すことが可能になります。

  • コンテンツ生成: 説明、タグ、ドキュメント値など、DAG メタデータを提供します。また、パイプラインのコンテキスト認識に基づいて、メールやアラートなどをカスタマイズできます。

  • 翻訳: テキスト、ファイル、その他のコンテンツを Gemini がサポートする 35 以上の言語に翻訳します。

新しい Airflow 演算子の使用

言語モデルを使って予測を生成するには、TextGenerationModelPredictOperator を使用します。

:

読み込んでいます...

テキスト エンベディングを生成するには、TextEmbeddingModelGetEmbeddingsOperator を使用します。

:

読み込んでいます...

生成モデルを使用してコンテンツを生成するには、GenerativeModelGenerateContentOperator を使用します。

:

読み込んでいます...

各演算子は、モデルのレスポンスを「model_response」キーの XCom に返します。

可能性のある実践的な用途

上述のユースケースを拡張すると、Vertex AI 生成モデル、Apache AirflowGoogle Cloud を連携させることで、次のようなソリューションを実現できる可能性があります。

ターゲット マーケティング: Airflow を使用して、メール キャンペーンの最適化プロセスのスケジュール設定とオーケストレーションを行います。週単位または月単位で Google スプレッドシートから顧客データを抽出し、Google Cloud Storage に保存します。Google 生成モデル Airflow 演算子を使用して顧客データを分析し、顧客セグメントごとにパーソナライズされた複数の件名とコンテンツ オプションを作成します。

データ クレンジング: Google Cloud Storage のステージング領域から未加工の顧客データのバッチを処理する Airflow DAG を構築します。Google 生成モデル Airflow 演算子を活用して、住所の検証と標準化を行い、可能な限りエラーを修正し、欠落している情報を入力します。手動による確認が必要な住所にフラグを付け、クレンジングしたデータを BigQuery に読み込みます。

コスト最適化のための異常検出: Airflow DAG を設定して、モニタリング用の API からクラウド リソースの使用状況データを日単位または時間単位で収集します。過去の使用パターンに基づいてトレーニングされた Google 生成モデルをデプロイし、Google 生成モデル Airflow 演算子でモデルを参照することでデータを分析し、CPU 使用量、ネットワーク トラフィック、ストレージ消費量の異常な増減を特定します。著しい異常が検出された場合、調査と是正措置のためにインフラストラクチャ チームにアラートを送信します。

新しい方法でビジュアル コンテンツを表現する: 画像 / 動画ファイルが Google Cloud Storage にアップロードされたときにトリガーする Airflow DAG を作成します。Google 生成モデル Airflow 演算子のマルチモーダル機能を使用して、これらのファイルを表す表形式データを生成し(例: ファイル メタデータ、時系列オブジェクトの検出、音声文字起こしデータ、フレーム分析)、新しい表形式データを BigQuery に読み込んで、より詳しい分析情報を取得します。

レポートの統合: Google 生成モデル Airflow 演算子を使用して、何百、何千もの関連 PDF ファイルを読み取り、それらをレポートに要約します。手作業によるドキュメントの作成、確認、社内承認の必要性を削減します。Google Cloud Storage に結果をエクスポートします。Rapid evaluation API サービスを使用して結果を評価します。

カスタマー サービスのフィードバックの自動化: 毎日、CCAI カスタマー サービスの文字起こし Google Cloud Storage にエクスポートします。Google 生成モデル Airflow 演算子を実行し、これらの文字起こしを分析し、カスタマー サービスの改善点についてフィードバックを提供します。結果は BigQuery にエクスポートされるか、カスタマー サービス チームに毎日メールで送信されます。

Airflow DAG とタスクアラートの改善: DAG が失敗した場合、Google 生成モデル Airflow 演算子にエラー メッセージおよび関連する DAG 情報をプロンプト入力します。そのレスポンスは、Cloud Logging ログベースのアラート戦略にコンテキストの理解を追加するため使用します。

この優れた 3 つのテクノロジーを活用することで、企業はさまざまな分野やユースケースで革新的なソリューションを開発できます。

その他のリソース

Airflow Cloud Composer を初めてご利用になる場合は、クイックスタート: Cloud Composer 2 Apache Airflow DAG を実行するをご覧ください。詳細については、Google Cloud Airflow プロバイダ パッケージAirflow Google Cloud Vertex AI 演算子Cloud ComposerVertex AI の生成 AI の最新情報をご確認ください。

皆さまがどのように生成 AI Airflow DAG に統合していくか、今後が楽しみです。

-Google、戦略的クラウド エンジニア Christian Yarros

投稿先