Google 生成 AI 向けの Apache Airflow 演算子を発表
Christian Yarros
Strategic Cloud Engineer, Google
※この投稿は米国時間 2024 年 8 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。
データ分析の環境は急速に進化しており、生成 AI はこの変革の原動力となっています。データから有意義なコンテンツを生成する生成モデルによって、データドリブンな意思決定へのアプローチ方法が変わってきています。Google Cloud の統合 AI 開発プラットフォームである Vertex AI は、この革新を先導する Gemini のような高性能の生成モデルを提供しています。
このたび、Apache Airflow と、Google Cloud のフルマネージドのワークフロー オーケストレーション サービスである Cloud Composer がオーケストレーションを担うデータ パイプラインに Vertex AI の生成モデルを統合することが、かつてないほど容易になりました。apache-airflow-providers-google パッケージの最新リリース(バージョン 10.21.0)では、Vertex AI の生成モデルを操作するために次の 3 つの新しい Airflow 演算子が追加されました。
いくつかのユースケースをご紹介し、新しい演算子の使用方法を説明します。
生成 AI を活用したデータ パイプライン
このインテグレーションにより、データ分析パイプラインに、以下をはじめとする新たな可能性が開かれます。
-
自動インサイト: 元データから要約、レポート、その他価値の高い分析情報を生成し、データ アナリストの時間とリソースを節約します。
-
データ拡充: 生成モデルによる合成データでデータセットを強化することで、分析の範囲を拡大し、ダウンストリーム アプリケーションを向上させます。
-
高度な異常検出: 生成モデルを活用してデータ内の異常なパターンや外れ値を特定し、異常検出システムを強化します。
-
テキスト エンベディング: 非構造化テキストの膨大なコーパスを構造化することで、すべてのテキストを客観的に比較、分析し、分析情報を引き出すことが可能になります。
-
コンテンツ生成: 説明、タグ、ドキュメント値など、DAG メタデータを提供します。また、パイプラインのコンテキスト認識に基づいて、メールやアラートなどをカスタマイズできます。
-
翻訳: テキスト、ファイル、その他のコンテンツを Gemini がサポートする 35 以上の言語に翻訳します。
新しい Airflow 演算子の使用
言語モデルを使って予測を生成するには、TextGenerationModelPredictOperator を使用します。
例:
テキスト エンベディングを生成するには、TextEmbeddingModelGetEmbeddingsOperator を使用します。
例:
生成モデルを使用してコンテンツを生成するには、GenerativeModelGenerateContentOperator を使用します。
例:
各演算子は、モデルのレスポンスを「model_response」キーの XCom に返します。
可能性のある実践的な用途
上述のユースケースを拡張すると、Vertex AI 生成モデル、Apache Airflow、Google Cloud を連携させることで、次のようなソリューションを実現できる可能性があります。
ターゲット マーケティング: Airflow を使用して、メール キャンペーンの最適化プロセスのスケジュール設定とオーケストレーションを行います。週単位または月単位で Google スプレッドシートから顧客データを抽出し、Google Cloud Storage に保存します。Google 生成モデル Airflow 演算子を使用して顧客データを分析し、顧客セグメントごとにパーソナライズされた複数の件名とコンテンツ オプションを作成します。
データ クレンジング: Google Cloud Storage のステージング領域から未加工の顧客データのバッチを処理する Airflow DAG を構築します。Google 生成モデル Airflow 演算子を活用して、住所の検証と標準化を行い、可能な限りエラーを修正し、欠落している情報を入力します。手動による確認が必要な住所にフラグを付け、クレンジングしたデータを BigQuery に読み込みます。
コスト最適化のための異常検出: Airflow DAG を設定して、モニタリング用の API からクラウド リソースの使用状況データを日単位または時間単位で収集します。過去の使用パターンに基づいてトレーニングされた Google 生成モデルをデプロイし、Google 生成モデル Airflow 演算子でモデルを参照することでデータを分析し、CPU 使用量、ネットワーク トラフィック、ストレージ消費量の異常な増減を特定します。著しい異常が検出された場合、調査と是正措置のためにインフラストラクチャ チームにアラートを送信します。
新しい方法でビジュアル コンテンツを表現する: 画像 / 動画ファイルが Google Cloud Storage にアップロードされたときにトリガーする Airflow DAG を作成します。Google 生成モデル Airflow 演算子のマルチモーダル機能を使用して、これらのファイルを表す表形式データを生成し(例: ファイル メタデータ、時系列オブジェクトの検出、音声文字起こしデータ、フレーム分析)、新しい表形式データを BigQuery に読み込んで、より詳しい分析情報を取得します。
レポートの統合: Google 生成モデル Airflow 演算子を使用して、何百、何千もの関連 PDF ファイルを読み取り、それらをレポートに要約します。手作業によるドキュメントの作成、確認、社内承認の必要性を削減します。Google Cloud Storage に結果をエクスポートします。Rapid evaluation API サービスを使用して結果を評価します。
カスタマー サービスのフィードバックの自動化: 毎日、CCAI カスタマー サービスの文字起こしを Google Cloud Storage にエクスポートします。Google 生成モデル Airflow 演算子を実行し、これらの文字起こしを分析し、カスタマー サービスの改善点についてフィードバックを提供します。結果は BigQuery にエクスポートされるか、カスタマー サービス チームに毎日メールで送信されます。
Airflow DAG とタスクアラートの改善: DAG が失敗した場合、Google 生成モデル Airflow 演算子にエラー メッセージおよび関連する DAG 情報をプロンプト入力します。そのレスポンスは、Cloud Logging のログベースのアラート戦略にコンテキストの理解を追加するため使用します。
この優れた 3 つのテクノロジーを活用することで、企業はさまざまな分野やユースケースで革新的なソリューションを開発できます。
その他のリソース
Airflow や Cloud Composer を初めてご利用になる場合は、クイックスタート: Cloud Composer 2 で Apache Airflow DAG を実行するをご覧ください。詳細については、Google Cloud Airflow プロバイダ パッケージ、Airflow の Google Cloud Vertex AI 演算子、Cloud Composer、Vertex AI の生成 AI の最新情報をご確認ください。
皆さまがどのように生成 AI を Airflow DAG に統合していくか、今後が楽しみです。
-Google、戦略的クラウド エンジニア Christian Yarros