アプリケーションモダナイゼーション

Cloud Run は、AI アプリケーションを本番稼働させるための最速の手段です。

2024年6月25日

Daniel Strebel

EMEA Solutions Lead Application Modernization

※この投稿は米国時間 2024 年 6 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。

Cloud Run が、AI 搭載アプリケーションを本番環境に提供するための最も簡単な方法の 1 つであることは周知の事実です。開発者はこれにより、基盤となるインフラストラクチャや、ユーザー数が 0 から数百万人規模に増加する場合のスケーリング方法について悩むことなく、アプリケーションロジックだけに集中できるようになります。しかし、Cloud Run は、信頼できる Python ノートブックの外部でテストを実行し、運用化するために必要なツールを AI 研究者に提供するプラットフォームとしても、多くのお客様に選ばれていることをご存知でしょうか？

Cloud Run は、コンテナランタイム上に多くのサービスを提供し、AI 搭載アプリケーションの構築と実行のための包括的なプラットフォームを実現します。このブログ投稿では、AI 搭載アプリケーションの開発をスピードアップさせる Cloud Run の主な機能をいくつか紹介します。

製品化までの時間 - Vertex AI Studio でのプロトタイピングから、デプロイとコンテナ化を完了したアプリケーションへと簡単に移行可能
オブザーバビリティ - Cloud Run に組み込みの SLO モニタリングと Google Cloud Observability ソリューションを使用
イノベーションの速度 - リビジョンやトラフィック分割により、複数バージョンのサービスを並行して試すことが可能
関連性と事実性 - Cloud データベースに直接、安全に接続することで RAG 実装を構築
マルチリージョン デプロイと HA - 複数の Cloud Run サービスを、単一の外部グローバルアプリケーションロードバランサの背後に配置

AI Studio でのプロトタイピングから Cloud Run サービスの公開まで

生成 AI を活用する製品の多くは、Vertex AI Studio を出発点とします。ここでは、コードを記述することなく、多様なモデルの迅速なプロトタイピングが可能です。Vertex AI Studio の「コード生成」機能は、いくつかの一般的なプログラミング言語の一つへとテストをコード化する、便利な変換手段です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_vertex_AI_studio.max-1400x1400.png

生成されたコードスニペットは、AI サービスを提供する Vertex AI API を呼び出すスクリプトを構成します。構築するアプリケーションのタイプによっては、スクリプトからウェブアプリケーションを構築するプロセスは、ハードコードされたプロンプトをテンプレート化された文字列に変換し、これを丸ごとウェブフレームワークでラッピングするといった簡単な作業で済みます。たとえば Python でこれを実現するには、プロンプトを小さな Flask アプリケーションでラッピングし、Python の単純な f 文字列を使用してリクエストをパラメータ化します。

読み込んでいます...

from flask import Flask, request, jsonify
import os
import vertexai
import logging
from vertexai.preview.generative_models import GenerativeModel
import vertexai.preview.generative_models as generative_models

app = Flask(__name__)
vertexai.init(project=os.getenv("PROJECT_ID"), location=os.getenv("GCP_REGION"))
model = GenerativeModel("gemini-1.0-pro-001")

def vertex_movie_recommendation(movies, scenario):
  try:
    response = model.generate_content(
      f"""You are an expert on box office movies. 
  Provide a recommendation for which of the following movies to watch: {" or ".join(movies)}
  where the scenario is: {scenario}""")
    return response.text

except Exception as e:
    logging.exception(e)
    return "Unable to generate recommendation."

@app.route('/recommendations', methods=['POST'])
def movie_recommendations():
  """
  Returns movie recommendation based on the user's input.
  """
  if not request.json:
      return jsonify({'error': 'Missing JSON payload'}), 400
  movies = request.json['movies']
  scenario = request.json['scenario']
  recommendation_response = vertex_movie_recommendation(movies, scenario)
  return jsonify({'recommendation': recommendation_response})

if __name__ == '__main__':
    port = int(os.environ.get('PORT', 8080))
    app.run(debug=True, host='0.0.0.0', port=port)

必要な依存関係を含む単純な package.txt ファイルと一緒に、アプリケーションのコンテナ化とデプロイが完了しました。Cloud Run では Buildpacks がサポートされているため、コンテナのビルド方法を記述する Dockerfile を提供する必要もありません。

簡単な gcloud コマンドで、アプリケーションのトラフィック処理の準備は完了します。

読み込んでいます...

SLO とテレメトリーによるアプリケーションパフォーマンスのモニタリング

オブザーバビリティの実装は、アプリケーションがユーザーの期待に適合することを保証し、アプリケーションによるビジネスへの影響を把握するために不可欠です。Cloud Run は、すぐに使用できるサービスレベル目標（SLO）モニタリングとオブザーバビリティを提供します。

SLO をモニタリングすることは、エラーバジェットに基づくアプリケーション管理を開始し、この指標を使用して、安定性とイノベーション速度のバランスをとるための重要な手法です。Cloud Run では、可用性、レイテンシ、カスタム指標に基づいて SLO モニタリングを定義できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_slo.max-600x600.png

ロギング、モニタリング、トレースといった従来のオブザーバビリティもすぐに利用可能であり、Google Cloud Observability と直接統合することで、すべての関連データを一元的に収集できます。特にトレースは、AI アプリケーションのレイテンシ分解を調査する上で非常に貴重であることが実証されています。トレースは、複雑なオーケストレーションシナリオや RAG の実装をよりよく理解するためによく使用されます。

Cloud Deploy と同時実行リビジョンによる迅速なイノベーション

AI のユースケースの多くは、問題への取り組み方や解決方法を根本的に見直すものです。LLM の性質、温度などのパラメータによる影響、あるいはプロンプトのニュアンスにより、全体的な結果の予測が困難になることもしばしばあります。したがって、いくつかのテストを並行して実施できる機能があれば、イノベーションと反復処理を迅速に行えるようになります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_revisions.max-1100x1100.png

Cloud Run に組み込まれたトラフィック分割機能を使用すると、それぞれ異なるサービスリビジョンを表す複数のバージョンを同時に実行でき、トラフィックの分散方法をきめ細かく制御できます。AI アプリケーションの場合、これは、異なるバージョンのプロンプトをそれぞれ別のユーザーグループに提供し、クリック率や購入確率といった共通の成功指標に基づいて比較できることを意味します。

Cloud Deploy は、Cloud Run サービスのさまざまなリビジョンのロールアウトを自動的にオーケストレートするためのマネージドサービスです。また、既存の開発フローと統合することで、ソース管理において、プッシュイベントによってデプロイパイプラインをトリガーさせることもできます。

クラウドデータベースとの接続による企業データとの統合

静的な事前トレーニング済みモデルでは、ドメイン固有のコンテキストが不足しているため、正確な回答を生成できないことがあります。多くの場合は、検索拡張生成（RAG）のような技術によってプロンプトに追加データを提供することで、モデルに十分なコンテキスト情報を提供し、特定のユースケースに適した回答を生成できるようになります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/4_alloy_rag.max-1000x1000.png

Cloud Run は、オーケストレーションを担う AI アプリケーションからクラウドデータベース（AlloyDB、Cloud SQL など）への直接かつプライベートな接続を提供し、RAG 実装のためのベクトルストアとして活用できます。ダイレクト VPC 下り（外向き）機能により、サーバーレス VPC コネクタの追加手順を踏むことなく、Cloud Run をプライベートなデータベースエンドポイントに接続できるようになりました。

カスタムドメインとマルチリージョンデプロイ

デフォルトでは、すべての Cloud Run サービスに <service-name>.<project-region-hash>.a.run.app という形式の URL が発行されます。この URL から、HTTP リクエストを介してサービスにアクセスできます。これは迅速なプロトタイピングや内部サービスには便利ですが、しばしば 2 つの問題を引き起こします。

第一に、これはあまり記憶しやすい URL とは言いがたく、ドメインサフィックスもサービスプロバイダに対応したものではありません。そのため、サービスを利用する消費者は、これが正規のサービスかどうかを見極めることができません。SSL 証明書も Google に対して発行され、そのサービスの所有者に関する情報を提供するものではありません。

2 つ目の問題は、分散されたユーザーベースに HA と低レイテンシを実現する目的で、サービスを複数のリージョンにスケーリングする場合、リージョンごとに URL が異なってしまうことです。つまり、あるサービスリージョンから別のサービスリージョンへの切り替えは、クライアントレベルまたは DNS レベルで行わなければならず、ユーザーにとって非透過的となります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/5_xlb.max-1000x1000.png

この両方の問題を解決するため、Cloud Run はカスタムドメイン名をサポートするほか、エニーキャストに基づき、単一の外部 IP アドレスを持つグローバルな外部ロードバランサの背後で、異なるリージョンに属する複数の Cloud Run デプロイを統合する機能を提供します。ロードバランサを設置し、Cloud Run の異常トラフィック検出機能を有効にすることで、カスタムドメイン、独自の証明書、地域的な停電に対応する自動フェイルオーバーとともに、AI サービスを実行できるようになります。

Cloud Run による AI アプリのパワーアップ

Vertex AI が提供する強力なサービスを基盤として AI 搭載アプリケーションを構築する上で、Cloud Run が自然な出発点となる根拠を示す 5 つの側面について説明しました。

RAG 対応の生成 AI アプリケーションを Cloud Run で構築することに興味をお持ちの場合は、このソリューションブループリントが、さまざまなアーキテクチャ構成要素を深く掘り下げるための素晴らしいリソースとなります。Cloud Run の生成 AI アプリケーションは Python で記述すべきものと思っている方のために、Cloud Next のこのセッションでは、使い慣れた Java ベースのエンタープライズ環境で AI アプリケーションを構築する方法を紹介します。最後に、使い始めに役立つ、開発者に焦点を当てたさまざまなリソースやポインタが掲載されている Google のソリューションカタログをブックマークしておくことをおすすめします。