AI & 機械学習

R 言語を使用して Vertex AI で機械学習モデルのトレーニングとデプロイを行う

2022年8月9日

Google Cloud Japan Team

※この投稿は米国時間 2022 年 7 月 28 日に、Google Cloud blog に投稿されたものの抄訳です。

R は、統計コンピューティングと機械学習の分野で最も広く使用されているプログラミング言語の一つです。特に、データサイエンス向け R パッケージの独自コレクションである tidyverse が提供する豊富なパッケージがあるため、多くのデータサイエンティストから支持されています。tidyverse 以外にも、R のパッケージリポジトリである CRAN には 18,000 を超えるオープンソースパッケージがあります。デスクトップ版として、およびGoogle Cloud Marketplace で提供されている RStudio はよく使用されている統合開発環境（IDE）であり、データの専門家が可視化や機械学習モデルの開発に使用しています。

モデルの構築に成功した後、データサイエンティストが直面するのは、「R 言語で作成したモデルを、スケーラビリティと信頼性を維持し、メンテナンスの必要性を抑えつつ本番環境にデプロイするにはどうすればよいのだろう」という点です。

このブログ投稿では、Google Vertex AI を使用して、R で構築したエンタープライズグレードの機械学習モデルのトレーニングとデプロイを行う方法について説明します。

概要

Vertex AI での機械学習モデルの管理は、Google Cloud コンソールのユーザーインターフェース、API 呼び出し、Vertex AI SDK for Python など、さまざまな方法で行うことができます。

多くの R ユーザーは RStudio からプログラムで Vertex AI を操作することを好むため、reticulate パッケージを使用して、Vertex AI SDK を介して Vertex AI を操作します。

Vertex AI は、tensorflow、scikit-learn、xgboost で作成されたモデルに対して、モデルのトレーニングと予測のサービングのための事前構築済みの Docker コンテナを提供しています。R の場合は、Google Cloud の R 向け Deep Learning Containers から派生したコンテナを自分で構築します。

Vertex AI でのモデルは、次の 2 つの方法で作成できます。

モデルをローカルでトレーニングして、Vertex AI Model Registry にカスタムモデルとしてそれをインポートし、予測のサービングのためにそこからエンドポイントにデプロイする。
CustomJob を実行し、結果のアーティファクトを Model としてインポートする TrainingPipeline を作成する。

このブログ投稿では、2 番目の方法を使用してモデルを Vertex AI で直接トレーニングします。この方法の場合、後の段階でモデル作成プロセスを自動化しつつ、分散ハイパーパラメータの最適化をサポートできるからです。

Vertex AI での R モデルの作成と管理のプロセスには次の手順が含まれます。

Google Cloud Platform（GCP）API を有効にして、ローカル環境を設定する
トレーニングとサービングのためのカスタム R スクリプトを作成する
Cloud Build と Container Registry を使用した R モデルのトレーニングとサービングをサポートする、Docker コンテナを作成する
Vertex AI Training を使用してモデルをトレーニングし、アーティファクトを Google Cloud Storage にアップロードする
Vertex AI Prediction エンドポイントでモデルエンドポイントを作成してモデルをデプロイし、オンライン予測リクエストをサービングする
オンライン予測を行う

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_R_to_train.max-800x800.png

図 1.0（ソース）

データセット

このプロセスの実例として、カリフォルニア州の住宅に関するデータセットを使用して住宅価格を予測する単純なランダムフォレストモデルをトレーニングします。データには、1990 年のカリフォルニア州国勢調査の情報が含まれています。データセットは Google Cloud Storage で公表されています（gs://cloud-samples-data/ai-platform-unified/datasets/tabular/california-housing-tabular-regression.csv）。

このランダムフォレストリグレッサーモデルでは、特定の経度および緯度と、対応する国勢調査ブロックグループからのデータに基づいて、住宅価格の中央値を予測します。ブロックグループとは、米国の国勢調査局がサンプルデータを発表する最小の地理的単位です（通常、1 つのブロックグループには 600 人から 3,000 人の人口が含まれます）。

環境の設定

このブログ投稿では、Vertex AI Workbench と R カーネル、または RStudio を使用していることを前提としています。環境では、次の要件を満たしている必要があります。

Google Cloud SDK
Git
R
Python 3
Virtualenv

シェルコマンドを実行するために、ヘルパー関数を定義します。

読み込んでいます...

また、いくつかの R パッケージをインストールして Vertex AI 向け SDK をアップデートします。

読み込んでいます...

次に、トレーニングとデプロイのプロセスをサポートするために次の変数を定義します。

PROJECT_ID: Google Cloud Platform のプロジェクト ID
REGION: 現時点で、Vertex AI でサポートされているリージョンは us-central1、europe-west4、asia-east1 です。最も近いリージョンを選択することをおすすめします。
BUCKET_URI: データセットとモデルのリソースに関連付けられているすべてのデータが保存される、ステージングバケット
DOCKER_REPO: コンテナアーティファクトを保存する、Docker リポジトリ名
IMAGE_NAME: コンテナイメージの名前
IMAGE_TAG: Vertex AI が使用するイメージタグ
IMAGE_URI: コンテナイメージの完全な URI

読み込んでいます...

Vertex AI SDK for Python を初期化する際に、Cloud Storage のステージングバケットを指定します。ステージングバケットは、データセットとモデルのリソースに関連付けられているすべてのデータが、セッションをまたいで保持される場所です。

読み込んでいます...

次に、Vertex AI SDK のインターフェースとして Python で作成された reticulate R パッケージをインポートして初期化します。

読み込んでいます...

R モデルのトレーニングとサービングのために、Docker コンテナイメージを作成する

カスタムコンテナのための Docker ファイルは、Vertex AI Workbench で使用されるのと同じコンテナである、ディープラーニングコンテナの上に構築されます。さらに、モデルのトレーニングとサービングそれぞれのために、2 つの R スクリプトを追加します。

このコンテナを作成する前に、ご利用のリージョンで Artifact Registry を有効にして、リクエストを認証するように Docker を構成します。

読み込んでいます...

次に、Dockerfile を作成します。

読み込んでいます...

次に、R モデルのトレーニングに使用するファイル train.R を作成します。このスクリプトは、カリフォルニア州の住宅に関するデータセットを使用して randomForest モデルをトレーニングします。Vertex AI は、活用できる環境変数を設定します。このスクリプトは Vertex AI マネージドデータセットを使用するため、データ分割が Vertex AI によって行われ、スクリプトは、トレーニング、テスト、検証のセットを示す環境変数を受け取ります。その後、トレーニング済みモデルのアーティファクトは Cloud Storage バケットに保存されます。

読み込んでいます...

#!/usr/bin/env Rscript
# ファイル名: train.R - Vertex AI マネージド データセットでランダム フォレスト モデルをトレーニングする
library(tidyverse)
library(data.table)
library(randomForest)
Sys.getenv()

# GCP のプロジェクト ID
project_id <- Sys.getenv("CLOUD_ML_PROJECT_ID")

# GCP リージョン
location <- Sys.getenv("CLOUD_ML_REGION")

# トレーニング済みモデルのアーティファクトをアップロードする Cloud Storage URI
model_dir <- Sys.getenv("AIP_MODEL_DIR")

# 次に、トレーニング、検証、テストのセットをダウンロードするディレクトリを作成する
dir.create("training")
dir.create("validation")
dir.create("test")

# Vertex AI マネージド データセットをローカルのコンテナ環境にダウンロードする
system2("gsutil", c("cp", Sys.getenv("AIP_TRAINING_DATA_URI"), "training/"))
system2("gsutil", c("cp", Sys.getenv("AIP_VALIDATION_DATA_URI"), "validation/"))
system2("gsutil", c("cp", Sys.getenv("AIP_TEST_DATA_URI"), "test/"))

# データセットごとに 1 つまたは複数の CSV ファイルを受け取り、データフレームに読み込む。
training_df <- list.files("training", full.names = TRUE) %>% map_df(~fread(.))
validation_df <- list.files("validation", full.names = TRUE) %>% map_df(~fread(.))
test_df <- list.files("test", full.names = TRUE) %>% map_df(~fread(.))

print("Starting Model Training")
rf <- randomForest(median_house_value ~ ., data=training_df, ntree=100)
rf

saveRDS(rf, "rf.rds")
system2("gsutil", c("cp", "rf.rds", model_dir))

次に、R モデルのサービングを行うために使用するファイル serve.R を作成します。このスクリプトは Cloud Storage からモデルのアーティファクトをダウンロードしてそれを読み込み、ポート 8080 で予測リクエストをリッスンします。次のような、予測サービスのためのいくつかの環境変数を自由に使用できます。

AIP_HEALTH_ROUTE: AI Platform Prediction がヘルスチェックを送信するコンテナの HTTP パス。
AIP_PREDICT_ROUTE: AI Platform Prediction が予測リクエストを転送するコンテナの HTTP パス。

読み込んでいます...

次に、サーバレス CI / CD プラットフォームの Cloud Build で Docker コンテナイメージを構築します。 Docker コンテナイメージの構築には、10～15 分ほどかかります。

読み込んでいます...

Vertex AI マネージドデータセットを作成する

Vertex AI マネージドデータセットを作成して、Vertex AI にデータセットの分割を行わせます。これはオプションであり、代わりに環境変数を使用してデータセットへの URI を渡すこともできます。

読み込んでいます...

次のスクリーンショットは、Cloud コンソール内の新しく作成された Vertex AI マネージドデータセットを示しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_R_to_train.max-1400x1400.png

Vertex AI で R モデルをトレーニングする

カスタムトレーニングジョブは、コンテナイメージのインスタンスを作成して、モデルトレーニングのための train.R とモデルサービングのための serve.R を実行することにより、トレーニングプロセスをラッピングします。

注: トレーニングとサービングの両方に対して同じカスタムコンテナを使用します。

読み込んでいます...

モデルのトレーニングを行います。データセットを使用して機械学習モデルをトレーニングするのに十分なリソースを備えたマシンタイプを指定して、メソッド run() を呼び出します。このチュートリアルでは、n1-standard-4 VM インスタンスを使用します。

読み込んでいます...

モデルのトレーニングが実行され、進捗状況を Vertex AI コンソールで確認できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_R_to_train.max-1200x1200.png

エンドポイントリソースのプロビジョニングとモデルのデプロイ

Endpoint.create() メソッドを使用して、エンドポイントのリソースを作成します。少なくとも、エンドポイントの表示名を指定します。オプションとして、プロジェクトとロケーション（リージョン）を指定できます。指定しない場合は、init() メソッドを使用して Vertex AI SDK を初期化した際に設定した値が継承されます。

この例では、次のパラメータを指定します。

display_name: 人が判読できる形式のエンドポイントリソース名。
project: プロジェクト ID。
location: リージョン。
labels: （オプション）Key-Value ペアの形式の、エンドポイントのユーザー定義メタデータ。

このメソッドは、エンドポイントオブジェクトを返します。

読み込んでいます...

同じエンドポイントに、1 つまたは複数の Vertex AI モデルリソースインスタンスをデプロイできます。デプロイされる Vertex AI モデルリソースのそれぞれには、サービス提供バイナリのための独自のデプロイコンテナが含まれます。

次に、Vertex AI モデルリソースを Vertex AI エンドポイントリソースにデプロイします。Vertex AI モデルリソースは、それのためのデプロイコンテナイメージを定義しています。デプロイするには、次の追加の構成設定を指定します。

マシンタイプ。
GPU のタイプと数（ある場合）。
VM インスタンスが静的、手動、自動スケーリングのいずれであるか。

この例では、次のように、最低限のパラメータを指定してモデルをデプロイします。

model: モデルリソース。
deployed_model_displayed_name: 人が判読できる形式の、デプロイされるモデルインスタンスの名前。
machine_type: 各 VM インスタンスのマシンタイプ。

リソースをプロビジョニングする必要があるため、最大で数分かかることがあります。

注: この例では、モデルアーティファクトを Vertex AI モデルリソースにアップロードするステップで、R デプロイコンテナをすでに指定しています。

読み込んでいます...

モデルがエンドポイントにデプロイされ、結果を Vertex AI コンソールで確認できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/4_R_to_train.max-900x900.png

新しく作成されたエンドポイントを使用して予測を行う

最後に、いくらかのサンプルデータを作成して、テストとしてデプロイされたモデルに対して予測リクエストを行います。data_uri にある元のデータファイルからの、5 つの JSON エンコードされたサンプルデータポイント（ラベル median_house_value は含まない）を使用します。最後に、サンプルデータを使用して予測リクエストを行います。この例では、REST API（例: Curl）を使用して予測リクエストを行います。

読み込んでいます...