データ分析

BigQuery での LLM のファインチューニングと評価の概要

2024年5月1日

Google Cloud Japan Team

※この投稿は米国時間 2024 年 4 月 16 日に、Google Cloud blog に投稿されたものの抄訳です。

BigQuery では、Gemini 1.0 Pro、Gemini 1.0 Pro Vision、text-bison など、Vertex AI でホストされているさまざまな大規模言語モデル（LLM）を使用してデータを分析できます。これらのモデルは、プロンプトエンジニアリングを使用するだけで、テキストの要約や感情分析など、複数のタスクで使用できます。ただし、モデルに想定される動作をプロンプトで簡潔に定義することが難しい場合や、プロンプトが想定される結果を十分に一貫して生成しない場合など、シナリオによってはモデルのファインチューニングによるその他のカスタマイズが必要です。また、ファインチューニングは、モデルが特定のレスポンスの種類（例: 簡潔か詳細か）や新しい動作（例: 特定のペルソナとして応答する）を学習したり、新しい情報でモデルそのものをアップデートしたりするのにも役立ちます。

Google は本日、BigQuery の LLM の教師ありファインチューニングによるカスタマイズをサポートすることを発表いたします。BigQuery による教師ありファインチューニングでは、入力テキスト（プロンプト）と想定される理想的な出力テキスト（ラベル）の例があるデータセットを使用し、これらの例から推測される動作やタスクを模倣するようにモデルをファインチューニングします。

機能の紹介

モデルファインチューニングを説明するために、テキストデータを使用した分類問題を見ていきましょう。医学記録転写のデータセットを使用して、特定の記録を 17 のカテゴリ（例:「アレルギー / 免疫学」、「歯科」、「循環器 / 呼吸器」など）のいずれかに分類するようモデルに依頼します。

データセット

使用したデータセットは mtsamples.com からのもので、Kaggle で提供されています。モデルのファインチューニングと評価を行うために、まず Cloud Storage で利用可能なこのデータのサブセットを使用して、BigQuery で評価テーブルとトレーニングテーブルを以下のように作成します。

読み込んでいます...

トレーニングデータセットと評価データセットには、転写された記録を含む「input_text」列と、ラベルまたはグラウンドトゥルースのデータを含む「output_text」列があります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image2_DVLxaor.max-1500x1500.png

text-bison モデルのベースラインパフォーマンス

まず、text-bison モデルのパフォーマンスベースラインを確立します。BigQuery でリモートの text-bison モデルを作成するには、以下のような SQL ステートメントを使用します。接続モデルとリモートモデルの詳細については、ドキュメント（1、2）をご覧ください。

読み込んでいます...

モデルの推論向けに、まずモデルのタスクの説明と作成したテーブルの記録を連結して、プロンプトをコンストラクトします。次に、出力を取得するために ML.GENERATE_TEXT 関数を使用します。モデルはすぐに多くの分類を正しく行いますが、いくつかの記録を誤って分類してしまいます。誤って分類されたレスポンスの例を以下に示します。

読み込んでいます...

プロンプト
これらのラベルの中から、指定された医学記録転写にラベルを割り当ててください [アレルギー / 免疫学, 剖検, 肥満症, 循環器 / 呼吸器, カイロプラクティック, 問診 - 病歴と病態, 美容 / 形成外科, 歯科, 皮膚科, 食事と栄養, 退院サマリー, 耳鼻咽喉科, 救急外来レポート, 内分泌学, 消化器病学, 一般医学, 血液学 - 腫瘍学, ホスピス - 緩和ケア, IME-QME - 労災など, 医学的検査 - 病理学, レター, 腎臓学, 神経学, 神経外科, 産科 / 婦人科, オフィスノート, 眼科, 整形外科, 疼痛管理, 小児科 - 新生児科, 理学医学 - リハビリテーション, 足病学, 精神医学 / 心理学, 放射線学, リウマチ学, SOAP / チャート / プログレス ノート, 睡眠医学, 音声 - 言語, 外科, 泌尿器学]。記録:
手技適応:, 患者は非典型的な右腕の違和感と頚部の不快感を訴えている。非侵襲的血管撮影により右鎖骨下狭窄が疑われた。特筆すべきは、右椎骨動脈に双方向の流れがあり、右鎖骨下動脈の速度は毎秒 250 cm だった。デュプレックス超音波検査では、少なくとも 50% の狭窄が認められた。,アプローチ:, 右総大腿動脈。,麻酔:, 心臓カテーテル検査プロトコルを用いた静脈内鎮静法。1% キシロカインによる局所浸潤。,合併症:, なし。,推定出血量:, 10 ml 未満。,推定造影剤:, 250 ml 未満。,実施手技:, 右腕頭血管造影、右鎖骨下血管造影、右鎖骨下の選択的カテーテル治療、選択的大動脈弓部血管造影、右腸大腿血管造影、6 フレンチ アンジオシール留置。,手順の説明:, 患者は通常の絶食状態で心臓カテーテル検査室に運ばれた。心臓カテーテル検査台に仰臥位で寝かせ、右鼠径部を通常の滅菌方法で準備し、ドレープをかけた。1% キシロカインを右大腿血管に浸潤。次に、#6 フレンチのシースを modified Seldinger 法で右大腿動脈に導入した。,大動脈弓部血管造影:, 次に、ピッグテール カテーテルを大動脈弓部まで進めた。大動脈弓部血管造影は、45 ml の造影剤を注入し、毎秒 20 ml の速度、4 度の LAO ビュー、最大圧力 750 PSI で行われた。,選択的鎖骨下血管造影:, 次に、右鎖骨下に選択的にカニュレーションを行った。標準的な AP でも、RAO ビューでも注入された。次に右鎖骨下狭窄部を横切るプルバック圧を測定した。有意な勾配は見られなかった。,血管造影の詳細:, 右腕頭動脈は開存していた。右頸動脈の近位部は開存していた。椎骨と内乳腺の起始部より前の右鎖骨下近位部は 50% の狭窄を示した。,印象:,1. 右鎖骨下動脈の中等度の狭窄。,2. 右頸動脈の近位端の開存。

レスポンス
放射線

上述のケースでは、正しい分類は「循環器 / 呼吸器」です。

ベースモデル向けの指標ベース評価 モデルのパフォーマンスをより確実に評価するには、BigQuery の ML.EVALUATE 関数を使用して、test/eval データセットからの理想的なレスポンスに対するモデルレスポンスの比較指標をコンピューティングできます。その方法は次のとおりです。

読み込んでいます...

上述のコードでは、入力として評価テーブルを提供し、モデルを評価するタスクの種類として「classification」を選びました。他の推論パラメータはデフォルトのままにしましたが、評価のために変更できます。

返される評価指標は、クラス（ラベル）ごとにコンピューティングされます。結果は次のようになります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image4_AUZS8Ka.max-1700x1700.png

F1 スコア（適合率と再現率の調和平均）に注目すると、モデルのパフォーマンスがクラスによって異なることがわかります。たとえば、ベースラインモデルが「剖検」、「食事と栄養」、「歯科」で適切なパフォーマンスを発揮しているものの、「問診 - 病歴と病態」、「カイロプラクティック」、「循環器 / 呼吸器」クラスでのパフォーマンスは不十分です。

では、モデルをファインチューニングして、このベースラインパフォーマンスを改善できるかどうかを確認します。

ファインチューニングしたモデルを作成する

BigQuery でファインチューニングされたモデルを作成するのは簡単です。CREATE MODEL ステートメントで、「prompt」と「label」列のあるトレーニングデータを指定することで、ファインチューニングできます。ファインチューニングには、先ほどの評価で使ったのと同じプロンプトを使用します。次のようにファインチューニングしたモデルを作成します。

読み込んでいます...

ファインチューニングしたモデルを作成するために使用する CONNECTION には、（a）Storage オブジェクトユーザーと（b）Vertex AI サービスエージェントのロールがアタッチされている必要があります。さらに、Compute Engine（GCE）のデフォルトのサービスアカウントには、プロジェクトの編集者のアクセス権が必要です。BigQuery 接続の操作のガイダンスについては、ドキュメントをご覧ください。

BigQuery は、Low-Rank Adaptation（LoRA）と呼ばれる技術を使ってモデルをファインチューニングします。LoRA チューニングはパラメータ効率調整（PET）メソッドで、事前トレーニングされたモデルの重みを凍結し、トレーニング可能なランク分解行列を Transformer アーキテクチャの各レイヤに注入することで、トレーニング可能なパラメータの数を軽減します。モデルのファインチューニング自体は Vertex AI コンピューティング上で行われ、アクセラレータとして GPU または TPU を選択するオプションがあります。スキャンされたデータまたは使用されたスロットについては BigQuery から、消費された Vertex AI リソースについては Vertex AI から請求されます。ファインチューニングジョブは、学習済みの重みを表す新しいモデルエンドポイントを作成します。ファインチューニングされたモデルのクエリを実行する際に発生する Vertex AI 推論料金は、ベースラインモデルの場合と同じです。

このファインチューニングジョブは、「max_iterations」などのトレーニングオプションによって異なりますが、完了するのに 2 時間ほどかかる場合があります。完了すると、ファインチューニングしたモデルの詳細を BigQuery UI で確認でき、ファインチューニングしたモデルの別のリモートエンドポイントが表示されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image3_9b4IfQK.max-1500x1500.png

ベースラインモデルとファインチューニングモデルのエンドポイント。

現在、BigQuery は text-bison-001 と text-bison-002 モデルのファインチューニングをサポートしています。

ファインチューニングモデルのパフォーマンスを評価する

次のようなコードを使って、ファインチューニングされたモデルから予測を生成できます。

読み込んでいます...

先ほど評価したプロンプトのサンプルに対するレスポンスを見てみましょう。同じプロンプトを使用することで、このモデルは転写された記録を「循環器 / 呼吸器」という正しいレスポンスに分類するようになりました。

ファインチューニングされたモデルの指標ベースの評価

次に、ベースモデルの評価で使用したのと同じ評価データと同じプロンプトを使用して、ファインチューニングされたモデルの指標をコンピューティングします。

読み込んでいます...

ファインチューニングされたモデルの指標は以下のとおりです。このブログで使用したファインチューニング（トレーニング）データセットには 519 例しか含まれていなかったにもかかわらず、すでにパフォーマンスが著しく向上しているのがわかります。以前はモデルのパフォーマンスが低かったラベルの F1 スコアが改善され、「マクロ」F1 スコア（全ラベルの F1 スコアの単純平均）は 0.54 から 0.66 に跳ね上がりました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_81qOUIk.max-1700x1700.png

推論に対応

ファインチューニングされたモデルは、前のステップでサンプルのレスポンスを取得するために使用した ML.GENERATE_TEXT 関数を使用した推論に使用できるようになりました。ファインチューニングされたモデルのために追加のインフラストラクチャを管理する必要はなく、ベースモデルで発生するのと同じ推論の価格が請求されます。

BigQuery の text-bison モデルのファインチューニングをお試しになるには、ドキュメントをご覧ください。フィードバックの提供やその他のモデルのファインチューニングのサポートが必要な場合は、bqml-feedback@google.com までご連絡ください。

^{このブログ投稿を執筆するにあたって、Tianxiang Gao の協力を得ました。この場を借りて感謝を申し上げます。}

ー BigQuery ML、プロダクト リーダー Vaibhav Sethi

ー Google Cloud、ソフトウェア エンジニア Eric Hao

投稿先