小規模モデルで高品質を: ドメイン特化型言語モデルを評価する BMW Group の試み

Dr. Michael Menzel
Google Cloud
Dr. Jens Kohl
BMW Group
※この投稿は米国時間 2026 年 3 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。
音声操作できる車は、テレビ番組の題材として、あるいは最近のスマートフォン連携技術として、長年の夢でした。
より自然で優れた音声コマンドを実現する方法の一つは、AI 基盤モデルを車両システムに組み込むことです。これにより、従来の音声コマンドよりもインテリジェンスが向上します。AI 基盤モデルは、日常的な質問と車両機能をシームレスな対話で結び付けることができます。これらのモデルにより、運転手は前方の道路に集中しながら、より直感的な操作でドライブを楽しむことができます。
大規模言語モデル(LLM)は強力な機能を提供しますが、少なくとも自動車という環境においては、大きな欠点があります。それは、一貫したネットワーク アクセスに依存しているため、遅延や中断の可能性がある車内での使用には不向きであることです。
信頼性の高い次世代のインテリジェンスを実現するため、BMW Group と Google Cloud は概念実証を成功させ、ドメイン特化型言語モデルをファインチューニング、最適化、評価、デプロイするワークフローを自動化する、効率的で再現可能なソリューションを構築しました。これは特に、小規模言語モデル(SLM)に重点を置いています。このブログ投稿では、結果、所見、ソースコードを公開して、幅広い導入を促進したいと考えています。
BMW Group のコネクテッド カー プラットフォーム担当バイス プレジデントである Celine Laurent-Winter 博士は、次のように述べています。「小規模言語モデルの最適なトレードオフを見つけるのは、困難で反復的なプロセスです。ドメイン特化型 SLM のトレーニング、テスト、デプロイのワークフローを自動化することで、開発効率を大幅に向上させることができます。自動化されたパイプラインにより、モデルを自社のドメインに迅速に適応させ、ドメイン固有のベンチマークに対して厳密にテストおよび評価できます。これにより、自動化された再現可能なワークフローで、モデルのイテレーションと最適化を数日ではなく数時間で行うことができます。」
小規模言語モデル: 小さなコンセプト、大きな可能性
生成 AI は、自動車メーカーに強力な新機能を提供し、複雑な音声コマンドを可能にします。以前は、「ルート上にあるレストランで、今営業していてベジタリアン メニューがある、評価が 4 つ星以上の場所を探して」のようなリクエストを音声コマンド システムが理解することはほぼ不可能でした。生成 AI は、言語理解と推論の機能により、このようなリクエストを解読できます。
しかし、このインテリジェンスを統合するには課題があります。クラウドベースの LLM は強力ですが、イライラするような遅延を避けるためには安定したネットワークが必要です。一方、車載 LLM は、自動車の限られたコンピューティング ハードウェアによって制約を受けます。
小規模言語モデルは理想的なバランスを提供できる可能性がありますが、サイズと機能の適切なトレードオフを見つけるには、慎重な最適化が必要です。
このような、用途に特化した適正サイズの生成 AI モデルは、自動車などのエッジデバイスで直接実行できます。一般的なアプローチは、最も頻繁に使用される機能を SLM によってローカルで処理し、より複雑なリクエストのみをクラウドベースの LLM にルーティングするというものです。SLM には、対象デバイスで実行できる軽量さと、実用に耐えうる性能の両立が求められます。特に、ファインチューニングによって自動車の特定のコンテキストに合わせて調整されている場合はなおさらです。
基盤モデルを自動車に統合する際の課題
クラウドと比較して、自動車のインフォテインメント システムはストレージとコンピューティング能力が限られています。5 シリーズのセダンや X3 SUV は大きく見えるかもしれませんが、4 つの車輪の間に収めなければならないパフォーマンス、テクノロジー、ラグジュアリーを考えると、スペースは限られています。
そのため、16 ビットの精度で 40 GB を超えるメモリを消費する Gemma 3 27B などの大規模言語モデルを統合することは困難です。より小さいバージョン(例: Gemma 3 270M)も存在しますが、それらは広範で一般的な焦点を持つ傾向があり、大規模なモデルと比較すると精度が低下する可能性があります。
そのため、私たちのような特殊なユースケースでは、モデルの圧縮(サイズを縮小)とチューニング(高精度を確保)が必要になります。目標は、最も頻繁なタスクについて、モデルサイズ、推論時間、精度の間で最適なトレードオフを見つけることです。
LLM から SLM への変換
リソースを大量に消費する大規模な LLM を効率的な SLM に変換するには、よく知られた圧縮手法と品質向上手法が必要です。以下は、私たちが調べた一般的な手法の概要(一部)です。
圧縮手法:
主な目標は、モデルのコンピューティングとメモリの複雑さを軽減することです。これは、以下によって実現できます。
-
量子化: 高精度のパラメータ(例: 32 ビット浮動小数点数)から低精度形式(例: 8 ビット整数、4 ビット浮動小数点数)に変換することで、モデルのメモリ使用量を削減します。ただし、これにより精度が低下する可能性があります。その程度は多くの場合、わずかです。
-
プルーニング: ニューラル ネットワーク内で重要度の低いパラメータや接続を体系的に特定して削除し、コア機能を維持しながら SLM を合理化します。
-
知識蒸留: コンパクトな「生徒」モデルをトレーニングして、より大規模な「教師」LLM のパフォーマンスを再現し、複雑な知識をはるかに小さく、より効率的なアーキテクチャに転送します。
圧縮後の品質向上
さらに、圧縮時に失われたパフォーマンスを回復または向上させるのに役立つ方法を検討しました。
-
ファインチューニング(および LoRA): 対象のデータセットを使用して、圧縮モデルを特定のドメインに適応させます。標準的なアプローチは、Low-Rank Adaptation(LoRA)などの パラメータ エフィシエント ファインチューニング(PEFT)です。LoRA は元の重みを固定し、より小さいトレーニング可能な行列を注入することで、フル ファインチューニングのパフォーマンスを維持しながら、コンピューティングとストレージの費用を大幅に削減します。
-
強化学習(RL): Proximal Policy Optimization(PPO)、Direct Policy Optimization(DPO)、Group relative policy optimization(GRPO)などの手法を使用して、人間の好みに合わせて調整します。RL は、望ましい動作に報酬を与えることでモデルの出力を繰り返し改善し、より有用で正確な回答を生成するようにモデルを導きます。
自動車タスクのパフォーマンス評価
モデルの圧縮と強化が完了したら、最後の重要なステップとして、パフォーマンスを厳密に評価します。これには、システム パフォーマンス(レイテンシ、ターゲット ハードウェアのリソース使用率など)と、モデルが生成した回答の定性的な評価が含まれます。品質を評価する確立された方法は次のとおりです。
-
ポイントワイズ評価: この方法では、生成された単一の回答の品質を、事前定義された「グラウンド トゥルース」または参照回答と比較して評価します。例としては、ROUGE や BLEU の指標があります。
-
ペアワイズ評価: このアプローチでは、2 つの異なるモデル出力のうちどちらが優れているかを判断します。多くの場合、会話の質に対する主観的な人間の好みに近いものになります。これは、自動評価ツール(LLM-as-a-Judge)または直接的な人間のフィードバックによって実行できます。
これらの評価方法を組み合わせた堅牢なテスト戦略を策定することは、圧縮とファインチューニングの取り組みの成功を検証するために不可欠です。
最適な構成を見つけることの難しさ
汎用 LLM から特化型 SLM への移行は簡単ではありません。量子化の種類から、ドメイン特化型ファインチューニング データセットの特性や内容まで、あらゆる選択が最終モデルの品質と効率に直接影響します。これにより、可能な構成の範囲が指数関数的に広がり、それぞれに独自のトレードオフが生じます。
この複雑な状況は、実務上の制約によってさらに複雑化します。すべての圧縮または強化手法があらゆる言語モデルに適用できるわけではなく、互換性のない手法もあります。たとえば、Google Gemini のような API 専用モデルでは、固定された一連の方法でのみファインチューニングが許可されます。
有効な組み合わせの数が膨大であるため、最適な構成を手動で検索することは、不可能ではないにしても、非常に面倒な作業になります。この課題を克服するために、実行可能なパイプラインを通じて自動化された再現可能なワークフローを構築しました。
ソリューション: SLM 最適化のための自動化ワークフロー
私たちのソリューションは、最適化された SLM を生成するために必要な圧縮、適応、評価の各ステップをオーケストレートする自動化ワークフローです。これは、各ステップがモジュール化されたパラメータ化可能なコンポーネントである柔軟なパイプラインを設計することで実現されます。このワークフロー ベースのアプローチにより、広大な構成空間を体系的に探索し、車載デプロイに最適なパフォーマンスを発揮するモデルを特定できます。
このプロセスは、Vertex AI Pipelines などの強力なワークフロー エンジンで自動的に実行できるワークフローとして構造化されています。このワークフローでは、一連のオペレーション(量子化、LoRA ファインチューニング、DPO など)を、相互に接続されたコンポーネントのチェーンとして定義できます。パイプライン パラメータを使用すると、構成空間全体を検索し、さまざまなベースモデル、圧縮手法、チューニング方法、評価データセットをテストできます。
この自動探索により、手動でテストすることは不可能なほど包括的な可能性を探索できます。各パイプライン実行の最終的なアーティファクトは完全に追跡可能で、デプロイの準備が整っています。これには、バージョン管理された SLM 自体、モデルを生成した正確な構成パラメータ、評価に使用されたデータセット、パフォーマンス指標の詳細なレポートが含まれ、完全な再現性が確保されます。
実装: Vertex AI Pipelines による自動化ワークフロー
私たちのソリューションは、構成可能で実行可能なパイプライン テンプレートを使用して、Google Cloud の Vertex AI プラットフォーム上に構築されています。これにより、広大な検索空間で最適な SLM を見つけるための、構造化され、自動化された方法が提供されます。図 1 は、このワークフロー、そのステップ、さまざまなデータストアとモデルストアとのやり取りを示しています。


図 1: 自動化されたパイプラインのステップと、データストアおよびモデルストアとのやり取りの概要。
ステップ 1: バージョニングと構成
すべての Vertex AI ワークフローは、Vertex AI Experiments から始まります。この最初のステップにより、プロセス全体がバージョン管理されます。選択した LLM とデータセット、パイプラインの構成パラメータはすべて、バージョン管理された単一のエンティティとしてログに記録されるため、すべてのテストで完全なトレーサビリティと再現性が確保されます。
ステップ 2: 最適化と圧縮
この段階では、先ほど説明した圧縮と拡張の手法を実践します。重要なのは、このパイプラインがモデル、手法、パラメータ間の複雑な互換性マトリックスを管理するように設計されていることです。たとえば、パイプライン テンプレートでは、特定のモデル アーキテクチャに対して、サポートされていることがわかっている特定のファインチューニング手法のみを適用するように強制できます。これにより、これらの制約の管理が自動化されます。
私たちの実装では、さまざまなファインチューニング(例: LoRA)や強化学習手法(例: DPO、GRPO、PPO)のための、再利用可能で標準化されたコンポーネントを提供しています。圧縮には、トレーニング後の量子化手法を採用し、モデルをターゲット ハードウェアの仕様に合わせて、より低いビット数のデータ型(bfloat16、4 ビット浮動小数点数、8 ビット整数など)にマッピングします。
ステップ 3: 変換とデプロイのテスト
SLM が最適化されると、パイプラインによって環境にデプロイされます。これにより、ターゲット環境を代表するハードウェアでモデルのデプロイが成功するかどうかをテストできます。このステップは、現実的な条件下でのモデルの技術的な実現可能性を早期に検証する重要なポイントとなります。
たとえば、クラウドのコンピューティング インスタンスで、Android デバイス上で SLM を直接ネイティブに(つまり、エミュレーション レイヤなしで)実行するなどが考えられます。これにより、モデルがターゲット環境でどのように機能するかをテストできます。
ステップ 4: 評価
SLM の真のパフォーマンスを測定するために、包括的な評価が実施されます。これは、単純な精度だけでなく、クラウドベースのデバイス エミュレータで測定されたメモリ使用量や推論レイテンシなどのハードウェア固有の指標も含まれます。また、複数の評価方法を組み合わせて回答の品質を評価します。
これには、ROUGE や BLEU などのポイントワイズの指標と、自動評価ツールなどのより高度なペアワイズの手法が含まれます。このパイプラインは、会話のコンテキストを使用した複数ターンの回答生成やクエリの書き換えなど、車内での幅広いタスクを反映したカスタム テスト データセットを使用するように設計されています。この堅牢な評価フレームワークは将来も見据えており、Google Gemini や Gemma などのマルチモーダル SLM を評価する機能も備えています。
ステップ 5: 可視化と分析
Vertex AI Experiments により、生成された指標を保存し、さまざまなテストの実行を並べて比較し、TensorBoard や Looker などの統合ツールを使用して可視化できるため、最も有望な SLM 候補を簡単に特定できます。


図 2: Vertex AI Pipeline インターフェースに表示される自動化パイプライン。
バージョニングから評価まで、この自動化されたワークフロー全体が強力なフィードバック ループを形成します。これにより、継続的なインテグレーションと改良が可能になるため、チームは迅速にイテレーションを行い、進化する要件に合わせて SLM を適応させ、手作業ではほぼ不可能だった最適な構成を見つけることができます。
まとめと今後の展望
このブログ投稿では、Google Cloud の Vertex AI 上に構築された自動化ワークフローが、SLM 開発をどのように効率化しているかについて詳しく説明しました。これにより、パフォーマンス、精度、サイズに関して、どのモデル アーキテクチャまたはタイプ(Gemini、Gemma、Llama など)がドメインにとって最適なトレードオフを提供するかを厳密に評価できます。
重要な点として、私たちはこのアプローチを BMW Group の「クラウド内のヘッドユニット」と連携させています。これにより、Android オープンソース プロジェクト(AOSP)ベースのインフォテインメント システムをクラウド コンピューティング インスタンス上でネイティブに実行できます。これにより、限られた組み込みデバイスを使用しなくても、スケーラブルな仮想環境でマルチモーダル機能を含む SLM をテストできます。
BMW Group は、AI を活用して最先端の車内体験を提供することに尽力しており、これは AI と ML に関する Google Cloud の専門知識とシームレスに連携しています。今後もパートナーシップを継続し、自動車 AI の可能性の限界を押し広げていくことを期待しています。
概念実証のソリューションを SLM パイプラインの形式で GitHub に公開しています。ニーズに合わせて自由に調整し、独自の最適化された SLM を構築してください。
このブログ投稿は、Google LLC の Michael Menzel 博士と BMW Group の Jens Kohl 博士が執筆したもので、BMW Group の Arian Bär 博士、David Katz 博士、Felix Willnecker 博士、Jens Kohl 博士、Karsten Knebel 氏、Manuel Luitz 博士、Paul Weber 氏、Raphael Perri 氏、Thomas Riedl 氏と、Google LLC の Florian Haubner 氏、Marcel Gotza 氏、Michael Menzel 博士、Raul Escalante 氏が参加した概念実証での作業に基づいています。
- Google Cloud、Michael Menzel 博士
- BMW Group、Jens Kohl 博士



