基盤モデルとは

基盤モデル(ベースモデルとも呼ばれます)は、大量のデータでトレーニングされ、幅広いタスクに適応できる強力な人工知能(AI)モデルです。「基盤モデル」という用語は、2021 年にスタンフォード大学人間中心の AI 研究所(HAI)によって作られました。

このテクノロジーは、ソフトウェア開発の効率化からカスタマー サービスとのやり取りの改善まで、業界全体に新たな可能性をもたらします。

Google Cloud 上の基盤モデルの概要

基盤モデルの定義

基盤モデルは、さまざまなタスクを実行できるよう大量のデータで事前トレーニングされる AI モデルの一種です。このトレーニング プロセスでは、自己教師あり学習がよく用いられ、データ内の複雑なパターンや関係性を学習することで、さまざまなタスクをより高精度で実行できるようになります。さらに重要なのは、この大規模な学習によって創発的な能力が生まれる点です。つまり、明示的にトレーニングされていないタスクまでもこなせるようになります。こうした、特化型ツールから柔軟な汎用モデルへの転換こそが、基盤モデルというパラダイムの特徴です。

基盤モデルと LLM の違い

「基盤モデル」と「大規模言語モデル」(LLM)という用語は同じ意味で使用されることがよくありますが、重要な違いがあります。LLM は基盤モデルの主要なタイプですが、それだけが基盤モデルではありません。いわば親子関係のようなものです。LLM は基盤モデルの一部であり、基盤モデルはそれより広い概念を指します。

主な違いは、基盤となるデータの種類です。LLM は、その名のとおり、膨大な量のテキストとコードで特別にトレーニングされています。「基盤モデル」というより広いカテゴリには、画像、音声、動画などの他のデータタイプ、またはそれらの組み合わせ(マルチモーダル)でトレーニングされたモデルも含まれます。

生成 AI と基盤モデルの違い

生成 AI と基盤モデルは異なる概念ですが、密接に関連しています。両者の違いを理解する最も簡単な方法は、それぞれを「エンジン」と「機能」として考えることです。

  • 基盤モデルは、事前トレーニングされた強力なエンジンです。膨大なデータに基づいて構築され、さまざまな用途に適応できるよう設計された、基盤となるテクノロジーです
  • 生成 AI は、このエンジンが実行できる主要な機能です。テキスト、画像、コードなどの新しいコンテンツを作成できます

多くの一般的な基盤モデルは生成タスクに利用されていますが、複雑な分類や分析といった非生成用途にも適応可能です。つまり、すべての基盤モデルが本質的に生成型であるわけではありませんが、今日の生成 AI アプリケーションの波を支える中核技術となっています。

基盤モデルのタイプ

基盤モデルにはさまざまなアーキテクチャがあり、それぞれ独自の強みと用途を持つように設計されています。主なタイプをいくつかご紹介します。

  • 大規模言語モデル(LLM): 人間の言語の理解と生成に特化したモデルで、翻訳、テキストの要約、chatbot とのやり取りなどのタスクに優れています。
  • マルチモーダル モデル: テキスト、画像、音声など、さまざまなデータタイプでトレーニングされたモデルで、複数のモダリティにわたってコンテンツを分析、生成できます。
  • 敵対的生成ネットワーク(GAN): GAN は、2 つのニューラル ネットワークがゼロサムゲームで互いに競い合う基盤モデルの一種です。一方のネットワーク(生成器)が新しいデータ インスタンスを作成し、もう一方のネットワーク(識別器)がその信頼性を評価します。この敵対的プロセスにより、ますます現実的で複雑なコンテンツが生成されます。
  • コンピュータ ビジョン モデル: これらのモデルは、画像データセットでトレーニングされ、画像分類、オブジェクト検出、画像生成などのタスクを実行します。医療画像の分析や自動運転車における物体認識など、特定の用途向けにファインチューニングできます。

基盤モデルの仕組み

基盤モデルは、自己教師あり学習を使用して膨大なデータセットでトレーニングされます。自己教師あり学習は、従来は教師あり学習が必要だったタスク(たとえば、人間の入力を使ったデータのラベル付け)に、教師なし学習の手法を活用する ML のアプローチです。これにより、モデルは入力データのマスクされた部分や欠損した部分を予測するようにトレーニングされます。モデルは予測を繰り返すことで、データ内のパターン、関係、基盤となる構造を特定することを学習します。

基盤モデルのトレーニング プロセスは、ML モデルのトレーニング プロセスと似ており、通常は以下の主要なステップを含みます。

データの収集と準備

  • モデルがデプロイ中に遭遇する実際のデータ分布を反映した、大規模で多様なデータセットが収集されます
  • データは前処理され、ノイズ、外れ値、不整合が除去されます。これには、データ クリーニング、正規化、特徴量エンジニアリングなどの手法が含まれます

モデル アーキテクチャの選択

  • タスクの複雑さ、データの種類と量、利用可能なコンピューティング リソースなどの要因に基づいて、適切なモデル アーキテクチャが選択されます
  • 自己教師あり学習に使用される一般的なモデル アーキテクチャには、畳み込みニューラル ネットワーク(CNN)、回帰型ニューラル ネットワーク(RNN)、トランスフォーマーなどがあります

自己教師ありトレーニング

  • モデルは自己教師あり学習手法を用いてトレーニングされます。この手法では、データの疑似ラベルを作成し、これらのラベルを予測するようにモデルをトレーニングします
  • これは、対照学習、マスク言語モデリング、ジグソーパズルなどのさまざまな方法で行うことができます
  • 自己教師ありトレーニングでは、モデルは費用と時間のかかる人手による注釈付けに依存することなく、データの有用な表現を学習できます

ファインチューニング

  • 自己教師あり学習を使用してモデルを事前トレーニングした後、よりニッチでタスク固有のデータコレクションでファインチューニングできます
  • これには、対象タスクでのパフォーマンスを最適化するようにモデルのパラメータを調整することが含まれます
  • ファインチューニングにより、モデルはタスクの特定の要件に適応し、全体的なパフォーマンスを向上させることができます

アライメントと安全性のトレーニング

  • 事前トレーニングとファインチューニングの後、最先端モデルのほとんどは、出力が有用で無害であり、人間の意図に沿っていることを確認するためのアライメント フェーズを経ます
  • この重要なステップでは、多くの場合、人間からのフィードバックを用いた強化学習(RLHF)や直接選好最適化(DPO)などの手法が使用されます。人間のレビュー担当者がモデルの回答を評価し、より望ましい動作に導きます

評価とデプロイ

  • モデルのトレーニングとファインチューニングが完了すると、用意しておいたテストセットでパフォーマンスの評価が行われます
  • モデルが目的のパフォーマンス基準を満たしている場合は、本番環境にデプロイして、実際の問題解決に活用できます

基盤モデルを使用するメリット

基盤モデルには、企業やデベロッパーにとって以下のようなメリットがあります。

汎用性

基盤モデルは幅広いタスクに適応できるため、特定の用途ごとに個別のモデルをトレーニングする必要がありません。この適応性により、さまざまな業界やユースケースで価値を発揮します。

効率性

事前トレーニング済みの基盤モデルを使用すると、新しい AI アプリケーションの開発に必要な時間とリソースを大幅に削減できます。事前トレーニング済みモデルのファインチューニングは、モデルをゼロからトレーニングするよりも高速で効率的であることがよくあります。

精度

基盤モデルは膨大なデータセットで広範なトレーニングを受けているため、高い精度でさまざまなタスクを実行でき、小規模なデータセットでトレーニングされたモデルを上回る性能を発揮します。

費用対効果

基盤モデルは、大量のトレーニング データやコンピューティング リソースを必要としないため、AI アプリケーションを開発するための費用対効果の高いソリューションとなります。

イノベーション

基盤モデルは、AI 分野のイノベーションを推進し、より高度で新しい AI アプリケーションの開発を可能にしています。

スケーラビリティ

基盤モデルは、大規模なデータセットや複雑なタスクにも対応できるようスケーリング可能であり、要求の厳しいアプリケーションに適しています。

基盤モデルの課題とリスク

基盤モデルには多くのメリットがある一方で、ユーザーやデベロッパーが対処しなければならない大きな課題もあります。

  • バイアスと公平性: 基盤モデルは、膨大なトレーニング データに含まれる社会的バイアスを受け継ぎ、増幅してしまう可能性があり、不公平または偏った出力を生むことがあります
  • ハルシネーション: モデルは、事実と異なる情報や意味をなさない情報をもっともらしく生成してしまうことがあります。これは「ハルシネーション」と呼ばれる現象です
  • 高い計算コスト: これらのモデルのトレーニングには膨大な計算資源とエネルギーが必要であり、環境面や費用面での懸念を引き起こします

基盤モデルの例

基盤モデルのエコシステムは日々進化し、競争が激化しています。業界をリードする企業が提供する、最も注目すべきモデルの一部をご紹介します。

  • Google: 強力なマルチモーダル モデルのシリーズである Gemini ファミリー(Gemini 2.5 Pro が代表例)と、デベロッパー向けのオープンウェイトの軽量モデルである Gemma ファミリーで知られています。また、テキストから画像を生成する Imagen や動画を生成する Veo などの特殊なモデルも開発しています
  • OpenAI: 影響力の大きい GPT(Generative Pre-trained Transformer)シリーズの開発元であり、広く利用されている GPT-4 を提供しています
  • Anthropic: AI の安全性に重点を置き、Claude ファミリーのモデルを開発。Claude 3 シリーズ(Opus、Sonnet、Haiku を含む)は、大規模なコンテキスト ウィンドウと強力な推論機能で知られています
  • Meta: オープンソース AI を強力に推進する立場で Llama シリーズを開発。Llama 3 はオープンモデルであり、コミュニティ全体のイノベーションを加速させています。
  • Mistral AI: ヨーロッパ発の企業。Mistral Large や、効率性を高めるために混合エキスパート(MoE)アーキテクチャを使用するオープンソースの Mixtral モデルなど、高性能なオープンモデルと商用モデルで大きな支持を得ています。

Google Cloud での基盤モデルの使用方法

Google Cloud は、組織が基盤モデルを実践的な用途に活用できるよう、アクセス、カスタマイズ、デプロイを包括的に支援するエンタープライズ向けプラットフォーム Vertex AI を提供しています。この戦略は、選択肢、強力なツール、統合されたインフラストラクチャを提供することを柱としています。

Google Cloud での基盤モデルの活用方法:

  • 多様でオープンなモデル エコシステム: Google Cloud では、Vertex AI Model Garden を通じて、130 以上の基盤モデルの包括的なライブラリにアクセスできます。これには、Gemini ファミリー(マルチモーダル タスク用)や Gemma(オープンで軽量な開発用)などの Google 独自の最先端モデルに加え、Anthropic(Claude)、Meta(Llama)、Mistral などのパートナーによるサードパーティ モデルやオープンソース モデルも含まれます。これにより、デベロッパーは費用やパフォーマンス要件に応じて最適なモデルを選択できます。
  • カスタマイズとグラウンディングのためのツール: Vertex AI には、単純なプロンプトを超えて活用できる幅広いツールが揃っています。Generative AI Studio では、モデルのテストとチューニングが可能で、特に強力なのが、自社データでモデルをグラウンディングできる機能です。これにより、モデルの推論能力が企業固有のデータソースと結び付けられ、ハルシネーションが大幅に減少し、事実に基づく適切な回答が得られるようになります。
  • AI エージェントとアプリケーションの構築: Google Cloud は、デベロッパーによる chatbot の構築だけではなく、より高度な AI アプリケーションの構築を支援することに焦点を当てています。Vertex AI Agent Builder を使用すると、組織はカスタマー サービス、社内ヘルプデスク、その他のビジネス プロセス向けに会話型 AI エージェントを作成してデプロイできます。
  • ワークフローへの生成 AI の組み込み: 基盤モデルは、企業がすでに使用している Google Cloud サービスに直接統合されています。たとえば、Gemini Code Assist は、デベロッパーがコードの作成、説明、テストをより迅速に行えるよう、AI 搭載アシスタントとして機能します。一方、BigQuery の機能により、データ ウェアハウス内で直接 AI によるデータ分析が可能になります。

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud