多忙なビジネスリーダーのためのジェネレーティブ AI 入門
Google Cloud Japan Team
プロンプトの調整をプロンプト デザインから知るために、ジェネレーティブ AI の主要な用語と、それが組織に与える影響についてご紹介します。
※この投稿は米国時間 2023 年 6 月 2 日に、Google Cloud blog に投稿されたものの抄訳です。
新しい技術が爆発的に普及すると、アプリやユースケースだけでなく、専門用語も次々と生まれてきます。
その大きな可能性と急速な進歩によって、ジェネレーティブ AI に関連する専門用語も日々増え続けています。ジェネレーティブ AI はパワフルかつ複雑で、戦略的に急を要するほどのスピードで発展し続けています。ですが、ご安心ください、この記事では組織でこのエキサイティングなジェネレーティブ AI に関する意思決定を行うために、理解しておくべき主要な用語と概念を説明いたします。
ジェネレーティブ AI: あらゆる分野に変化をもたらす可能性
ジェネレーティブ AI とは、コーパスと呼ばれる大量の学習データの中から複雑な関係を見つけ出し、学習した内容を一般化して、オリジナルのイラストやブログの原稿、質問への回答など、新しいデータを生成できる AI のことです。このような一般化によって、AI モデルは明示的に学習していないタスク(すなわち、ゼロショット学習と少数ショット学習)を実行できるようになるほか、人間が入力したプロンプトを基に、テキスト、画像、動画から音楽、コード、化合物の式にいたるまで、新たな出力を生成することが可能になります。
ビジネスへの影響:
ジェネレーティブ AI は新しいテクノロジーですが、組織はすでに破壊的で幅広く応用できるさまざまなユースケースを模索しています。具体的には、コンテンツ制作やソフトウェア開発の加速化、パーソナライズされたセルフヘルプ対話や chatbot によるカスタマー サービスの向上、情報の探索と分析のための新しい方法の開発、さらには創薬の支援などが挙げられます。
恐らくこれらの例は、ほんの始まりにすぎません。このテクノロジーが成熟し、デベロッパー、企業、政府にとってより身近なものになるにつれ、ユースケースが次々と生まれています。Google Brain が開発した Transformer アーキテクチャのようなジェネレーティブ AI の基礎となる ML テクノロジーは、従来の AI テクノロジーから大きく飛躍しており、長距離依存関係(テキストの末尾にある単語と冒頭にある単語との関連性)や、タンパク質構造の変数の関連性などを識別するのに優れています。
この機能は、より高度なユースケースや AI の問題解決への扉を開きました。これが、生成テキストが単純な自動修正やオートコンプリートのタスクを飛躍的に超えて、文書を取り込んで質問に答えたり、既存のコンテンツを使用できるようになった主な理由です。今では、既存のコンテンツを使用して同じトーンの新しいコンテンツを作成できるようにもなっています。
こうした技術の進化により、自然言語の指示に反応し、前例のない精度で人間のようなアウトプットを作成し、人間が複雑な問題を解決するのを助けることができる AI 搭載のアプリケーションが、爆発的に増えてきています。近い将来、ジェネレーティブ AI はあらゆるビジネスに影響を与え、人々が機械、情報、そしてお互いにやりとりする方法を根本的に変える可能性を秘めています。
モデル :カスタム ジェネレーティブ AI アプリケーションの出発点
大規模モデル(LM)は、ジェネレーティブ AI を支えるエンジンです。テキストに特化した大規模言語モデル(LLM)が一般的ですが、最近では、テキスト プロンプトからテキストを生成するだけでなく、テキストから画像、画像から画像などを生成できるマルチモーダルな LM が主流となっています。LM は通常、数十億から数千億のパラメータを含んでおり、これはモデルのサイズと複雑さを意味します。一般に、モデルが大きいほど能力が高くなり、トレーニングや実行にかかる費用も大きくなります。しかし、より小規模なモデルが効率的かつ高度になるにつれて、この傾向は変化しつつあります。
基盤モデルは、API や開発者プラットフォームを通じて、下流のタスク(カスタムのジェネレーティブ AI アプリケーションの構築など)に活用できる LM です。内部の技術プラットフォーム用に基盤モデルを開発することも、オープンソース プロジェクトやクラウド プロバイダからサードパーティのオプションを活用することもできます。
ビジネスへの影響:
多くのソフトウェア プロバイダは、既存の製品にジェネレーティブ AI を導入し、生産性向上ワークフローにこの技術をよりシンプルかつ簡単に統合できるようにしています。たとえば、生成機能は Google Workspace にも追加されています。Bard のような AI コラボレータを利用することでも、新しい方法で作業を効率化できるようになっています。
ただ、次世代のカスタマー エクスペリエンスを提供するにしても、内部で革新的な使い方をするにしても、このテクノロジーを最大限に活用するには、独自のカスタム ジェネレーティブ AI アプリが必要になることもあります。そのためには、基盤モデルへのアクセスが必要です。
多くの組織では、チームや業務において今後数年で創出されると思われるさまざまな AI ユースケースに対応するために、さまざまな基盤モデル、あるいは少なくともコアモデルをカスタマイズした多くのバリエーションが必要になると考えられています。
自前でモデルを構築するには、時間と費用がかかるうえに複雑です。特に大規模モデルを構築する場合、コンピューティング費用だけで数千万ドルに達することもあり、さらにはデータのオーバーヘッドや ML の専門知識についても考慮する必要があります。このような理由から、多くの企業や政府は、Google の PaLM 2 のようなサードパーティの基盤モデルを活用する方法を模索しています。
実際、多くの組織では、今後数年で創出されると思われるさまざまな AI のユースケースに対応するために、さまざまな基盤モデル、あるいは少なくともコアモデルをカスタマイズした多くのバリエーションが必要となると考えられています。
たとえば、高度なユースケースでは、より規模の大きいモデルやより複雑なプロンプト、より大量の出力が必要となる場合などがあります。このようなユースケースでは、より多くのトークン(LM の最小単位である単語やフレーズのようなデータ)の処理が必要になる可能性があります。トークンは、コンテキスト ウィンドウの重要な要素でもあり、モデルが物事を忘れ始める前に考慮できるプロンプト情報の量を定義するだけでなく、どのモデルを選択し、どのようにカスタマイズし、どの程度の費用をかけて使用するかを決定する変数の一つでもあります。
たとえば、プレーヤーがマイクで話した内容に応じて、キャラクターのセリフがリアルタイムで生成される VR ゲームを作りたい場合、高度な基盤モデルによって生成される大量のトークンといった多くの要素が必要になると考えられます。しかし、小売業で、買い物客による在庫の閲覧や購入、支払い処理などを支援する chatbot を作りたいのであれば、明確で簡潔、トークン効率の良いレスポンスを出力する比較的軽量の LM が、効果的で快適な体験を提供しながら費用を最適化するための優れた方法となるでしょう。
基盤モデルをビジネスに活用する
プロンプト デザインは、基盤モデルから望ましい反応を引き出すプロンプトを作成するプロセスです。これは、エンドユーザーがジェネレーティブ AI アプリでプロンプトを作成する方法を指すこともありますが、アプリのメーカーがモデルに動作を学習させ、エンドユーザーが関わる前に基本的な指示を設定する方法を指すこともあります。たとえば、デベロッパーやプロンプト エンジニアは、複雑なプロンプトを小さなタスクに分割する方法をモデルに伝え、正しい推論(思考の連鎖プロンプト)を維持できるように支援します。また、温度などの変数の構成も可能で、正確さと創造性のどちらを優先して回答するかをコントロールできます。
パラメータ効率調整は、基盤モデルにサンプルを与えて出力を指示しますが、再トレーニングを行わず、低費用でカスタマイズする方法です。
微調整では、新しいデータでさらにトレーニングを行うことで、基盤モデルを詳細にカスタマイズできます。パラメータ効率調整のように LM に少数のサンプルを与えるだけでなく、数万件の新しいデータポイントでトレーニングを更新することで、モデル自体の重みを変更できます。これは、高度に差別化されたジェネレーティブ AI のユースケースのほか、法律用語や医学用語のような特殊な結果を出力するユースケースに有効です。
人間からのフィードバックを用いた強化学習(RLHF)は、人間のフィードバックに基づく報酬モデルを使用して基盤モデルを微調整する手法です。
エンベディングは、データをベクトル(特定のデータの次元を表す数値の列)として表現し、データ間の関係を示し、LM によって処理することができます。たとえば、画像は各ピクセルの色を表す数値を含むベクトルとして表現できます。また、「ネコ」という単語のベクトルには、「哺乳類」「4 本足」「飼う」といった次元を表す数値を含めることができます。ベクトルを使うことでデータ内の要素間の関係性を LM に理解させることができます。たとえば、「ネコ」と「トラ」は遺伝的に似ていても、「ネコ」だけが飼われている、あるいは広くペットとして扱われているという違いがあることを認識させます。このような関係性により、モデルはより正確な予測を出力できるようになり、組織はレコメンデーション エンジンや分類器、その他の高度なジェネレーティブ AI アプリケーションを構築できます。
ビジネスへの影響:
カスタムのジェネレーティブ AI アプリを作るには、通常、基盤モデルの動作をカスタマイズする必要があります。これは、特殊なユースケースの場合は新しいスキルを学習させるという意味であり、カスタマー サービスの chatbot の場合は正確でブランド イメージに合った応答を生成することを保証するという意味でもあります。カスタマイズのレベルはさまざまで、熟練したナレッジ ワーカーやデベロッパーが実行できるものもあれば、ML の専門知識が必要なものもあります。
たとえば、Google Cloud の Vertex AI アップデートで最近発表されたジェネレーティブ AI サポートを活用すれば、マーケティング コンテンツ作成のためのモデルの調整を、ブランド ドキュメント、プレスリリース、ソーシャル メディア投稿、その他のアセットをアップロードするだけで開始することができます。同様に、内部のエンタープライズ検索アプリを構築したい場合、エンベディング、ベクトル データベース、基盤モデルを使って手作業で行うこともできますが、多くの場合は Google Cloud の Gen App Builder のようなプロダクトを使い、調査するデータソースの選択、基盤モデルと意味検索機能の組み合わせといったプロセスを合理化し、より迅速に着手することも可能です。
また、カスタマイズの要件によって、どのモデルやベンダーを選ぶべきかが決まります。基盤モデルにエンタープライズ グレードのプラットフォーム機能による調整や、セキュリティとプライバシーが組み込まれているかどうかは、採用のしやすさに大きく影響します。
探求を始めましょう
これらの概念を理解した方々は、ジェネレーティブ AI プラットフォームの探求を始め、実験的に活用し、ビジネスのための戦略を立案する準備ができています。利用を開始するにあたり、ぜひ本シリーズ「The Prompt」をお読みください。ジェネレーティブ AI 戦略を強化する中で組織が探求できる優れたユースケース、その過程で避けるべき誤解や失敗を紹介しています。
- Google Cloud、AI 編集者 Michael Endler