コンテンツに移動
Transform with Google Cloud

The Prompt: AI にとって歴史的な一年を締めくくる重要なマルチモーダル モデルのリリース

2024年1月22日
https://storage.googleapis.com/gweb-cloudblog-publish/images/historic-year-for-ai-momentous-multimodal-.max-2600x2600.png
Google Cloud Japan Team

Gemini 1.5 Pro をお試しください。

Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダル モデルです。

試す

※この投稿は米国時間 2023 年 12 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。

このところ、ビジネス リーダーたちの間では、生成 AI が話題の中心となっています。急速に進化を続け、変革をもたらすこの分野の話題をフォローできるよう、「The Prompt」と題したシリーズを通じ、Google がお客様やパートナーと接するなかでの気づきや、Google の AI の最新動向を紹介していきます。今回は、Google Cloud の AI &ビジネス ソリューション担当グローバル VP の フィリップ モイヤーが、エンタープライズ テック分野において記憶に残る素晴らしい一年を振り返り、新たな年への期待(今年同様に素晴らしい年になる可能性があります)について語ります。

2023 年を振り返ってみると、生成 AI が話題になって以降、実に多くの出来事がありました。 Google は数十の生成 AI プロダクトと数百の生成 AI アップデートを発表しており、12 月には GeminiAI ハイパーコンピュータDuet AI for Developers(一般提供)をリリースしました。率直に言って驚異的なペースです。

これによりあらゆる分野でのイノベーションが創出されました。Google Cloud では、Vertex AI でのアクティブな生成 AI プロジェクトの数が 7 倍以上に増加しました。Gemini はすでに Vertex AI プラットフォームで利用可能であり、デベロッパーは高度な AI エージェントを開発できるようになりました。Gemini は 間もなく Duet AI ポートフォリオにも組み込まれる予定であり、お客様は AI アシスタントを必要なときにどこからでも利用できるようになります。また、オープンソース生成 AI の分野での活用が飛躍的に増加し、業界内の組織が多くの素晴らしいモデルを発表したエキサイティングな一年でもありました。

2023 年は大企業の独創的な試験的運用や新たなコンシューマー アプリケーションに注目が集まりました。Gemini のようなマルチモーダル モデルにより、今後はあらゆる業界で進展が見られると予想されます。

さらに 2023 年の初頭はほとんどのモデルがトレーニング データに縛られている状況でしたが、現在ではモデルのファイン チューニングと外部ソースおよび専用ソースへの接続のための信頼性に優れたソリューションが開発され、組織が AI モデルのインテリジェンスをデータに適用できるようになりました。このような機能により、社内のエンタープライズ データを活用して質問に答える chatbot の開発から、多様な情報の合成と分析まで、実に優れたユースケースが可能になります。

決して大げさに言うわけではありませんが、Gemini を初めて使ってみたときに体感したあの神秘的な感動を、皆様にもぜひ体験してもらえればと思います。現在、多くのリーダーが生成 AI の新たな用途を理解するだけにとどまらず、生成 AI を実際にあらゆる目的で利用し始めています。

マルチモダリティにより高度な推論を実現

Gemini は最初からマルチモーダル モデルとして構築されているため、テキスト、コード、音声、画像、動画など、さまざまな種類の情報を同時に一般化して理解し、横断的に操作し、組み合わせることが可能です。

たとえば Gemini に対して「過去 5 年間のこの銀行またはオンライン ストアの現金配当性向は?」と質問できます。

配当性向とは、総利益のうち配当として株主に配分する企業の利益の割合を示します。モデルがこの質問に回答するには、現金、現金相当額、配当金といった用語の定義をすべて理解し、比率の数学的概念にそれらの用語を適用できる能力が必要です。また、外部システムから過去 5 年分の財務情報を正確に取得し、他の AI モデルにアクセスしてこの比率を算出する必要があります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Screenshot_2023-12-20_at_2.07.10AM.max-2200x2200.png

Applied AI Summit 基調講演のハイライト。

マルチモダリティとは、文の次の単語を予測できるだけのモデルと、さまざまな種類のデータの情報を理解して処理できる高度なモデルの違いを表しています。前述のような質問に回答するには、モデルは質問の意味を理解できるだけでなく、方程式などの数学的概念を認識し、必要となる特定の要素を取得するという、1 年前には不可能であった 2 つの処理を行う必要があります。

Gemini のようなモデルは、我々が新たな生成 AI の時代の幕開けを迎えており、本当の意味で言語理解に一歩近づいたことを示しています。新たな生成 AI の時代には、システムがさまざまな種類のデータを合成できるようになり、あらゆる業界でより多くのビジネス価値を生み出すことができます。

また、Gemini のようなモデルは数多くの状況に対処できるので、さまざまな分野や実際の環境へより強力に適用できます。Gemini Nano はオンデバイスで動作するモバイルサイズのモデルであり、AI をエッジで運用できる有益な機会を創出します。これにより、限られた接続でデータを安全に分析して、迅速に応答できるようになります。このモバイルファースト モデルにより、緊急サービス、モバイル バンキング、AR ゲームなどさまざまなタスクを強化できます。

情報を統合して現実世界の問題を解決

マルチモーダル機能により、組織はさまざまな種類のデータを統合して現実の問題に対処するという新たな手法を利用できるようになります。多くの業界で発生している想定外の構造化されていない問題は、単一分析モードや限られたデータソースでは解決できません。

たとえば建設現場での安全性を強化するには、さまざまな種類の情報を分析して組み合わせる必要があります。企業が所有しているこのような情報には、動画フィードや画像などのビジュアル データ、建設現場からの事故報告、その他のデータ(費用やスケジュールの遅れなど)があります。マルチモーダル生成 AI モデルは、このような情報をすべて統合して、事故が発生する可能性が最も高い場所、事故発生の条件、事故発生の過程を理解し、安全かつ効率的なアプローチを策定するのに役立ちます。

別の例として、航空会社の整備士が、加速時に異常音を発するエンジンを調査するとします。整備士は異常音が入った動画を撮影し、その他の情報を音声で説明します。生成 AI アプリはこれらすべての種類(モダリティ)の情報を理解し、特定機種の技術ハンドブックから該当する情報を取得して、整備士が問題を速やかに特定して修理方法を判断できるように支援します。

特定の種類の情報ごとのモデルを複数つなぎ合わせて利用するのではなく、複数のモダリティを一括処理するように設計された 1 つのモデルにより、生成 AI は人間にとっては当たり前の多感覚的な推論の実現に大きく近づきました。このような技術の進歩により、情報の検索、取引の完了、さらには意思決定など、目標に向けたアクションを実行できる生成 AI エージェントを構築できる可能性が広がります。

新たなビジネス価値をもたらす AI エージェントの構築については、すでに数多くの独創的な実例があります。

Priceline が構築しているデジタル コンシェルジュは、会話型チャットを通して旅行者が目的地を調べ、複雑な旅程を組み、直接予約できるように支援します。Six Flags が開発している新しいバーチャル アシスタントは、同社が運営する遊園地の入場客が一日の計画を立てるのを支援し、質問に答え、乗り物やエンターテイメント、食事などのおすすめを顧客に合わせてカスタマイズして提示します。Formula E は、レースカーのセンサーから取得したライブ テレメトリー データと過去のレースの履歴レコードを分析し、ライブイベント中にドライバーやファンからの質問に回答できる会話型エージェントを発表しました。

実世界やエンタープライズからさまざまな種類の データを取得し、理解し、処理できる機能を備えたエージェントによって、組織が実現できるようになる新たなユースケースを想像してみてください。

生成 AI ユースケースは新たなレベルへ

生成 AI モデルで対応できるモダリティの増加に伴い、考えられる AI ユースケースも拡大、進化しています。生成 AI アプリは今後、基本的な応答生成システムから、契約や財務データの分析、大規模な調査データの集約、完成したコンテンツ ドラフトの配信などあらゆる処理が可能な複雑な生成 AI システムおよびバーチャル アシスタントへと進化する可能性があります。

2024 年は、多くの組織が標準的な開発サイクルを導入し、新しい AI 機能の頻繁なリリースとパフォーマンス向上のための改善を行うことになるでしょう。さらに、Gemini Nano のようなモデルによってモバイル デベロッパーが生成 AI をエッジへデプロイできるようになり、デバイスを大きく変える可能性があります。これにより、デバイスから生成 AI にアクセスできるようになり、新たなビジネス ユースケースを実現できます。

今後実現する可能性のある最も注目すべきマルチモーダル ユースケースをいくつかご紹介します。

  • 保険請求と審査: 衝突事故の損害を査定するため、スマートフォンの動画や画像の分析に生成 AI モデルを利用します。
  • 資産調査: 建築記録の監査とリスク検査を実施し、実物資産の品質が維持されていることを確認します。
  • 病気の診断: 臨床検査、医用画像、患者データを分析して、医療従事者が疾患を発見して疾患の進行を予測できるように支援します。
  • 金融詐欺行為の検出: 不正行為やその手法に関するリアルタイムの知識を組み込み、不正行為の検出(偽札、不正な取引、その他の未知の異常の識別など)を強化します。
  • 契約遵守: 店内の陳列棚の状況や物品販売を評価して、陳列棚の配置やプロモーションでサプライヤとの小売契約が遵守されていることを確認します。
  • 購入履歴または取引履歴の分析: 顧客や組織が自然言語による問い合わせを使用して、銀行取引に関連する質問や消費性向を回答できるようにします。
  • 文書の要約と検索: 収支報告やプレスリリースを分析し、重要なポイントを特定してアナリストからの質問を予測します。

Gemini は私たちが進むべき道を示してくれました。AI により組織を変革できるこの機会を、活用できるかどうかは、ビジネス リーダーと経営幹部の意向にかかっています。

2023 年は未来を実現可能にする転換点となりましたが、高まる期待と変革が現実のものとなるのはこれからです。飛躍的な進展が実現し、Google Cloud がそのための重要なパートナーとなれることに大きな期待を寄せています。Google の最新の生成 AI 技術や、デベロッパーが最新の AI 技術を活用できるようにする Google の取り組みについては、Applied AI Summit のハイライトをご覧ください。

冒頭の画像は、Google Cloud で Midjourney を使用して、「雑誌のイラストのようなスタイルで描かれた、画像、テキスト、動画、コード、音声の融合を表す幸せな雰囲気の概念的なイラスト」というプロンプトで作成しました。

-Google Cloud、AI &ビジネス ソリューション担当グローバル VP Philip Moyer

投稿先