Transform with Google Cloud

モデルの基盤: AI の促進をインフラストラクチャから始めるべき理由

2023年7月4日

https://storage.googleapis.com/gweb-cloudblog-publish/images/Foundations_for_models.max-2000x2000.jpg

Google Cloud Japan Team

最適なインフラストラクチャをプロジェクトに結び付けるには、AI の目標、ハードウェアの使用、パフォーマンスを擦り合わせる必要がある。

※この投稿は米国時間 2023 年 5 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。

今という時代は、事業運営の手腕をより厳しく問われる時代です。あなたの組織でも、現在、より少ないリソースでより多くのことを行う緊縮策についての議論、プロジェクトの合理化、AI と ML を駆使した従業員の生産性の向上など、難しく、時に矛盾する意思決定に対処しているのではないでしょうか。

こうしたアクションが求められる要因の 1 つに、ウェブ、ソーシャルメディアでのやり取り、モバイルデバイス、カメラ、IoT センサーなどから取り込めるようになった膨大な量のデータがあります。最近ではすべてのことがインプットとなるように感じられます。各データポイントはパワフルで、インサイトを伝え、ワークフローを自動化し、アフィニティを向上させる、パーソナライズされたカスタマーエクスペリエンスを実現しています。すべての作用には、常に等しい反作用が存在しますが、膨大な量のデータには、大きな可能性を感じると同時に、圧倒されるように感じることがあります。データを取り込むこととデータを活用することはまったく別の話です。インフラストラクチャが対応できなければ、世界中にあるどのモデルも役に立ちません。

データセットが大きくなるにつれて、機会と課題も連動して増えていきます。たとえば、ジェネレーティブ AI モデルの導入に関して私たちがこれまで見てきた最大のハードルの 1 つが、すべてのデータを処理するのに極めて高いコンピューティング能力が求められることです。従来型のデータ収集、分析、ビジネスインテリジェンスにも同じことが言えます。簡単に言うと、AI および ML プロジェクトのイノベーション、最適化、導入には多くのコンピューティングリソースが必要です。

このため、多くの組織が、AI に対応するにはインフラストラクチャをさらに強化する必要があることに気づいています。AI の時代に成功を収めるには、異なる形の新しい IT インフラストラクチャが必要になるだけではなく、組織が考えるための新しい方法も求められます。

インフラストラクチャへの投資は AI への投資にもなる

大規模モデル AI 分析を利用するとき、スピードとパフォーマンスは、大規模でありながら構造化されていないデータを効果的に活用したい組織にとっては、独自の差別化要因となりえます。新しいハードウェアに投資しない場合や、既存の AI インフラストラクチャを調整するだけの場合、モデルをトレーニングして完全に成熟させるまでに数か月から数四半期、場合によっては数年もかかる可能性があります。

AI インフラストラクチャにアクセスするには、独自に構築する、Google Cloud などのクラウドプロバイダと連携する API を使ってデータを外部の大規模モデルに接続するなど、多くの方法があります。どこから AI インフラストラクチャにアクセスするかにかかわらず、モデルを構築した後、そのモデルをビジネス上の意思決定プロセスに埋め込むには、消費可能なコンテンツを継続的に分析し、生成するためには膨大なコンピューティング能力が必要となります。

大規模なモデルの導入と最適化は、どんなに熱意のあるエンジニア・チームであっても負担になりますが、ペタバイト級のデータを分析し、ビジネスインサイトやユニークなコンテンツを生成するためには、それらが必要になります。スキルが高く、高い報酬を受け取っているエンジニアで構成されるデータおよび AI を担当するチームであっても、モデルが結果を生成するまで数時間あるいは数日間待つことになるかもしれません。ハードウェアが原因で生じるそのような待機時間は、テストして反復処理し、その結果を再テストしなければならないため、チームに負担をかける可能性があります。これは、AI と ML が持つ優れた能力の 1 つである俊敏性に反するものです。優れたカスタマーエクスペリエンスを生み出すには、すばやいテストとパーソナライズが不可欠です。

大規模モデルを導入して最適化し続けることは、専任のエンジニアチームにとっても負担となるかもしれません。適切でないインフラストラクチャの選択により時間を無駄にしないでください。

たとえば、Vodafone は、AI 用に最適化されたインフラストラクチャを展開し、エクスペリエンスを強化してきました。その結果、技術チームは、AI モデルの作成から展開までにかかる時間を最大 80% 短縮できました。モバイルおよび通信サービスのような特に変わりやすい市場では、優れたエクスペリエンスを提供する点で、時間の短縮にはかなり大きな価値があるかもしれません。

AI プロジェクトのリソースプランニングを行う際、最適化されたインフラストラクチャが決定的要因となる可能性があります。最近の調査によると、標準的なハードウェアと AI 用に最適化されたハードウェアでは、パフォーマンスに 2 倍もの大きな違いがあることがわかっています。これは、インフラストラクチャに関する決定が、企業のより広範なイノベーション方針にとって非常に重要である理由を示しています。

AI への投資を成功につなげるため、まずは立ち止まって、次の 3 つのキーポイントを念頭に置いて取り組む必要があります。

AI の目標を明確に定義する
消費パターンを把握する
パフォーマンス要件を把握する

これらに取り組むことで、独自の AI システムスタックを構築するのか、プロジェクトに特化したインフラストラクチャを導入できる Google Cloud などのクラウドプロバイダを利用するのかを決定できます。

AI の目標を明確に定義する

AI プロジェクトを構築し、展開するには、AI によって何を行うかを正確に把握する必要があります。

プロジェクトを隅から隅まで理解することで、後工程で時間と費用を消費してしまう可能性があるプロビジョニングやスケーリングの潜在的な問題を軽減しやすくなります。合意形成もチーム間のコラボレーションにとってメリットとなり、関係者と取り組みの最終目標との間における確実な擦り合わせに役立ちます。関係者と目標を擦り合わせることでチームのコラボレーションを強化する際にも AI の目標を明確に定義づける必要があります。

組織が AI プロジェクトを定義する際に検討できるいくつかの目標を以下に示します。

AI 担当者の生産性を向上させ、テストと導入をより迅速に行えるようにする
既存のビジネスプロセスや消費者製品のエンドユーザーエクスペリエンスを向上させる
AI を活用し、新しい製品と機能のリリースにかかる、製品化までの時間を短縮する

これらのトピックを検討すれば、チームはインフラストラクチャのニーズと、それが当面のタスクに合致しているかどうかをよりよく理解できるようになります。

消費パターンを把握する

インフラストラクチャのニーズを判断する際、消費パターンを理解しているかどうかが、導入が成功するか、コストの無駄遣いになってしまうかの分かれ目になる可能性があります。データセットの増加に対処するために現在の社内チームがスタッフの増員を必要とするかもしれない、あるいは AI システムの最適化を専門とするエンジニアに投資が必要かもしれないことを考慮しましょう。

ニーズを前もって把握しておくことにより、要件を満たさないインフラストラクチャを選択したり、カスタマイズが難しいだけでなく、価値がほとんどなく、問題も解決できない柔軟性に欠けたモデルを選択したりするという落とし穴を避けることができます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Google_TPUs.max-1200x1200.jpg

Google の TPU のような専用チップは、特定の AI プロジェクトの高速化に役立ちますが、他に、追加ハードウェアにかかる費用の削減に役立つものもあります。

チームはターゲットユーザーを明確に理解する必要があります。ターゲットユーザーとしては、AI の研究者、ML エンジニア、データサイエンティスト、ソフトウェア開発者、あるいはこれらの組み合わせが考えられます。その後、ユーザーの最大のニーズがモデルのサイズなのか、スピードなのか、技術的なことなのかなど、ユーザーに合わせて構築および維持する AI 技術スタックの適切なレイヤを選択する必要があります。

その結果、たとえば、自身でコントロールする専用ハードウェアを利用する独自のアプリケーションセットを、Kubernetes を通じて構築することになるかもしれません。または、Vertex AI のようなマネージド ML プラットフォームを使用し、カスタマイズ性は低いものの必要な作業が少ないマネージドプラットフォームを採用することになるかもしれません。さらに簡単な方法として、一連の API を通じて最新の AI モデルを利用することもあるでしょう（最も広範なアクセスとコントロールが実現します）。

パフォーマンス要件を把握する

競合他社間であっても、同じ組織内であっても、同じプロジェクトは 2 つとありません。どの企業も、自社のブランドボイスやナレッジベースに合わせてモデルをトレーニングし、最新の顧客データに基づいて提案をパーソナライズしたいと考えています。そのため、プロジェクトの展開だけでなく、継続的な成功も確保するためには、パフォーマンス要件を把握することが重要です。

費用を正確に見積もるため、どのハードウェアとソフトウェアがプロジェクトに適しているかを判断する必要があります。なぜなら大規模モデルのトレーニング、調整、反復処理、デプロイは、モデルやアプリケーションごとに異なる可能性があるからです。標準的な CPU、より高度な画像処理装置（GPU）、AI を専門とする Google の Tensor Processing Unit（TPU）にはそれぞれトレードオフがあります。ニーズに応じた判断が、AI プロジェクトの継続的な費用、ランタイム、パフォーマンスに影響を与える可能性があります。

最後に、インフラストラクチャへの投資を最大限に活用するには、基盤となるハードウェアに合わせて最適化されたソフトウェアを見分けることが重要です。包括的に最適化されたスタックにより、コンピューティング能力とパフォーマンスについては節約しながらも、モデルからのアウトプットを最大化することができます。

あらゆるものを AI に

現在、あらゆる業界で、AI（新しいジェネレーティブ AI を含む）をビジネス機能に統合する方法を模索しています。ただし、AI システムが各プロジェクトに合わせて正しくトレーニング、最適化、構成されている場合のみ、企業はその機会を活かすことができます。

まずは立ち止まってプロジェクトを隅から隅まで吟味し、あらゆる費用を見込んでおかなければ、最もシンプルなプロジェクトであっても予算を超過する可能性があります。AI 用に最適化されたインフラストラクチャかどうかが、データを最大限に活用できる優れたモデルか、技術的負債による沈没かの分かれ目になる可能性があります。

- Google Cloud、特殊コンピューティング担当シニアディレクター George Elissaios
- Google Cloud、アウトバウンドプロダクトマネージャー Mikhail Chrestkha

投稿先