スタートアップ & SMB

Fireworks.ai: より効率的な推論エンジンで生成 AI を強化

2024年12月19日

https://storage.googleapis.com/gweb-cloudblog-publish/images/fireworks.max-2500x2500.jpg

Lin Qiao

CEO, Fireworks.ai

Ray Thai

Founding Product Manager, Fireworks.ai

※この投稿は米国時間 2024 年 12 月 4 日に、Google Cloud blog に投稿されたものの抄訳です。

より迅速に行動し、生産性を高め、お客様が必要とするプロダクトやサービスを提供するために、さまざまな業界の企業が AI テクノロジーに投資しています。しかし、AI をプロトタイプから本番環境に移行することは容易ではありません。当社が Fireworks AI を開発したのはそのためです。

Fireworks AI への取り組みは、7 年前の Meta AI から始まりました。そこでは、イノベーターのグループが PyTorch という野心的なプロジェクトに取り組んでいました。PyTorch は、最先端の AI インフラストラクチャをゼロから構築するプロジェクトで、現在では、オープンソース AI フレームワークとして広く普及しており、毎日何兆もの推論を処理しています。

AI プロダクトを開発する多くの企業は、総所有コスト（TCO）とパフォーマンス品質および推論速度のバランスを取るのに苦労しており、プロトタイプから本番環境に移行することも困難な場合もあります。PyTorch のリーダーたちは、これを長年の経験を活かす絶好の機会と捉え、企業がこのような課題を解決できるように手助けしようと考えました。こうして Fireworks AI が誕生しました。

Fireworks AI が提供する生成 AI 推論エンジンは、かつてないほど高速かつ効率的です。複合 AI システムで限界を押し広げ、従来の単一の AI モデルを相互に作用する複数のモデルに置き換えます。音声認識モデルを使用して質問を書き起こし、言語モデルを使用して質問に回答する、音声ベースの検索アプリケーションとお考えください。

NVIDIA CUDA や CUTLASS ライブラリ、NVIDIA Inception などのスタートアッププログラムが当社の急速な進化をサポートしており、生成 AI の取り組みを始めるお客様の要求に応えることを可能にしています。

ここでは、当社が Google Cloud との連携により、生成 AI のスケーリング、費用、複雑さの課題にどのように取り組んでいるかをご紹介します。

お客様の成長に合わせたスケーリング

AI は急速に進化するため、本番環境への移行時にはスケーリングが最大の懸念事項となります。Fireworks のお客様には、新しいモデルを開発してすぐにリリースしたいといったニーズや、需要が一夜にして倍増するといったケースがあるため、迅速かつ即座にスケーリングできる必要があります。

当社は、生成 AI 用の最先端のインフラストラクチャソフトウェアを構築する一方で、お客様へのアーキテクチャコンポーネントの提供についてはトップパートナーに期待しています。Google Cloud のエンジニアリング能力は、パフォーマンス、信頼性、スケーラビリティの面で非常に優れた環境を提供してくれます。大量のワークロードを処理しながら、優れた稼働率を維持するように設計されているため、Fireworks では現在、1 日あたり 1,400 億以上のトークンを処理しており、API の稼働率は 99.99% を維持しています。そのため、サービスの中断が発生することはありません。

Google Kubernetes Engine（GKE）と Compute Engine も当社の環境には不可欠であり、コントロールプレーン API の実行や GPU フリートの管理に役立っています。

Google Cloud は優れたスケーラビリティを提供してくれるので、使用するインフラストラクチャは常に適切なサイズです。お客様がスケーリングを必要とする場合には、即座にその要求に応えることができます。

Fireworks は、Google for Startups クラウドプログラムと NVIDIA Inception のメンバーであるため、Google Cloud は当社の事業拡大に不可欠なクレジットを提供してくれました。

急増する AI の費用を抑制

企業が心配しなければならないのはスケーリングだけではありません。AI を導入すると、一夜にして費用が膨れ上がる可能性があるため、持続可能な成長を維持するためには効率的なスケーリング方法が必要です。Fireworks でパフォーマンスと環境を分析することで、スケーリングと効率のバランスを取ることができます。

当社では、レポート作成と課金イベント処理には Cloud Pub/Sub と Cloud Functions を、ログ分析と分析の指標のアラートには Cloud Monitoring を使用しています。すべてのリクエストと課金データは BigQuery に保存され、お客様ごとのモデルの使用状況とボリュームを分析できます。これにより、容量に余裕があるか、スケーリングが必要か、またどの程度スケーリングが必要かを判断できます。

Google Cloud の優れたクラウド環境は、予算を圧迫することなく、より多くのサービスをお客様に提供することを可能にしています。競合するホスト型サービスと比較して、当社は 4 分の 1 の低レイテンシと 4 倍の高スループットを実現できるため、低価格でより優れたパフォーマンスを提供できます。お客様はパフォーマンスを向上させるために予算を増やす必要がなくなり、TCO を抑えることができます。

あらゆるお客様に最適な環境

生成 AI ソリューションにはそれぞれに独自の複雑さや微妙な違いがあるため、お客様の環境に合わせて柔軟に対応する必要があります。複合 AI システムの部分ごとに異なる GPU を必要とする企業もあるでしょうし、より大きなモデルと並行して、より小規模でファインチューニングされたモデルを展開したいと考える企業もあるでしょう。Google Cloud では、タスクを分割して必要な GPU を自由に利用できるだけでなく、さまざまなモデルや環境と統合することもできます。

これは、金融や医療などの機密情報を扱う業種のお客様にとって、データのプライバシーやセキュリティが懸念事項となる場合に特に重要です。Google Cloud は、暗号化や安全な VPC 接続などの堅牢なセキュリティ機能を提供しており、HIPAA や SOC 2 などのコンプライアンス規制への準拠に役立ちます。

変化するお客様のニーズに対応することは、生成 AI において当社が成功するうえで極めて重要です。Google Cloud や NVIDIA のような企業は、それを実現する手助けをしてくれます。