ElevenLabs、音声コンテンツ向けジェネレーティブ AI ソリューションを発表 - Google Cloud のカスタマイズ可能な音声を使用
Google Cloud Japan Team
※この投稿は米国時間 2023 年 7 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。
ボタンをクリックするだけで、世の中のすべてのコンテンツが、あらゆる言語や音声で、高品質のイントネーションとペースを保ちながら発話される未来を想像してみてください。
これこそまさに、世界有数の音声 AI 研究組織である ElevenLabs が取り組んでいることです。私たちの使命は、どこからでもあらゆる言語や音声で音声コンテンツを利用できるようにすることです。当社のプラットフォームは、人間らしく聞こえ、高度にカスタマイズ可能な音声を生成できるテキスト読み上げツールを提供しています。当社のサービスには、自分の声のクローンの作成、事前にプログラムされたさまざまな合成音声の選択、まったく独自の合成音声の設計を可能にする機能が含まれています。こうした機能は、書籍やニュースなどの長尺コンテンツのナレーションや、ビデオゲームのキャラクター ボイスまで、あらゆる用途に使用できます。
実践例としては AI Radio が挙げられます。AI Radio は、当社の Prime Voice AI テクノロジーをバーチャル DJ に応用して作成された自律型ストリーミング ラジオ ステーションです。バーチャル DJ は音楽の紹介だけでなくニュース速報や天気予報もアナウンスできます。Super Hi-Fi の MagicStitch™ 制作サービスと ChatGPT の機能とも組み合わされています。
2 月下旬には、性別や年齢、アクセントなどを調整して個性的な人工音声を作成できる Voice Design を導入しました。今後発表する機能により、クリエイターは大規模テキストの構成、より長い一時停止の挿入、好みに合わせた音声の部分的再生成、イントネーションの編集、さまざまなスピーカーへの部分的な割り当てができるようになります。
当社のソリューションは、人の話し方をリアルにレンダリングするべく構築された独自のディープ ラーニング モデルを採用しており、テキスト素材のコンテキストに基づいて結果が調整され、暗黙の感情面も考慮されます。
世界中の聞き手の心に響く話し言葉
ElevenLabs は 2022 年の初旬に設立されました。共同創業者の Piotr Dabkowski と私はともにポーランドで育ち、高校で出会いました。
ポーランドでは、一人によるナレーションが映画で多用されます。多くの俳優が出演するシーンであっても、たった一人の声ですべてのセリフが読み上げられ、感情やイントネーションへの配慮もありません。ご想像のとおり、ユーザー エクスペリエンスは良いとはいえません。
大学卒業後、Piotr は Google に就職し、私は BlackRock や Palantir などの企業で働きました。現在まで続いている私たちの友情、ともに質の悪い吹き替えを経験していること、そして新しいテクノロジーへの共通の関心が ElevenLabs のアイデアにつながりました。
私たちは、映画のナレーションよりもはるかに高次な用途を目標に、より適切に人間の声を分析して伝達する方法を検討しました。幅広いコンテンツ開発者と協力して、テキストから話し言葉の音声を生成したり、多言語翻訳を自動化したりするなど、大きなチャンスがあると感じていました。
1 年にわたる集中的な開発とテストを経て、2022 年 1 月に自社プロダクトをベータ版でリリースしました。驚くべきことに、YouTube の動画クリエイターからポッドキャスター、書籍出版社に至るまで、すでに多くの方がこのプロダクトを採用しています。たとえば、独立系の著者や小規模な出版社は、わずかな費用と非常に短い期間で、印刷された書籍をオーディオブックに変換できるようになりました。
Google Cloud による音声テクノロジーの拡張
私たちは主要なクラウド サービスをすべて試しましたが、Google Cloud に最も大きな感銘を受けています。今年の第 1 四半期の時点で当社のプラットフォームには数十万人のユーザーが登録していますが、現状の 100 倍、あるいは 100 万倍の規模にする必要がある場合でも、このインフラストラクチャを信頼し、安心してシームレスなスケーリングに取り組めるものと考えています。
他のクラウド プロバイダの中には、同じようなスケーリングができないものもありました。その他にも、私たちには解決しなければならない課題がたくさんありましたが、Google Cloud を利用したことで簡単に解決できました。これは急成長している企業にこそ必要なものです。
費用面でも優れています。Google for Startups クラウド プログラムは、登録後、今年分の 100,000 ドルの Google Cloud クレジットを受け取ることができ、来年分としてさらに 100,000 ドルを受け取ることができたので有用でした。当社のように、実験する必要があるものの台所事情が厳しい場合もあるスタートアップにとってこうしたサポートは非常に貴重なものです。このプログラムは、収益を上げる前の段階から、モデルをデプロイし、顧客へのサービス提供を開始するうえで有用でした。
当社は、自社モデルの高パフォーマンスを確保するために、多くの Cloud GPU を使用しています。BigQuery は当社のエンタープライズ データ ウェアハウスであり、情報の総合的な分析が可能になります。Looker を使用すれば、ビジネス インテリジェンスを可視化することができます。また、当社はウェブサイトのトラフィックに Google アナリティクスを使用しています。
こうしたツールはすべてうまく統合されているため、顧客がサブスクリプションの割り当てから使用したテキストの文字数や、保存したクローン音声の数など、主要なインジケーターごとに指標をカスタマイズできます。マクロレベルで行動を分析することで、ユーザーが当社のプロダクトをどのように使用しているか、どの音声や音の特徴が最もよく利用されているかを把握できます。
当社のサービスに登録するユーザーをサポートするために、当社は Firebase Authentication を使用しています。これは、非常に使いやすい ID ソリューションで、安全で合理化されたユーザーのログインとオンボーディングを実現するアプリケーションに接続する際に使用します。
また、当社は、組織上および生産性上のメリットをすべて享受できる Google Workspace を大いに活用しています。そのエコシステムは素晴らしく、チームメンバーにとってシンプルで使いやすいものになっています。
ElevenLabs の今後
今後においては、盲目の方や視覚障がいのある方をはじめ、新しいユースケースを探っていくことに関心をもっています。最近、私は Jonathan Mosen のポッドキャスト「Living Blindly」でインタビューを受けました。そこでは、就寝時の子供たちに自分の声で物語を読み聞かせたいと考えている目の見えない親御さんであっても、すべての文書コンテンツを利用可能なコンテンツに瞬時に変換できるようになるというテーマについて話しました。
AI テクノロジーが進化するにつれて、イノベーションと適切な安全保護対策のバランスを取ることが重要であると私たちは考えています。当社は当初から安全保護対策を講じており、リリース以来、追加の安全機能を展開しているほか、今後もさらに多くの安全機能を提供していく予定です。
また、何が適切で何が不適切かをユーザーがより良く理解できるように、テクノロジーの安全な使用方法について一般のユーザーを教育することも重要であると考えています。もちろん、EU の AI 規制法案など、新しい基準や規制が出現するたびにそれに適応していきます。規制当局の提案の中には、AI によって生成されたすべてのコンテンツに適切なタグ付けをするというものがあります。私たちはそうあるべきであることに強く同意しており、これを実現するツールを構築しています。
私たちは、従業員、投資家、パートナー、アドバイザーからなるすばらしいチームのお力添えに感謝しています。今後グローバルに拡大していくにあたり、私たちは Google Cloud と連携していけることを嬉しく思っています。
現在は、英語、スペイン語、フランス語、ドイツ語、ポーランド語、イタリア語、ヒンディー語でのコンテンツ生成をサポートしていますが、今後にご注目ください。近い将来、私たちのモデルにはさらに 10 か国語が追加され、世の中のすべての言語をカバーするための準備を進めていきます。
Google Cloud によるスタートアップのサポートについては、こちらのページでプログラムの詳細をご確認ください。また、こちらから更新情報の配信にご登録いただいた方には、コミュニティ活動、デジタル イベント、スペシャル オファーなどの情報をお届けします。