データ分析

Soundtrack Your Brand、BigQuery を使いよりよいビジネス結果を効率的に実現

2022年11月24日

Google Cloud Japan Team

※この投稿は米国時間 2022 年 11 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。

編集者注: Soundtrack Your Brand は受賞歴のあるストリーミングサービスであり、Spotify の支援を受け、ビジネス向けに作られた世界最大のライセンス取得済み音楽カタログを提供しています。本稿では、ビッグデータを音楽に変換するための基本的なコンポーネントとして同社で BigQuery がどのように役立っているか紹介します。

Soundtrack Your Brand の根幹は音楽会社ですが、ビッグデータは私たちの魂です。適切なタイミングで適切な音楽を再生することが、ブランドにより刺激される感情、全体的な顧客体験、そして売上に大きな影響を与えます。当社は 5,800 万曲を超える音楽カタログ、それに付随する音楽プロバイダからのメタデータ、膨大な量のユーザーデータを使用して、パーソナライズされたレコメンデーションの配信、プレイリストとステーションのキュレーション、さらにはリスニングスケジュールの生成を行っています。たとえばスケジュール機能を使用して、お客様はその週に何を聞くかを設定できます。さらに一歩踏み込んで、当社はさまざまな時間枠で何を聞くかを提案し、スケジュール全体のレコメンデーションを提供しています。

当社は BigQuery を使用してデータレイクを構築し、従業員がすべてのコンテンツとメタデータに構造化された方法でアクセスできるようにしました。データを簡単に見つけてアクセスできるようにすることで、あらゆるタイプの分析や機械学習（ML）のユースケースを構築し、完全なデータセット全体で確実かつ一貫してクエリを実行できます。現在、ユーザーは、ホーム、サーチ、プレイリスト、ステーション、スケジュールなどのコア機能全体で提供されるパーソナライズされたレコメンデーションを通じて、この高度な分析の恩恵を受けています。

開発者の生産性を微調整する

BigQuery から得られる最大のビジネス価値は、開発能力が大幅に高速化され、機能をより迅速にリリースできることにあります。当社は過去 3 年間で、合計約 10 人の ML チームとデータチームで、150 を超えるパイプラインと 30 を超える新しい API を構築しました。つまり、驚くべきことに新しいパイプラインを毎週、新しい API を毎月のように構築できたことになります。すべてが BigQuery にあるため、SQL を簡単に記述し、それを CI / CD ツールチェーン内でオーケストレーションし、データ処理パイプラインを自動化できます。github テンプレートとして構築された社内ツールは、多くの点で Dataform と非常によく似ており、非常に複雑な ETL プロセスを数分で構築することを可能にし、データラングリングに費やす時間を大幅に削減します。

BigQuery は、データエコシステム全体の基盤として機能し、すべてのデータを固定し、信頼できる唯一の情報源となります。この信頼できる唯一の情報源により、データを使用してできることの限界が広がりました。ほとんどのパイプラインはデータレイクから始まるか、データレイクで終わるため、データの再利用性とコラボレーション性が向上します。たとえばインターンの 1 人は、毎日生成される既存のテーブルの上に、2 日ほどでチャーン予測パイプライン全体を構築しました。このパイプラインは主にシンプルであることが幸いして、ほぼ 1 年経った今でも障害なく実行されています。このパイプラインは、Kubeflow Pipelines でスケジュールに従って実行される BigQuery ML モデルにチェーンされた、BigQuery のクエリです。

BigQuery をデータオペレーションのアンカーにしてみると、構成の維持やコンテンツマネジメントシステムのサポートなど、予期しないユースケースに BigQuery を適用できることがわかりました。たとえば、行を追加するだけで当社の音楽エキスパートが曲のジャンル分類の間違いを修正できる、Google スプレッドシートを作成しました。特注のツールを作成する場合は数時間または数日かかるところですが、数分ですべてをセットアップすることができました。

BigQuery では Excel スプレッドシートを取り込めるため、コンテンツ管理者や DJ など、レコメンデーションエンジンの改善や音楽のキュレーションで重要な役割を果たすビジネスユーザーが、データパイプラインに貢献できるようになりました。

また、いくつかの大規模な Cloud Storage バケットのインデックスとしても BigQuery を使用しています。Cloud Functions の関数を使用してバケットの読み取り / 書き込みイベントをサブスクライブし、それらのイベントをパーティション分割テーブルに書き込むことで、パイプラインは簡単かつ自然な方法でファイルをすばやく検索してアクセスできます。たとえば、新しいトラックリリースのオーディオをダウンロードして処理できます。またログイベントを利用して、テーブルがデータセットに追加されたときにデータ（一部のデータプロバイダから BigQuery に新しくインポートされる JSON / CSV ファイルなど）をオンデマンドで処理するパイプラインをトリガーしています。すべてのファイルのインテグレーションと処理が BigQuery で行われるため、データ保持、ETL、ACL、および容易なイントロスペクションを実現しつつ、新しいデータをデータエコシステム全体でタイムリーかつ費用対効果の高い方法で迅速に利用できます。

BigQuery はすべてをシンプルにします。パーティション分割テーブルを素早く作成し、何千時間もの CPU 時間を使用するようなクエリを数秒で実行して、膨大な量のデータをふるいにかけることができます。しかも、サービスに支払うのはわずか数ドルです。その結果、非常に高速で費用対効果の高い ETL パイプラインを実現できます。

さらに、すべてのデータを BigQuery で一元化することで、パイプライン間の接続を簡単に確立できるようになり、開発者はどのパイプラインがどの種のデータを生成するかを明確に理解できるようになります。異なる結果を求める場合、開発者は github テンプレートをコピーし、いくつかの設定を変更して、新しい独立したパイプラインを作成することもできます。

もう一つの利点は、開発者がスケジュールを調整したり、別の開発者のパイプラインと同期したりする必要がないことです。毎日更新されるテーブルが存在し、それがアプリケーションのデータソースとして信頼できることがわかっていれば十分なのです。各開発者は、他の開発者によるプラットフォームの使用を妨げる心配なく、独立して作業を進めることができます。

イテレーションを強みにする

BigQuery は特別な設定なしで当社の期待する以上のパフォーマンスを見せてくれましたが、特に ML 分野でのパフォーマンスには、本当に驚かされました。以前は 1 時間かかっていた数百万行の処理を、いきなり数秒で行えるようになりました。このパフォーマンスの向上により、アーティストクラスタリングのワークロードで 100 個の CPU ワーカーを使い 24 時間以上かけて実行していたジョブが、収束までループで推論クエリを実行する BigQuery パイプラインによって最終的に 10 分にまで改善されました。さらに、この 140 倍以上のパフォーマンス向上は、3% のコストで達成できました。

現在、100 を超えるニューラルネットワーク ML モデルがトレーニングされ、BQML で定期的にバッチで実行されています。このセットアップは、迅速なプロトタイピングと本番環境対応のモデル作成の両方において当社のお気に入りのメソッドになりました。BQML でのハイパーチューニングが高速かつ簡単であるだけでなく、ベンチマークでは、当社独自の Tensorflow コードを使用した場合と同等のパフォーマンス指標が示されています。今では、Tensorflow の使用は少なくなっています。入力データの違いは、モデルを個別に微調整した場合よりも大きな影響をエンドユーザーのエクスペリエンスに与えることがあります。

BigQuery のパフォーマンスにより、入力データへの変更によるレコメンデーションの結果をリアルタイムで示すことができるため、レコメンデーションエンジンの形成を支援しているドメインエキスパートや、チャーンを懸念しているドメインエキスパートと簡単にイテレーションが行えます。当社では、データソースクエリの一部として ML.predict クエリを含むデータポータルのレポートを作成しています。このレポートは、良い予測 / 悪い予測の例、バイアス / バリアンスのサマリーを提供します。また、入力機能と出力しきい値を制御する一連のプルダウン、しきい値、切り替えを搭載しています。このレポートをモデルの手動調整のためにドメインエキスパートのチームに提供して、モデルの調整をドメインエキスパートの手に委ねます。人間参加型にするかどうかは、当社のチームにとって些細なことになりました。BigQuery ML のアプローチは、イテレーションが高速であるだけでなく、メンテナンスも非常に少なく済みます。Python や Scala のコードを大量に記述したり、複数のフレームワークを維持および更新したりする必要はありません。すべてをデータストアに対して実行される SQL クエリとして記述できます。

ブランドの競争優位性を支援する

BigQuery のおかげで、お客様が自社のブランドに合ったサウンドを見つけるのに役立つ新しい革新的なアプリケーションを作り出すための基盤として開発者やドメインエキスパートが利用できる、当社の信頼できる唯一の情報源を確立することができました。

開発者は、さまざまなソースからデータをつなぎ合わせるのではなく、常に BigQuery のデータセットから構築していきます。これにより、データパイプラインの安定性が保証され、自信を持って新しいアプリケーションを構築することが可能になります。さらに、BigQuery のもたらすパフォーマンス向上は、ドメインエキスパートが開発者の作成した分析やアプリケーションにより簡単にアクセスし、ML モデルまたはデータ入力に対して推奨される改善の結果を迅速に確認できることを意味します。この迅速なイテレーションにより、より良いビジネス結果がもたらされ、開発者とドメインエキスパートの連携が維持され、Soundtrack Your Brand が群を抜いて際立つサウンドを提供し続けることが可能になります。

- Soundtrack Your Brand、AI 責任者 Omar Marzouk 氏

投稿先