大手消費者インサイト ブランドが Dataproc を使用して高度なパーソナライズを加速している方法
Siddharth Dawara
Head of Data Engineering, RVU
※この投稿は米国時間 2026 年 4 月 7 日に、Google Cloud blog に投稿されたものの抄訳です。
RVU には、人々を支援し、業界を変革するという明確かつ重要な使命があります。
当社が展開している Confused.com、Uswitch、Tempcover、Money.co.uk、Mojo Mortgages などの市場をリードする家計管理ブランドや乗り換え支援ブランドにおいて、何よりも重要なのは透明性と正確な情報です。昨今の消費者は、単純な比較表以上のものを求めています。つまり、各消費者の状況に合わせたパーソナライズされたおすすめを求めているのです。
その期待に応えるには、すべてのブランドを支える真のパーソナライズ エンジンを構築する必要があります。また、それを実現するには高度な ML モデル向けに膨大で複雑なデータセットを処理できるデータ基盤が必要です。現在、当社のプラットフォームはすべてのブランドから収集した数十億のデータポイントを活用して最適化した、数百もの自動化されたパーソナライズ キャンペーンを支えています。この大規模なプラットフォームの構築には、Google Cloud と、Google Cloud が提供する Apache Spark 向けの 2 つのソリューション(Dataproc と Google Cloud Serverless for Apache Spark)を活用しました。Google Cloud を採用したことで、当社の使命は現実のものになりつつあります。
特徴量エンジニアリングのための高速エンジン
当社と Google Cloud の関係は今に始まったものではありません。当社は 10 年以上にわたり、統合データ プラットフォームとして BigQuery を使用しています。パフォーマンス マーケティングのバックグラウンドを持つ当社では、常に大量のデータを扱ってきました。しかし、自社はデジタル インフラストラクチャ企業ではないという認識は早い段階からありました。どこに価値があるのかに常に注目しなくてはならないため、インフラストラクチャやキャパシティの問題に悩む必要がなくなる BigQuery のようなマネージド ソリューションは、創業当初から私たちにとってまさにうってつけでした。
主な課題は、全ブランドにわたり、顧客の行動を意味のある一貫した全体像にまとめることでした。無数の断片的なインタラクションを、ユーザーの行動、クリック、意思決定の方法をそのまま反映したデータに変換する必要があったのです。単独のイベントや集計ビューを頼りにするのではなく、これらのシグナルを、当社の ML モデルが活用できる有用なナラティブとして取り込むことができるプラットフォームを構築する必要がありました。
これを実現するために Dataproc を利用できたことは、実に画期的でした。Dataproc が最も効果を発揮したのは、主に ML モデル開発の特徴量エンジニアリングを目的とした、高速 Spark 処理エンジンとしての役割です。膨大な未加工の顧客データをデータ サイエンス モデルが活用できる形へと変えていく「特徴量エンジニアリング」は、まさに当社の価値を高める要素であり、Google が大きな競争優位性を持つ分野です。
その結果、イノベーションの速度が大幅に向上しました。Serverless for Apache Spark を使用することで、わずか数日で特徴量エンジニアリング用に顧客データを整形できるようになりました。以前は数週間かかっていた作業です。製品化までの時間も、数週間かかっていたのが大幅に短縮されました。今では、チームに新たに加わった契約社員でも、探索的データ分析やすべての特徴量エンジニアリングを含むモデルをわずか 1 週間半で提供することができます。これはものすごいスピードです。
パーソナライズされたエクスペリエンスの提供
イノベーションのスピードを向上させることで、お客様やパートナーに、よりパーソナライズされたユーザー エクスペリエンスを提供できるようになりました。
Spark への移行後、高度なパーソナライズへの取り組みは加速しました。膨大な行動データやコンテキスト データを処理する大規模なデータ処理ジョブを実行して、真に有意義な予測を生成するモデルを構築できるようになりました。
これらのモデルは、お客様に何を言うべきかだけでなく、いつ、どのように言うべきかを理解できるようサポートしてくれます。これにより、適切なタイミングと適切なチャネルを選んで、お客様の心に響くパーソナライズされた情報を提供することができます。
未来のビジョンを築く
Google のデータクラウドは、価値を優先するという当社の文化とまさに合致しており、ビジネスに大きな影響を与えています。私はこれを、すべてが同じエコシステム内でシームレスに接続されるネットワーク効果と呼んでいます。当社のデータは BigQuery に存在し、そのデータを検証、拡充、変換する能力は Dataproc と Serverless for Apache Spark に紐付けられ、ML モデルをデプロイする機能はこのネットワーク全体に及んでいます。すべてが連携し統合されているため、当社の消費者ブランドのリアルタイムでの精度を高め、競争優位性を確保することができるのです。
エンジニアにとっての大きなメリットは、インフラストラクチャを扱う必要がないことです。クラスタやサーバーのネットワークを設定して相互に通信させる必要はなく、ボタンを押すだけで 10 分以内にすべてのデータを処理できます。非常に効率的で、データ プロダクトの構築やイテレーションなど、より価値の高い作業に時間を割くことができます。
Dataproc のおかげで、スピード、スケール、アジリティが向上しました。また、AI を活用してイノベーションを起こし、高度なパーソナライズの未来を築くためのツールも提供されます。現在、RVU の最先端のテクノロジーとデータは、英国の何百万人もの消費者がよりスマートに十分な情報に基づいて意思決定できるようサポートし、まさに業界を変革しようとしています。
RVU の成功から何かヒントを得られましたでしょうか。Dataproc を使用した永続的なクラスタが必要な場合も、サーバーレス Spark のアジリティが必要な場合も、Google Cloud ならインフラストラクチャではなく価値に集中できるマネージド ソリューションを見つけることができます。ユースケースに適した Google Cloud 上の Spark をご確認ください。
- RVU、データ エンジニアリング責任者、Siddharth Dawara 氏



