コンテンツに移動
データ分析

LiveRamp のクラウド ID データ管理の拡張方法

2021年8月16日
Google Cloud Japan Team

※この投稿は米国時間 2021 年 7 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。

編集者注: 今回は、LiveRamp のエンジニアリング部門ディレクターである Sagar Batchu 氏にお話を伺いました。LiveRamp がデータ分析インフラストラクチャをモダナイズして運用を簡素化し、サポートおよびインフラストラクチャの費用を抑え、お客様が顧客データを安全かつ確実に接続、制御、活性化できるようにするうえで、Google Cloud がどのように役立ったか教えていただきました。

LiveRamp は、顧客データの最高クラスの ID 解決、活性化、測定を提供するデータ接続プラットフォームであり、お客様が顧客情報を全方位から把握できるようにします。データ エンジニアリングのワークロードを大規模に実行し、LiveRamp Connect プラットフォーム API を介して数ペタバイトもの顧客データを日々処理しています。

LiveRamp では、内部および外部 API のさらなる統合を進め、提供サービスの高度化を図っていますが、その結果、データ パイプラインはいっそう複雑になりました。現状のデータ パイプライン構築は、時間がかかり、ますます複雑なデータ エンジニアリング スタックの知識が必要とされるプロセスであるため、たちまち面倒で手間のかかる作業になってしまったのです。依存関係が強まり、コードベースが手に負えないほど複雑になり、パイプラインの管理は難しくなりました。

LiveRamp は昨年から、自社の標準的な ETL / ELT 分析パイプラインを再利用可能な一連のコンポーネントとして捉えることで、こうした複雑で手間のかかるプロセスを改善し、データチームの価値創出までの時間を短縮する方法を再検討する取り組みを開始しました。その根底にあったのは、データチームは、クラウド インフラストラクチャで大規模なワークロードを実行する方法の特定ではなく、ビジネス価値を反映する新しい機能の追加に時間を割くべきである、という思いです。これは、パイプラインのデプロイがメインの日常業務ではないデータ サイエンス、データ アナリスト、サービスの各チームにとっては特に重要なことでした。

こうした状況を踏まえて、LiveRamp は、データ オペレーション イニシアチブの開始を決定しました。このイニシアチブはここ数年で広まったコンセプトで、データ エンジニアリング ライフサイクルの中でそれぞれの役割を担う人が「方法」ではなく「内容」に集中できるようにして、データ指向チームの価値創出までの時間を短縮することを目指します。

LiveRamp はこのイニシアチブを実行し、変革を加速させるために Google Cloud を選択しました。LiveRamp のアーキテクチャ最適化機能と Google Cloud のプラットフォーム機能が組み合わさることで、運用モデルの簡素化、価値創出までの時間短縮、データ エコシステムのポータビリティの大幅な改善が実現し、共同作業が容易になりました。現在、LiveRamp は 10 チーム体制で 1 日に数百ものワークロードを実行していますが、次の四半期には数千レベルにまで規模を拡大する予定です。

LiveRamp が Google Cloud を選んだ理由

Google Cloud は必要なサービスをすべてサーバーレス方式で提供し、複雑なデータ アプリケーションを構築して大規模なインフラストラクチャを稼働させます。Google Cloud のデータ分析機能を使用することで、LiveRamp のような企業はデータのキャプチャ、管理、処理、可視化を簡単に行うことができます。また、Google Cloud のデータ処理プラットフォームの多くはオープンソースであるため、連携が非常に容易です。その中のひとつが、CDAP(Cask Data Application Platform)です。このプラットフォーム上で、Cloud Data Fusion が構築されています。CDAP に魅力を感じた理由は以下のとおりです。

  • 本質的にマルチクラウドである。パイプラインの構成要素であるプラグインによって個々の作業単位が定義されます。各プラグインはそれぞれ異なるプロビジョナーを介して実行され、このプロビジョナーによってマネージド クラウドのランタイムが実装されます。

  • コントロール プレーンは Kubernetes でホストされているマイクロサービスのセットで、データプレーンDataproc のようなトップクラスのビッグデータ クラウド製品を活用する。

  • フレームワークとして構築されており、本質的に拡張可能で、基盤となるアーキテクチャから分離されている。「拡張機能」と「プラグイン」を使用して、システムレベルとユーザーレベルのどちらでもそれぞれ拡張可能です。たとえば、LiveRamp 固有の認証のためのシステム拡張機能を追加して、一般的な LiveRamp ID 運用を含むプラグインを構築できました。

  • オープンソースであり、Google Cloud の専任チームが、中核となるコードベースや、増え続けるソースコネクタ、変換コネクタ、シンクコネクタを構築、管理してくれる。

  • LiveRamp のリモート実行とデータ非移行の戦略にマッチしている。CDAP はパイプラインをリモートで実行し、パブリック クラウド API を介してメタデータのストリームを管理します。

  • すぐに使用可能なモニタリング ツールとオブザーバビリティ ツールを提供し、SRE マインドセットをサポートしている。

  • スケーラブルなマイクロサービスでサポートされた豊富な API を備え、他のチームに ETL as a Service を提供する。

  • Google Cloud のフルマネージド ネイティブ データ統合プラットフォームの Cloud Data Fusion は CDAP に基づいている。IAM 統合、カスタマー マネージャー暗号鍵、ロールベースのアクセス制御、データ所在地など、Data Fusion のマネージド セキュリティ機能を活用し、データの分離に関する厳格なガバナンス要件を満たすことができます。

チームによるデータ運用プラットフォームの活用方法

LiveRamp はこのイニシアチブを通して、データ サイエンスとエンジニアリングのチームがビジネス ロジックに集中し、データ統合とインフラストラクチャは別個の事案として扱うよう促しています。一元化されたチームが CDAP をサービスとして実行し、カスタム プラグインは民主化されたプラグイン マーケットプレイスでホストされるので、他のチームは標準的な運用を実行できます。

プラットフォームの導入を後押ししたのは、データ パイプラインにおける一般的なパターン、すなわち LiveRamp の Identity API を使用して顧客データを解決する必要性でした。LiveRamp Identity API は、個人情報を仮名 ID に解決する方法を提供して、断片化した不正確な顧客 ID を接続します。これにより、クライアント ブランドは安全かつ確実に顧客データを接続、制御、活性化できます。

顧客データの形式、保管場所はさまざまで、多くの場合でカスタムメイドのクリーンアップが必要とされるのが実情です。これまでは、LiveRamp のテクニカル サービス チームが費用のかかるプロセスを開発し、データが ID に解決されるよりも前にこうした健全性維持や検証のためのプロセスを管理する必要がありました。時間の経過とともに、bash および python スクリプトとカスタム ETL パイプラインを組み合わせるのは不可能になっていきました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/liveramp_data_operations_platform.max-1200x1200.jpg

最もよく使用されている Identity API と一連の CDAP プラグインを実装することで、お客様はローコードのユーザー インターフェースにログインしてプロセスを運用できるようになりました。また、データソースの選択、標準的な検証と健全性維持の手順の実施、CDAP の Wrangler インターフェースを使用した視覚的検査(ノイズが多い場合)、Identity API へのデータ送信も可能になりました。こうしたワークフローが検証済みになると、標準的な CDAP パイプラインとして確立され、パラメータ化が可能となり、社内マーケットプレイスで配布できるようになります。前述のテクニカル サービス チームは、価値創出までの時間を短縮しただけでなく、将来のチームが他のチームのインフラストラクチャへのポータビリティを気にすることなくお客様のパイプラインを活用できるようにしました。

今後の展開

重要なお客様のユースケースに CDAP が活用されるようになり、今後は、チームの次のバッチへとプラットフォームの使用をスケールアウトしていく予定です。さらに複雑なパイプラインとチーム間のワークロードを取り入れ、拡大し続ける LiveRamp プラットフォーム API スイートのサポートを追加していくことも計画しています。

Google Cloud のコミュニティや外部のコミュニティに加え、CDAP 上でプラグインを構築し、定期的な変換や API をサポートする LiveRamp 開発者の基盤も拡大してします。これらを他のチームが使用することで、その限界が押し上げられるとともに、フィードバックが得られます。つまり、構築する側と運用する側が協力し合い、今後の展開に弾みをつけます。さらに、CDAP の内部データ エンジニアリング エコシステムへの緊密な統合も継続して進められるため、チームは BigQueryAirflow など、好みのデータツールを使い続けることもできます。

CDAP を使用したデータ運用プラットフォームは、すぐにデータチームにとっての中心地となり、データの取り込み、健全性維持、変換、受信が常時行われるようになるでしょう。

LiveRamp は Google Cloud の CDAP と Data Fusion の今後のロードマップに期待しています。新しい実行エンジン、データソースおよびシンク、Datastreamレプリケーションのような新しい機能のサポートにより、LiveRamp のチームは Google のアプリケーションと、進化し続けるクラウド データ エンジニアリング エコシステムとの相互運用の実現を確信しています。

-LiveRamp エンジニアリング部門ディレクター、Sagar Batchu 氏

投稿先