PayPal のリアルタイム革命: Google Cloud への移行でストリーミング分析の課題を克服
Varun Raju
Architect, Observability Platform, PayPal
Avi Baruch
Engineering Manager, Google Cloud
※この投稿は米国時間 2024 年 12 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。
PayPal では、世界規模で商取引を変革することが 25 年以上にわたって中核的な使命となっています。資金の移動、販売、ショッピングをシンプルで安全かつパーソナライズされたものにする革新的な体験を創出しており、200 もの市場において消費者と企業を支援しています。何よりも重要なことは、販売者と消費者双方に提供されるサービスの可用性を確保することです。
PayPal では、Dataflow の導入が成功を収めたことにより、ストリーミング分析の課題を克服し、新たな機会を開拓して、より信頼性が高く効率的でスケーラブルなオブザーバビリティ プラットフォームを構築できるようになりました。
PayPal のオブザーバビリティ プラットフォーム チームは、開発者、テクニカル アカウント チーム、プロダクト マネージャーにテレメトリー プラットフォームを提供する責任を負っています。また、SDK、オープン テレメトリー コレクタ、データ ストリーミング パイプラインを所有し、指標とトレースをバックエンドで受信、処理、エクスポートしています。PayPal の開発者は、このオブザーバビリティ プラットフォームをテレメトリー データに活用することで、可能な限り短時間で問題を検出および修正しています。Java、Go、Node.js など、さまざまなスタック上でアプリケーションを実行し、1 日あたり約 3 ペタバイトのログが生成されるため、ログベースの指標やトレースを生成するには、堅牢で高スループット、低レイテンシのデータ ストリーミング ソリューションが不可欠です。
2023 年まで、PayPal のオブザーバビリティ プラットフォームでは、指標やスパンを生成するログベースのパイプラインをストリーミングするために、セルフマネージド Apache Flink ベースのインフラストラクチャを使用していました。しかし、このソリューションにはいくつかの課題がありました。
-
信頼性: 信頼性が非常に低く、ほとんどのパイプラインにチェックポイント機能がなかったため、再起動時にデータ損失が発生していた。
-
効率性: システムの管理費用が高額で、非効率的だった。パイプラインは、発生頻度が低い場合でも、ピーク時の負荷に備えて計画する必要があった。
-
セキュリティ: 導入にはセキュリティ ガイドラインへのより厳密な準拠が必要だった。
-
クラスタ管理: クラスタの作成とメンテナンスは手作業で、エンジニアリングに多大な時間を要していた。
-
コミュニティ サポート: 独自のソリューションだったため、コミュニティ サポートやコラボレーションが制限されていた。
-
ソフトウェアのアップグレード: カスタマイズにはサポートが終了したバイナリの更新が必要だった。
-
長期サポート: 使用していたソリューションはすでに販売を終了していたため、ビジネスの継続性にリスクがあった。
PayPal は、これらの課題に対処し、新たな機会を開拓できるクラウドネイティブ ソリューションを必要としていました。主な要件には次のようなものがありました。
-
手間いらずのスケーラビリティ: 自動スケーリングとリソースの最適化により、膨大なデータ量と変動するワークロードに対応する。
-
費用削減: リソースの使用を最適化し、インフラストラクチャの管理費用を削減する。
-
シームレスなインテグレーション: PayPal のエコシステムにある他のデータや AI ツールと連携する。
-
リアルタイム AI / ML の強化: 高度なストリーミング ML 機能を活用して、データ拡充、モデル トレーニング、リアルタイム推論を実現する。
広範な調査と概念実証の成功を経て、PayPal は Google Cloud の Dataflow への移行を決定しました。Dataflow は、Apache Beam を基盤とするフルマネージドのサーバーレス ストリーミング分析プラットフォームであり、比類のないスケーラビリティ、柔軟性、費用対効果を実現できます。
移行プロセスには、いくつかの重要なステップがありました。
-
最初の概念実証: PayPal の特定の要件を満たすことを確認するために、Dataflow 機能のテストおよび検証を実施。
-
取り込みレイヤの移行: Dataflow とのシームレスなインテグレーションのために Apache Pulsar から Apache Kafka に移行。
パイプラインの最適化: Google Cloud のエキスパートと協力し、パーティショニング スキームの再設計やデータ シャッフルの最適化など、効率性を最大限に高めるためにパイプラインの微調整を実施。
技術に関する特典
Dataflow の自動スケーリング機能は、リアルタイムのデータ需要に応じてリソースを動的に調整することで、一貫したパフォーマンスを確保し、費用対効果を高めることができます。また、堅牢な状態管理機能により、複雑なストリーミング処理から正確かつ信頼性の高いリアルタイムのインサイトを得ることができるほか、最小限のレイテンシでデータを処理する機能により、最新のインサイトが得られ、迅速な意思決定が可能になります。さらに、Dataflow の包括的なモニタリング ツールと他の Google Cloud サービスとのインテグレーションにより、トラブルシューティングとパフォーマンスの最適化が簡素化されます。
図 2. [実行の詳細] タブのサンプル画像。データの更新速度をステージごとに時系列で表示し、データの更新速度の異常を警告している。
ビジネス上のメリット
Dataflow のサーバーレス アーキテクチャと動的なリソース割り当てにより、PayPal のインフラストラクチャと運用にかかる費用は大幅に削減されました。また、重要なストリーミング パイプラインの安定性と稼働時間も改善され、ビジネスの継続性の向上にもつながりました。さらに、Dataflow のシンプルなプログラミング モデルと豊富なツールにより、開発とデプロイのサイクルが加速され、開発者の生産性も向上しました。
高スループットで低レイテンシのストリーミング プラットフォームを実装することは、当社のビジネス、開発者、コマンド センター チームにカーディナリティの高い分析を提供するために不可欠です。Dataflow のインテグレーションにより、エンジニアリング チームは、paypal.com を 24 時間 365 日モニタリングできる強力なプラットフォームを利用できるようになり、消費者や販売者に対しても高い可用性を確保できるようになりました。
PayPal、オブザーバビリティ プラットフォーム担当アーキテクト Varun Raju 氏
イノベーションを強化
おそらく最も重要なことは、Dataflow によって PayPal のエンジニアリング リソースが解放され、より価値の高い取り組みに集中できるようになったことです。この取り組みには、Google BigQuery とのインテグレーションによって実現した、失敗したカスタム インタラクション(FCI)のリアルタイム分析も含まれ、これにより、サイト信頼性エンジニアリング チームに即座にインサイトを提供できるようになりました。また、販売者のリアルタイムのモニタリングも実装し、カーディナリティの高い販売者 API トラフィックを分析して、インサイトとリスク管理を強化しています。
PayPal は、Dataflow の機能を引き続き探求していきます。今後もその力を活用してイノベーションを推進し、卓越したカスタマー エクスペリエンスを提供するよう努めていきます。
-PayPal、オブザーバビリティ プラットフォーム担当アーキテクト Varun Raju 氏
-Google Cloud、エンジニアリング マネージャー Avi Baruch