ストリーミング分析とは

ストリーミング分析とは、データレコードをバッチではなく連続的に処理して分析することです。一般的に、ストリーミング分析はデータが生成される際に連続的な流れで小さなサイズ(多くの場合はキロバイト単位)のデータを送信するタイプのデータソースに有用です。

Google Cloud の統合ストリームおよびバッチデータ処理サービス、Dataflow をご紹介します。

ストリーミング分析の概要

ストリーミング分析には、接続されたデバイスからのテレメトリー、ウェブ アプリケーションを使用して顧客が生成したログファイル、e コマース トランザクション、ソーシャル ネットワーク、地理空間情報サービスからの情報など、さまざまなデータソースが含まれる場合があります。リアルタイムでの集計と相関、フィルタリング、サンプリングによく使われます。

データは従来、バッチで移されていました。バッチ処理では、大量のデータを同時に処理することが多く、レイテンシの時間が長くなります。たとえば、処理が 24 時間ごとに実行されているとします。これは大量のデータを処理するには効率的な方法ですが、ストリーミングを目的とした時間にセンシティブなデータでは、そのデータが処理された時点で最新でない可能性があるため、機能しません。

ストリーミング分析を最適化する方法

企業が 1 秒あたり何十万、何百万というイベントに合わせてデータを収集している場合、結果的には絶対的に大規模なデータセットになります。従来のシステムでは、この規模のデータから分析情報を提供するのに数日かかることがあります。

リアルタイム アクションを生成するには、リアルタイムのデータ処理と分析が必要です。これは、適切なデータ ストリーミング プラットフォームとインフラストラクチャで実現できます。たとえば、Google Cloud プロダクトやサービス上に構築されたストリーム分析により、企業はリアルタイムでデータ ストリームの取り込み、処理、分析を行うことができます。

ストリーム分析のユースケース

企業はストリーミング分析を使用してリアルタイムでデータを分析し、メータリング、サーバーのアクティビティ、デバイスの位置情報、ウェブサイトのクリック数など、さまざまなアクティビティの分析情報を提供しています。可能性のあるユースケースには、次のようなものがあります。

e コマース

ユーザーのクリックストリームを分析し、リアルタイムの価格、プロモーション、在庫管理でショッピング体験を最適化します。

金融サービス

アカウントのアクティビティを分析して、データ ストリーム内の異常な動作を検出し、異常な動作に対するセキュリティ アラートを生成します。

投資サービス

市場の変化を追跡し、一定の株価に達したときに売却するなど、構成された制約に基づいて顧客ポートフォリオの設定を調整します。

ニュース メディア

さまざまなニュース提供元のプラットフォームからユーザーのクリック レコードをストリーミングし、ユーザー属性の情報でデータを拡充することで、対象オーディエンスに関連性のある記事をより良い形で提供します。

公共事業

送電網全体のスループットをモニタリングし、確立されたしきい値に達した場合にアラートを生成したり、ワークフローを開始したりします。

Google Cloud のストリーム分析では、データは生成された瞬間から整理され、便利で使いやすいものになります。Pub/SubDataflowBigQuery の自動スケーリング対応インフラストラクチャ上に構築された Google Cloud のストリーム分析により、変動するリアルタイムのデータ ボリュームの取り込み、処理、分析に必要なリソースをプロビジョニングして、リアルタイムなビジネス分析情報を取得できるようになります。このように抽象化されたプロビジョニングにより複雑さが軽減され、データ アナリストにとってもデータ エンジニアにとっても、ストリーム分析がより使いやすくなります。