ストリーミング分析とは、データレコードをバッチではなく連続的に処理して分析することです。一般的に、ストリーミング分析が役立つデータソースは、生成されるデータをキロバイト単位といった小さなサイズで連続的に送信するものです。
Google Cloud の統合ストリームおよびバッチデータ処理サービス、Dataflow をご紹介します。
ストリーミング分析には、接続されたデバイスからのテレメトリー、ウェブ アプリケーションを使用して顧客が生成したログファイル、e コマース トランザクション、ソーシャル ネットワーク、地理空間情報サービスからの情報など、さまざまなデータソースが含まれる場合があります。リアルタイムでの集計と相関、フィルタリング、サンプリングによく使われます。
データは従来、バッチで移されていました。バッチ処理では、大量のデータを同時に処理することが多く、レイテンシの時間が長くなります。 たとえば、処理が 24 時間ごとに実行されているとします。これは大量のデータを処理するには効率的な方法ですが、ストリーミングを目的とした時間にセンシティブなデータでは、そのデータが処理された時点で最新でない可能性があるため、機能しません。
企業が 1 秒あたり何十万、何百万というイベントに合わせてデータを収集している場合、結果的には絶対的に大規模なデータセットになります。従来のシステムでは、この規模のデータから分析情報を提供するのに数日かかることがあります。
リアルタイム アクションを生成するには、リアルタイムのデータ処理と分析が必要です。これは、適切なデータ ストリーミング プラットフォームとインフラストラクチャで実現できます。たとえば、Google Cloud プロダクトやサービス上に構築されたストリーム分析により、企業はリアルタイムでデータ ストリームの取り込み、処理、分析を行うことができます。
企業はストリーミング分析を使用してリアルタイムでデータを分析し、さまざまなアクティビティのインサイトを提供しています。たとえば、メータリング、サーバーのアクティビティ、デバイスの位置情報、ウェブサイトのクリック数などです。 可能性のあるユースケースには、次のようなものがあります。
e コマース
ユーザーのクリックストリームを分析し、リアルタイムの価格、プロモーション、在庫管理でショッピング体験を最適化します。
金融サービス
アカウントのアクティビティを分析して、データ ストリーム内の異常な動作を検出し、異常な動作に対するセキュリティ アラートを生成します。
投資サービス
市場の変化を追跡し、一定の株価に達したときに売却するなど、構成された制約に基づいて顧客ポートフォリオの設定を調整します。
ニュース メディア
さまざまなニュース提供元のプラットフォームからユーザーのクリック レコードをストリーミングし、ユーザー属性の情報でデータを拡充することで、対象オーディエンスに関連性のある記事をより良い形で提供します。
ユーティリティ
送電網全体のスループットをモニタリングし、確立されたしきい値に達した場合にアラートを生成したり、ワークフローを開始したりします。