ストリーム分析とリアルタイムの分析情報

イベント ストリームをリアルタイムに取り込み、処理し、分析する

無料トライアル お問い合わせ

リアルタイムでごく簡単に

Google Cloud のストリーム分析では、データは生成された瞬間から整理され、便利で使いやすいものになります。コア コンポーネント(Cloud Pub/Sub、Cloud Dataflow、BigQuery)の自動スケーリング インフラストラクチャ上に構築された Google のストリーミング ソリューションにより、変動するリアルタイムのデータ ボリュームの取り込み、処理、分析に必要なリソースを適確にプロビジョニングできるので複雑さが軽減されます。プロビジョニングが抽象化された Google Cloud では、データ アナリストもデータ エンジニアもにシンプルで使い慣れたツールを用いてストリーム分析にアクセスできるようになります。

Google Cloud からのストリーム分析

インフラストラクチャをスケールアップして問題を削減

Google Cloud のストリーミング インフラストラクチャは、ジョブの正確なニーズが不明の場合でも、それらのニーズに合わせて自動スケーリングできます。つまり、可変データ ボリューム、パフォーマンス調整、リソース プロビジョニングなどの課題を Google に任せ、リアルタイムの分析や分析情報に集中できます。事前の計画やオーバー プロビジョニングに頭を悩ませたり、未使用のリソースに余計なコストを支払ったりする必要はありません。

インフラストラクチャのスケールアップ

複雑なイベントにシンプルな取り込みを採用

Google Cloud のストリーム取り込みサービスである Cloud Pub/Sub は、1 秒あたり数億ものイベントを取り込み、配信できます。Cloud Pub/Sub では、イベントがトピックにパブリッシュされると、任意の数のデータ パイプラインで受信できます。グローバル トピックにより、サーバーからの直接取り込みや、IoT Core による接続したデバイスからの取り込みを、選択した地域全体でシームレスに行えます。BigQuery のストリーミング API を使用すると、SQL ベースの ELT ユースケース向けのデータ ウェアハウスに直接ストリームを取り込めます。Apache Kafka は Confluent と Google Cloud からネイティブ サービスとして提供されます。

ストリーム取り込みサービス

ロックインなしでストリーミングとバッチ処理を統合

Cloud Dataflow は実際のストリーミングを処理するように設計されており、分析用に拡張、変換する必要があるデータは、バッチ、ストリーム、ファイルのストリームの各モードで処理されます。エンジニアはこうしたモードのコード再利用に、Cloud Dataflow のオープンソース SDK である Apache Beam を使用できます。Beam ではハイブリッド環境やマルチクラウド環境に合わせて(Apache Flink や Samza などのフレームワークに)パイプラインを移植でき、Python、SQL、Java など、柔軟に言語を選択できます。Dataflow はリソース管理を自動的に処理し、1 回限りの処理を確保するため、ストリーミング パイプラインの信頼性と一貫性が高まります。

実際のストリーミングとバッチ処理

次世代の AI を検討しながら現在のツールを使い続ける

既存のオンプレミスやクラウド ストリーミングのアーキテクチャは、一般に Apache Kafka や Apache Spark をデプロイします。Google Cloud では、これらのソリューションを Confluent Cloud や Cloud Dataproc を使用してブリッジ、移行、拡張できます。各サービスを Cloud Data Fusion の GUI と組み合わせると、データ アナリストやエンジニアがストリーミング パイプラインを構築できるようになります。リアルタイム分析の実装方法にかかわらず、Google Cloud でご利用いただける AI プロダクトの広範なポートフォリオは、ストリーミング分析を深め、アクションの高速化に役立ちます。その際、機械学習の経験の有無は関係ありません。

次世代 AI の検討

ソリューション コンポーネント

サービス ストリーム分析のユースケース
Cloud Pub/Sub 世界中のあらゆる場所で発信されるストリーミング データの大規模な取り込みに(このソリューションにおけるオープンソースの代替手段: Apache Kafka)。
Cloud Dataflow 信頼性と表現力を損なうことなく、ストリーミング モードやバッチモードで取り込んだデータを変換または拡張します(このソリューションにおけるオープンソースの代替手段: Cloud Dataproc での Spark)。
BigQuery 毎秒 100,000 ストリーミング行の挿入をサポートし、標準 SQL を使用したリアルタイム データに関するアドホック分析を可能にするフルマネージドのデータ ウェアハウス サービス。
Apache Beam ストリーミング パイプラインとバッチ パイプラインをプログラミングするための統合開発フレームワーク。Cloud Dataflow SDK 2.x として Google が提供。
Cloud Machine Learning カスタム(Cloud Machine Learning Engine)またはビルド済み(Cloud API)TensorFlow ベースの機械学習モデルを使用してイベント ストリームを実行することにより、インテリジェンスの新たなレイヤをパイプラインに追加します。
Cloud Bigtable 大量の時系列データを扱うアプリケーションや読み取り時にレイテンシの影響を受けやすいアプリケーションに適している、低レイテンシのワイドカラム型 Key-Value ストア。

参考リンク

1 回限りの処理

Cloud Dataflow における「1 回限りの処理」について説明します。

ブログ記事を見る

Cloud Dataflow: サンプル パイプライン

モバイルゲームのサンプルでパイプラインがどのように機能するか説明します。

ドキュメントを見る

Codelab: NYC Taxi Tycoon

Dataflow や Pub/Sub を使用してストリーミング データを処理する方法を、ガイドに沿ってコーディングを実際に体験できます。

サンプルアプリを探す

金融サービス ソリューション

何千もの同時データ ストリームにスケールできるほぼリアルタイムの分析システムを構築します。

ソリューション ペーパーを読む

アーキテクチャ図

Google Cloud Platform での大規模な分析データの取り込みを最適化するアーキテクチャについて確認できます。

記事を読む

Streaming 101

Tyler Akidau によるセミナー ペーパー「The world beyond batch」をご覧ください。

記事を読む