このドキュメントでは、分析のハイブリッドとマルチクラウドのパターンの目的が、トランザクション ワークロードと分析ワークロードの分割の活用であることを説明します。
企業向けシステムでは、ほとんどのワークロードが次のカテゴリに分類されます。
- トランザクション ワークロードには、営業、財務処理、エンタープライズ リソース プランニング、通信などのインタラクティブ型アプリケーションが含まれます。
- 分析ワークロードには、意思決定プロセス支援のためのデータの変換、分析、改良、可視化を行うアプリケーションが含まれます。
分析システムは、API のクエリまたはデータベースへのアクセスによってトランザクション システムからデータを取得します。ほとんどの企業では、分析システムとトランザクション システムが分離され、疎結合されてしまう傾向があります。分析のハイブリッドとマルチクラウドのパターンの目的は、2 つの異なるコンピューティング環境でトランザクション ワークロードと分析ワークロードを実行することにより、既存の分割を活用することです。元データは、プライベート コンピューティング環境で実行されるワークロードから最初に抽出され、Google Cloud に読み込まれ分析処理に使用されます。その結果の一部は、トランザクション システムにフィードバックされる可能性があります。
次の図は、考えられるデータ パイプラインを示して、概念的に可能なアーキテクチャを示しています。各パス / 矢印は、利用可能なデータ品質と対象のユースケースに応じて、ETL または ELT ベースで可能なデータ移動と変換パイプライン オプションを表します。
データを Google Cloud に移動して価値を引き出すには、データの取り込み、統合、レプリケーションを包括的に行うデータ移動サービスを使用します。
上の図に示すように、Google Cloud をオンプレミス環境や他のクラウド環境に接続すると、データ ストリーミングやデータベースのバックアップなど、さまざまなデータ分析のユースケースを実現できます。大量のデータ転送を必要とするハイブリッド分析パターンとマルチクラウド分析パターンの基盤となるトランスポートを強化するため、Cloud Interconnect と Cross-Cloud Interconnect は、オンプレミスと他のクラウド プロバイダへの専用接続を提供します。
利点
クラウド内で分析ワークロードを実行することには、いくつかの重要なメリットがあります。
- インバウンド トラフィック(プライベート コンピューティング環境または他のクラウドから Google Cloud へのデータ移動)は追加料金なしで利用できる場合があります。
- 分析ワークロードは、しばしば大量のデータを処理する必要があり、爆発的になる可能性があるため、パブリック クラウド環境でのデプロイに特に適しています。コンピューティング リソースを動的にスケーリングすることにより、大規模なデータセットを迅速に処理し、事前投資を回避でき、コンピューティング機器を過剰にプロビジョニングする必要がなくなります。
- Google Cloud は、最初のデータ取得から、処理、分析、最終的な可視化まで、データのライフサイクル全体を通じてデータを管理する豊富なサービスを提供します。
- Google Cloud のデータ移動サービスは、さまざまな方法でデータをシームレスに移動、統合、変換するための完全なプロダクト スイートを提供します。
- Cloud Storage はデータレイクの構築に適しています。
Google Cloud は、データ プラットフォームをモダナイズして最適化し、データサイロを解消するのに役立ちます。データ レイクハウスを使用すると、さまざまなストレージ形式を標準化できます。また、データが非効率性ではなくビジネスに価値をもたらすようにするために必要な柔軟性、スケーラビリティ、アジリティも提供できます。詳細については、BigLake をご覧ください。
BigQuery Omni は、AWS または Azure のストレージに対してローカルで実行されるコンピューティング能力を提供します。また、Amazon Simple Storage Service(Amazon S3)または Azure Blob Storage に保存されている独自のデータをクエリすることもできます。このマルチクラウド分析機能により、データチームはデータサイロを解消できます。BigQuery の外部に保存されているデータのクエリの詳細については、外部データソースの概要をご覧ください。
ベスト プラクティス
分析のハイブリッド クラウドとマルチクラウドのアーキテクチャ パターンを実装するには、次の一般的なベスト プラクティスを検討してください。
- ハンドオーバー型のネットワーキング パターンを使用して、データの取り込みを有効にします。分析結果をトランザクション システムにフィードバックする必要がある場合は、ハンドオーバー型と下り(外向き)ゲート型のパターンの両方を組み合わせることができます。
- Pub/Sub のキューまたは Cloud Storage のバケットを使用して、プライベート コンピューティング環境で実行しているトランザクション システムから Google Cloud にデータを渡すことができます。これらのキューまたはバケットは、データ処理パイプラインおよびワークロードの送信元として機能します。
- ETL と ELT のデータ パイプラインをデプロイするには、特定のユースケースの要件に応じて Cloud Data Fusion または Dataflow の使用を検討してください。どちらも、データ パイプラインの構築と管理のためのフルマネージドのクラウド ファースト データ処理サービスです。
- 貴重なデータアセットを検出、分類、保護するには、匿名化手法など、Google Cloud Sensitive Data Protection の機能の使用を検討してください。これらの手法では、条件を満たし、コンプライアンスを遵守している場合に、ランダムに生成された鍵または事前定義された鍵を使用して、個人情報(PII)などの機密データをマスキング、暗号化、置換できます。
- 既存の Hadoop または Spark のワークロードがある場合は、ジョブを Dataproc に移行し、既存の HDFS データを Cloud Storage に移行することを検討してください。
プライベート コンピューティング環境から Google Cloud へ最初にデータ転送を実行する場合は、データセットのサイズと使用可能な帯域幅に最も適した転送方法を選択します。詳細については、Google Cloud への移行: 大規模なデータセットの転送をご覧ください。
Google Cloud と他のクラウド間で長期間にわたって大量のトラフィック転送または交換が必要な場合は、Google Cloud と他のクラウド サービス プロバイダ(特定のロケーションで利用可能)の間に高帯域幅の専用接続を確立するために、Google Cloud Cross-Cloud Interconnect の使用を検討する必要があります。
接続レイヤで暗号化が必要な場合は、選択したハイブリッド接続ソリューションに基づいてさまざまなオプションを使用できます。これらのオプションには、VPN トンネル、Cloud Interconnect を介した HA VPN、Cross-Cloud Interconnect の MACsec などがあります。
複数環境間でツールとプロセスの一貫性を保ちます。分析のハイブリッド シナリオにおける前提条件ではありませんが、このプラクティスは運用効率の向上に役立ちます。