Google Distributed Cloud 上の Dataproc を使用してハイブリッド データ処理フットプリントを構築する
Antonio Scaramuzzino
Senior Product Manager
Chris Nauroth
Senior Staff Software Engineer
※この投稿は米国時間 2024 年 6 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。
データレイク インフラストラクチャの構築やモダナイズに関心のある Google Cloud のお客様は、規制要件または運用要件により、ワークロードとデータの少なくとも一部をオンプレミスで維持しなくてはならないことがよくあります。
Google Cloud Next ‘24 でプレビュー版として発表された Google Distributed Cloud 上の Dataproc により、クラウドベースのテクノロジーを使用してデータレイクを完全にモダナイズできるようになりました。同時に、ハイブリッド データ処理フットプリントを構築することで、クラウドへの移行が不可能なオンプレミス データを保存し処理できます。
Google Distributed Cloud 上の Dataproc を使用すると、データセンター内にある Google 提供のハードウェアを使用して、Apache Spark 処理ワークロードをオンプレミスで実行しながら、クラウドとローカルの間で使用するテクノロジーの一貫性を確保できます。
たとえば、ヨーロッパの大手通信会社は、Google Cloud 上のデータレイクをモダナイズしながら、Google Distributed Cloud でオンプレミスに個人を特定できる情報(PII)のデータを保持して規制要件に対応しています。
このブログ記事では、Google Distributed Cloud 上の Dataproc を使用してオンプレミスの PII データを読み取り、集計指標を計算し、結果のデータセットを Google Cloud Storage でクラウド上のデータレイクにアップロードする方法を紹介します。
オンプレミスでセンシティブ データを集計して匿名化する
今回のデモのシナリオでは、イベントログを保存してユーザーの通話を記録する通信会社のお客様を例に説明します。
このデータセットには PII が含まれています。規制を遵守するため、PII を自社のデータセンターのオンプレミスに保持する必要があります。この要件を満たすために、お客様はオンプレミスの S3 互換オブジェクト ストレージを使用して PII データを保存します。ただし、お客様は Google Cloud の広範なデータレイクを使用して、場所ごとに signal_strength を分析し、新しいインフラストラクチャ投資に最適な地域を特定したいと考えています。
コンプライアンス要件を満たしながら Google Cloud データ分析と統合するために、Google Distributed Cloud 上の Dataproc では、signal_quality で集計を行える Spark ジョブの完全なローカル実行がサポートされています。次のような Spark のサンプルコードを検討してみましょう。
Google Distributed Cloud 上の Dataproc(Dataproc on GDC)は、Kubernetes Resource Manager API でカスタム リソースを公開し、Spark アプリケーションの送信をサポートします。まず、ユーザーは GDC クラスタの認証情報を取得します。
次に、SparkApplication カスタム リソースを作成し、ローカル オブジェクト ストレージからの入力場所と Cloud Storage への出力場所を指定して、上記のジョブを実行できます。
Cloud Storage での出力結果では、信号品質が低いエリアがいくつか特定されます。
このデータセットは、お客様の広範な GCP データレイク戦略の一環として、PII が削除された状態で Cloud Storage で利用できるようになりました。これにより、時間の経過に伴う傾向などの追加の分析や、BigQuery や Dataproc Serverless などのさまざまなデータ分析プロダクトの使用が可能になります。
その他のリソース
このブログ記事では、Google Distributed Cloud 上の Dataproc を活用してハイブリッド データ処理フットプリントを作成し、データセンターで保持する必要のあるオンプレミスのセンシティブ データを処理し、残りのデータをクラウドに移行する方法について紹介しました。Google Distributed Cloud 上の Dataproc を使用すると、データ所在地に関する規制要件と運用要件を考慮しながら、データレイクをモダナイズできます。Dataproc と Google Distributed Cloud の詳細については、以下をご覧ください。
-シニア プロダクト マネージャー Antonio Scaramuzzino
-シニアスタッフ ソフトウェア エンジニア Chris Nauroth