コンテンツに移動
データ分析

Google Distributed Cloud 上の Dataproc を使用してハイブリッド データ処理フットプリントを構築する

2024年6月14日
Antonio Scaramuzzino

Senior Product Manager

Chris Nauroth

Senior Staff Software Engineer

Gemini 1.5 モデル をお試しください。

Vertex AI からアクセスできる、Google のもっとも先進的なマルチモーダル モデルです。

試す

※この投稿は米国時間 2024 年 6 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。

データレイク インフラストラクチャの構築やモダナイズに関心のある Google Cloud のお客様は、規制要件または運用要件により、ワークロードとデータの少なくとも一部をオンプレミスで維持しなくてはならないことがよくあります。

Google Cloud Next ‘24 でプレビュー版として発表された Google Distributed Cloud 上の Dataproc により、クラウドベースのテクノロジーを使用してデータレイクを完全にモダナイズできるようになりました。同時に、ハイブリッド データ処理フットプリントを構築することで、クラウドへの移行が不可能なオンプレミス データを保存し処理できます。

Google Distributed Cloud 上の Dataproc を使用すると、データセンター内にある Google 提供のハードウェアを使用して、Apache Spark 処理ワークロードをオンプレミスで実行しながら、クラウドとローカルの間で使用するテクノロジーの一貫性を確保できます。

たとえば、ヨーロッパの大手通信会社は、Google Cloud 上のデータレイクをモダナイズしながら、Google Distributed Cloud でオンプレミスに個人を特定できる情報(PII)のデータを保持して規制要件に対応しています。

このブログ記事では、Google Distributed Cloud 上の Dataproc を使用してオンプレミスの PII データを読み取り、集計指標を計算し、結果のデータセットを Google Cloud Storage でクラウド上のデータレイクにアップロードする方法を紹介します。

オンプレミスでセンシティブ データを集計して匿名化する

今回のデモのシナリオでは、イベントログを保存してユーザーの通話を記録する通信会社のお客様を例に説明します。

 

customer_id

customer_name

call_duration

call_type

signal_strength

device_type

location

1

<編集済み>

141

音声

379

LG Q6

Tammieview(フロリダ州)

2

<編集済み>

26

動画

947

Kyocera Hydro Elite

New Angela(フロリダ州)

3

<編集済み>

117

音声

625

Huawei Y5

Toddville(ミズーリ州)

4

<編集済み>

36

動画

382

iPhone X

Richmondview(ネバダ州)

5

<編集済み>

110

動画

461

HTC 10 evo

Cowanchester(カンザス州)

6

<編集済み>

0

動画

326

Galaxy S7

Nicholsside(ネバダ州)

7

<編集済み>

200

データ

448

Kyocera Hydro Elite

New Taramouth(アーカンソー州)

8

<編集済み>

178

データ

475

Galaxy S7

South Heather(コネチカット州)

9

<編集済み>

200

音声

538

Oppo Reno6 Pro+ 5G

Gregoryburgh(アイダホ州)

10

<編集済み>

113

音声

878

ZTE Axon 30 Ultra 5G

Karaview(ネバダ州)

11

<編集済み>

200

データ

722

Huawei P10 Lite

Petersonstad(アイオワ州)

12

<編集済み>

200

音声

1

HTC 10 evo

West Danielport(コロラド州)

13

<編集済み>

169

音声

230

Samsung Galaxy S10+

North Jose(サウスダコタ州)

14

<編集済み>

198

音声

1

Kyocera DuraForce

East Matthewmouth(米領サモア)

15

<編集済み>

155

データ

757

OPPO Find X

Tuckerchester(メリーランド州)

16

<編集済み>

0

データ

1

ZTE Axon 30 Ultra 5G

New Tammy(ノースカロライナ州)

17

<編集済み>

200

データ

656

Galaxy Note 7

East Jeanside(ニュージャージー州)

18

<編集済み>

15

データ

567

Huawei Y5

Lake Patrickburgh(オハイオ州)

このデータセットには PII が含まれています。規制を遵守するため、PII を自社のデータセンターのオンプレミスに保持する必要があります。この要件を満たすために、お客様はオンプレミスの S3 互換オブジェクト ストレージを使用して PII データを保存します。ただし、お客様は Google Cloud の広範なデータレイクを使用して、場所ごとに signal_strength を分析し、新しいインフラストラクチャ投資に最適な地域を特定したいと考えています。

コンプライアンス要件を満たしながら Google Cloud データ分析と統合するために、Google Distributed Cloud 上の Dataproc では、signal_quality で集計を行える Spark ジョブの完全なローカル実行がサポートされています。次のような Spark のサンプルコードを検討してみましょう。

読み込んでいます...

Google Distributed Cloud 上の DataprocDataproc on GDC)は、Kubernetes Resource Manager API でカスタム リソースを公開し、Spark アプリケーションの送信をサポートします。まず、ユーザーは GDC クラスタの認証情報を取得します。

読み込んでいます...

次に、SparkApplication カスタム リソースを作成し、ローカル オブジェクト ストレージからの入力場所と Cloud Storage への出力場所を指定して、上記のジョブを実行できます。

読み込んでいます...

Cloud Storage での出力結果では、信号品質が低いエリアがいくつか特定されます。

場所

Georgefurt(ミシシッピ州)

1.0

Scottside(マサチューセッツ州)

1.0

Monroemouth(フロリダ州)

1.0

Lake Robert(オハイオ州)

1.0

East Lauren(バージニア州)

1.0

Shelleyburgh(コネチカット州)

1.0

Buckville(アイダホ州)

1.0

Garzaton(ウィスコンシン州)

3.32

North Danielle(ニューヨーク州)

3.99

Port Natalie(アイダホ州)

5.43

このデータセットは、お客様の広範な GCP データレイク戦略の一環として、PII が削除された状態で Cloud Storage で利用できるようになりました。これにより、時間の経過に伴う傾向などの追加の分析や、BigQuery Dataproc Serverless などのさまざまなデータ分析プロダクトの使用が可能になります。

その他のリソース

このブログ記事では、Google Distributed Cloud 上の Dataproc を活用してハイブリッド データ処理フットプリントを作成し、データセンターで保持する必要のあるオンプレミスのセンシティブ データを処理し、残りのデータをクラウドに移行する方法について紹介しました。Google Distributed Cloud 上の Dataproc を使用すると、データ所在地に関する規制要件と運用要件を考慮しながら、データレイクをモダナイズできます。Dataproc Google Distributed Cloud の詳細については、以下をご覧ください。

-シニア プロダクト マネージャー Antonio Scaramuzzino

-シニアスタッフ ソフトウェア エンジニア Chris Nauroth

投稿先