Google Compute Engine 上の Dataproc 2.3: セキュリティが強化された軽量イメージ
Isha Agarwal
Software Engineer
Vinayakumar B
Senior Software Engineer
※この投稿は米国時間 2025 年 10 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。
Google Cloud Dataproc は、Apache Spark と Hadoop のマネージド サービスであり、ビッグデータ分析のための高速で使いやすく費用対効果の高いプラットフォームを提供します。6 月に、軽量設計によりセキュリティと運用効率が向上した Google Compute Engine の Dataproc 2.3 イメージの一般提供(GA)を発表しました。
「Dataproc 2.3 は、最先端の高性能で信頼できるプラットフォームです。これにより、当社の ML サイエンティストとアナリストは大規模なイノベーションを推進できます。」- Booking.com、機械学習マネージャー、Sela Samin 氏
Dataproc 2.3 イメージは、ビッグデータ ワークロード向けに、より合理化された安全な環境への意図的な移行を示しています。今回は、この軽量なアプローチが効果的な理由を見ていきましょう。
1. 攻撃対象領域の縮小とセキュリティの強化
Google Compute Engine 2.3 の Dataproc は、優れたセキュリティと効率性を実現するように設計された FedRamp High 対応のイメージです。
Dataproc 2.3 は、軽量になるように設計されており、含まれるのは Spark と Hadoop の運用に必要なコア コンポーネントのみです。この最小限のアプローチにより、共通脆弱性識別子(CVE)への露出が大幅に削減されます。厳格なセキュリティとコンプライアンスの要件がある組織にとって、これは機密データに対して堅牢で強化された環境を提供する画期的な機能です。
Google は、CVE(共通脆弱性識別子)の修復に対する二方向からのアプローチを通じて、堅牢なセキュリティ ポスチャーを維持し、イメージが常にコンプライアンス基準を満たすようにしています。これには、自動化されたプロセスと、対象を絞った手動による介入を組み合わせる必要があります。
-
自動修復: 継続的なスキャン システムを使用して、イメージを自動的にビルドして既知の脆弱性の修正についてパッチを適用し、問題を大規模かつ効率的に処理できるようにしています。
-
手動による介入: 自動化によって破壊的変更が発生する可能性のある複雑な問題や、複雑な依存関係がある問題については、エンジニアが詳細な分析を行い、安定性とセキュリティを確保するために的を絞った修正を適用します。


2. オプション コンポーネントのオンデマンドの柔軟性
2.3 のイメージは軽量ですが、機能が犠牲になっているわけではありません。Dataproc 2.3 では、考えられるすべてのコンポーネントを事前にパッケージ化するのではなく、オプション コンポーネントのオンデマンド モデルを採用しています。ワークロードで Apache Flink、Hive WebHCat、Hudi、Pig、Docker、Ranger、Solr、Zeppelin などの特定のツールが必要な場合は、クラスタの作成時に簡単にデプロイできます。これにより、デフォルトでクラスタをスリムに保ちながら、必要なときに Dataproc の機能を幅広く利用できます。




3. クラスタの作成を高速化(カスタム イメージを使用)
オプション コンポーネントをオンデマンドでデプロイすると、クラスタの作成中にダウンロードとインストールが行われるため、起動時間が少し長くなる可能性があります。しかし、Dataproc 2.3 では、カスタム イメージという強力なソリューションが提供されています。必要なオプション コンポーネントがプリインストールされたカスタム Dataproc イメージを作成できるようになり、軽量なベースイメージのセキュリティ上のメリットと、事前構成された環境のスピードと利便性を組み合わせることができるため、特定のユースケースにおけるクラスタのプロビジョニングとセットアップの時間を大幅に短縮できます。


Dataproc 2.3 を使ってみる
新しい軽量 Dataproc 2.3 イメージの使用は簡単です。Dataproc クラスタを作成する際に、2.3(または 2.3.10-debian12、2.3.10-ubuntu22、2.3.10-rocky9 などの特定のサブマイナー バージョン)を指定するだけです。
gcloud CLI を使用した例を次に示します。
イメージ バージョンと利用可能なコンポーネントの詳細については、Dataproc クラスタ イメージ バージョン リストをご覧ください。
Dataproc 2.3 イメージは、軽量で安全かつ効率的な基盤を重視することで、Google Cloud 上のビッグデータ処理の新たな標準を確立します。デフォルトで含まれるコンポーネントを最小限に抑え、柔軟なオンデマンド インストールやカスタム イメージの作成を可能にすることで、Dataproc 2.3 は、より高いセキュリティ コンプライアンスと最適化されたクラスタ パフォーマンスの実現を支援します。
Dataproc 2.3 の強化されたセキュリティと運用効率を今すぐ活用して、ビッグデータ イニシアチブに対するこれまでにないレベルの信頼性を体験してください。
-ソフトウェア エンジニア、Isha Agarwal
-シニア ソフトウェア エンジニア、Vinayakumar B



