データ分析

Dataproc 2.0 での Spark 3 と Hadoop 3 について

2020年6月19日

https://storage.googleapis.com/gweb-cloudblog-publish/images/Cloud_Dataproc_1ZCbMuo.max-2600x2600.jpg

Google Cloud Japan Team

※この投稿は米国時間 2020 年 6 月 17 日に、Google Cloud blog に投稿されたものの抄訳です。

Dataproc では、オープンソースによるデータと分析の処理をクラウド上で高速、簡単かつ安全に実行できます。また、カスタムマシンタイプで約 90 秒以内に完全構成済みの自動スケーリングクラスタを提供することができます。このため、Dataproc はオープンソースエコシステムの最新機能のテストに最適です。

Dataproc は Hadoop や Spark のクラスタで通常使用されるコアソフトウェアのバンドルと関連付けられたイメージバージョンを提供します。Dataproc オプションコンポーネントを追加すると、このバンドルを拡張して Anaconda、Druid、HBase、Jupyter、Presto、Tanager、Solr、Zeppelin、Zookeeper などの他の一般的なオープンソーステクノロジーを使用することができます。初期化アクションでデプロイできる独自の構成を使用すると、クラスタをさらにカスタマイズできます。Dataproc 初期化アクション GitHub リポジトリには、Kafka などのインストールに役立つスクリプトが多数提供されていますので、ぜひご確認ください。

Dataproc 2.0 はテスト用としてご利用いただける最新のオープンソースソフトウェアセットで、（プレビューイメージに含まれています。プレビューイメージは Dataproc の用語で、イメージが一般提供サービス内の新しいバージョンであることを表します）過去の OSS 機能に比べて一段と機能が増加しており、2016 年前半に Dataproc が一般提供サービスになって以来、初めての新しいバージョントラックです。Dataproc 2.0 の重要なポイントをいくつかご紹介します。

Spark 3 をプレビューで使用可能

Apache Spark 3 は Apache Spark の待望の次期バージョンで、まだ本番環境のワークロードには推奨されていません。オープンソースコミュニティではプレビュー段階にとどまっています。ただし、Spark 3 で強化された機能の利用をお考えの方は、Dataproc 2.0 で分離クラスタを使用することによりジョブの移行作業を開始できます。

新しい Spark 3 の目玉は「パフォーマンス」です。内部処理の変更により、速度とパフォーマンスが大幅に改善されます。パフォーマンス最適化の例として以下が挙げられます。

アダプティブクエリ: Spark では実行中でもクエリプランを最適化できるようになりました。これはクエリ処理の前に適切な統計情報が不足しがちなデータレイククエリにおいて、大きなメリットです。
動的パーティションプルーニング: 1 つのファクトテーブルと多くのディメンションテーブルを使用するデータウェアハウスクエリのようなクエリにおいては、不要なデータスキャンを避けることが重要です。Spark 3 では、このデータプルーニング手法が導入されています。
GPU アクセラレーション: NVIDIA はオープンソースコミュニティと協力して、GPU を Spark のネイティブ処理に取り入れています。これにより、Spark は必要に応じて GPU に処理を渡すことができます。

パフォーマンスに加えて、バージョン 3 では Kubernetes 上で実行される Spark が改善され、シャッフル機能が強化されたことによって動的スケーリングが可能になりました。このため、Dataproc ジョブを Google Kubernetes Engine（GKE）で実行することが、Spark 3 へジョブを移行する多くのケースで最適なオプションになります。

ソフトウェアのメジャーバージョンのオーバーホールでは、アップグレードに伴って一部の機能が非推奨となることがつきものであり、Spark 3 も例外ではありません。ただし、機能が非推奨になったことによってメリットを得られる場合もあります。

MLLib（耐障害性分散データセット（RDD）バージョンの ML）は非推奨になりました。大半の機能は存続するものの、開発やテストは行われなくなるため、Spark 3 への移行時に MLLib から移行することをおすすめします。MLLib から移行する場合、代わりにディープラーニングモデルが有効かどうかを評価する機会にもなります。Spark 3 では、ML パイプラインから GPU で実行されるディープラーニングモデルへのブリッジが改善される予定です。
GraphX は非推奨となり、新しいグラフ作成コンポーネントである SparkGraph に置き換えられます。SparkGraph は、GraphX で以前提供されていたものよりもはるかに機能豊富なグラフ言語である Cypher をベースにしています。
DataSource API は DataSource V2 になり、さまざまなデータソースへの書き込み、データソースへのプッシュダウン、Spark 内のデータカタログを一元的に提供します。
Python 2.7 はサポートが終了し、Python 3 に置き換えられます。

Hadoop 3 が利用可能に

Dataproc 2.0 バージョントラックのもう 1 つのメジャーバージョンアップグレードは Hadoop 3 です。これは HDFS と YARN の 2 つの部分で構成されています。

オンプレミスの Hadoop デプロイメントの多くは、HDFS フェデレーション、複数のスタンバイネームノード、HDFS 消去エンコーディング、YARN のグローバルスケジューラといった 3.0 の機能の恩恵を受けています。Hadoop のクラウドベースデプロイメントでは、HDFS と YARN への依存度が減少する傾向があります。HDFS ストレージは、ほとんどの状況で Cloud Storage に置き換えられます。YARN は引き続きクラスタ内のリソーススケジューリングに使用されていますが、クラウドで Hadoop を使用するお客様はクラスタや VM レベルでのジョブとリソースの管理を検討し始めています。Dataproc は単一クラスタの YARN キューを複雑なワークロード管理ポリシーで構成するだけではなく、現在取り組んでいるタスクに適したサイズのジョブ限定クラスタを提供します。

ただし、Google Cloud に移行する前にアーキテクチャに変更を加えたくない場合は、オンプレミスの Hadoop 3 インフラストラクチャを Dataproc 2.0 にリフト＆シフトし、現在のすべてのツールとプロセスが機能するように維持することもできます。その後、適切なワークロードに対して新しいクラウド手法を徐々に導入することができます。

クラウドテクノロジーに移行する場合、Hadoop 3 の機能の多くがその用途を特殊なユースケースに限定されてしまう可能性がありますが、それでも、既存の多くの Dataproc のお客様にとって魅力的かつ便利な Hadoop 3 の機能がいくつかあります。

YARN スケジューラでの GPU のネイティブサポート

このサポートにより、YARN は GPU が必要な場合、使用に適したノードを識別し、共有クラスタの GPU リソースを的確に分離して、利用可能な GPU を自動検出できます（以前は管理者が GPU を構成する必要がありました）。GPU 情報は YARN UI にも表示され、Dataproc コンポーネントゲートウェイから簡単にアクセスできます。

YARN コンテナ化

Spark や Flink をはじめとする最新のオープンソースコンポーネントは Kubernetes をネイティブサポートしており、本番環境レベルのコンテナオーケストレーションを提供します。しかし、YARN から Kubernetes にまだ移植されていない Hadoop のレガシーコンポーネントはまだまだあります。Hadoop 3 の YARN コンテナ化は、こうしたコンポーネントを Docker コンテナや最新の CI / CD パイプラインで管理するのに役立ちます。この機能は HBase などの稼働状態を維持する必要があり、ソフトウェアをさらに分離することでメリットが得られるアプリケーションに大いに有用です。