データ分析

Cloud Dataproc on Kubernetes による Apache Spark のモダナイゼーション

2019年9月11日

Google Cloud Japan Team

※この投稿は米国時間 2019 年 9 月 11 日に Google Cloud blog に投稿されたものの抄訳です。

Google Cloud Dataproc は、データ処理やモデルトレーニングを大規模かつ高速に行う必要があるデータエンジニアやデータサイエンティスト向けに、オープンソースデータと分析処理を提供します。しかしながら、企業インフラストラクチャのハイブリッド化が進むにつれて、マシンのアイドル状態が発生したり、シングルワークロードのクラスタが無秩序に増え続けたり、オープンソースソフトウェアやライブラリの陳腐化によって現行スタックと互換性がなくなる事態が頻発したりしています。そのため、Cloud Dataproc によって、クラウドとオープンソースの最良の部分を組み合わせ、データの専門家がインフラストラクチャよりもワークロードに継続して集中できるようにすることが、きわめて重要になっています。私たちは、こうしたビジョンを踏まえたうえで、Cloud Dataproc on Kubernetes アルファ版の提供を開始しました。このサービスは、Google Kubernetes Engine（GKE）クラスタで実行される Apache Spark ジョブに対して、エンタープライズグレードのサポート、管理機能、セキュリティを提供します（技術的な詳細はこちらをご覧ください）。

「企業は、複数の場所やプラットフォームにまたがるデータ処理をサポートするプロダクトやサービスを、ますます求めるようになっています。Cloud Dataproc on Kubernetes のリリースは、パブリッククラウドとオンプレミス環境の両方で、Apache Spark ジョブを GKE 上でデプロイ、管理するための単一のコントロールプレーンを顧客に提供するという点で重要です。」（451 Research のリサーチバイスプレジデント、Matt Aslett 氏）

これは、コンテナファーストへの大きな取り組みの第一歩です。Apache Spark は Cloud Dataproc on Kubernetes で最初に対応するオープンソース処理エンジンですが、これは序の口にすぎません。Kubernetes は、ビッグデータや機械学習用のオープンソースソフトウェア（OSS）の世界を一変させています。リソース管理を統合し、ジョブを分離し、あらゆる環境で回復力の高いインフラストラクチャを構築する方法を、データサイエンティストとデータエンジニアに提供するからです。

統合リソース管理を展開

今回のアルファ版のリリースにより、ビッグデータの専門家は、Kubernetes と YARN で動作するオープンソースコンポーネントを管理するにあたって、2 つの別々のクラスタ管理インターフェースを扱う必要がなくなります。Cloud Dataproc の新しい機能を使用すれば、両方のクラスタ管理システムを中央で一元的に把握することができます。YARN と Kubernetes の両方をサポートすることで、YARN ベースのワークロードを継続的にモニタリングしながら、特定のハイブリッドワークロードをモダナイズするのに必要な柔軟性が得られます。

OSS ジョブの分離でアナリティクスライフサイクルを加速

Kubernetes 上での OSS ジョブのコンテナ化と分離により、データプロフェッショナルは作業をスピードアップするとともに、従来のビッグデータ技術に関連するバージョンとライブラリの依存関係を一掃することができます。互換性を心配することなく、モデルと新しい ETL パイプラインを開発環境から本番環境へと移行することが可能です。Kubernetes のような新しいアジャイルインフラストラクチャを基盤に据えることで、OSS をより速く、かつ容易にアップグレードできるようになります。

回復力の高いインフラストラクチャを構築

自己修復が可能な GKE 環境に Spark ジョブをデプロイすると、ミッションクリティカルな ETL と機械学習ジョブを円滑に実行するのに役立ちます。データサイエンティストやデータエンジニアは、クラスタのサイジングや構築、Docker ファイルの操作、複雑な Kubernetes ネットワークの構成について心配する必要はありません。GKE が常に安定稼働するからです。お客様は、Kubernetes を開発したチームによる優れたサポートを受けられますので、自社のチームに不足している Kubernetes スキルを埋めるのに必要な情報にアクセスできます。

オープンソースは常に、Google Cloud のデータおよびアナリティクス戦略の大きな柱となってきました。私たちは、業界標準の確立に向けてコミュニティとの協力を継続して行っていくとともに、世界中のお客様がデータの価値をより迅速に引き出せるよう、そうした標準の Google Cloud サービスへの統合に引き続き取り組んでいます。

Cloud Dataproc を Kubernetes に移行するには、Cloud Dataproc および、私たちがマネージドサービスとして運用しているオープンソースエコシステムのプロジェクトに変更を加える必要がありました。私たちは今後も、Apache Flink のようなオープンソースコミュニティと協力し、Cloud Dataproc on Kubernetes をより多くのオープンソースプロジェクトに対応させていきます。また、Kubernetes 上の Apache Spark ジョブにおいてエンタープライズグレードのサポート、管理、セキュリティを実現するサービスのアルファ版を今回リリースしましたが、私たちはこれを第 1 弾として、こうしたサービスを数多く提供していきます。世界中のデータサイエンティストやデータエンジニアのためにインフラストラクチャの複雑さを簡素化することを目指しているからです。

もっと詳しく知りたい方やアルファプログラムへの参加をご希望の方は、こちらからメールをお送りください。アルファ版の技術的な詳細についても、ぜひチェックしてみてください。

- By Christopher Crosbie, Product Manager and James Malone, Product Manager, Google Cloud

投稿先