Google Cloud への Apache Hadoop クラスタの移行
Google Cloud Japan Team
※この投稿は米国時間 2020 年 5 月 28 日に、Google Cloud blog に投稿されたものの抄訳です。
Apache Hadoop とそれを中心としたビッグデータ エコシステムは長年にわたってビジネスに良い影響をもたらし、ビッグデータの問題に取り組み実用的な分析を構築する方法を提供しています。Hadoop と Apache Spark や Presto などのオンプレミス デプロイがテスト環境から 1,000 ノードのクラスタに移行するに伴い、コスト、パフォーマンス、ガバナンスの課題が浮き彫りになりました。こうした課題がオンプレミスで増える中、Google Cloud が登場しました。Google Cloud は、コンピューティングとストレージを分離してパフォーマンスを向上させつつ、リソース使用量に応じた料金のみを支払いたいと願う多くの Hadoop 管理者向けソリューションです。コストを管理しながらデータと分析の SLA を満たす一方、オープンソースのイノベーションへのアクセスの安全性と統制を保つことの両立は困難ですが、パブリック クラウドならマシンの初期費用を抑えながら解決できます。
オンプレミスの Hadoop 移行コストについての考え方
Hadoop の移行コストを見積もる正しい方法は 1 つではありません。最近では、オンプレミスのフットプリントを確認し、バイト単位や CPU サイクル単位で直接クラウドと比較しようとする人もいます。このアプローチに問題はありません。事業費や資本支出、コンピューティングの継続利用などの割引を検討すると、このコストケースはかなり魅力的に見えてきます。クラウドにコスト上のメリットがあるのは確かです。
では、ワークロード中心のアプローチを取ってみた場合はどうでしょうか。クラウドベースの Hadoop や Spark の概念実証を実施する際は、特定のワークロードについて、そのワークロードのみを行うための請求単位を測定し、検討してみます。注: クラスタを起動してデータ パイプラインを実行し、完了後にクラスタを破棄するのはとても簡単です。
次に、そのワークロードに変更を加えてみましょう。たとえば、Spark の新しいバージョンを使用して再デプロイします。この作業は一見簡単そうですが、オンプレミスのクラスタで行う場合はどうすればよいでしょうか。また、そのような変更を計画して実装するためのコストはどのくらいになるでしょうか。オンプレミスの Hadoop クラスタ全体またはその一部の移行について TCO 分析を行う場合は、これらのことを考慮する必要があります。
オンプレミスの Hadoop 移行は、どこから始めるべきか
まず重要なことは、移行するのがクラスタではなくユーザーとワークロードである点です。これまではクラスタの維持と運用という責務を負っていましたが、移行後はその責務を Google と共有することになります。ユーザーとワークロードから移行を始めると、より俊敏で効率的なエクスペリエンスを構築できます。
パイプラインを更新して最新の Spark API を使用するデータ エンジニアについて考えてみましょう。コードを移行すると、コード独自のエフェメラル クラスタでそのコードを実行できます。他のすべてのワークロードのコードを更新する必要はありません。コードを独自のクラスタで実行するので、以前のバージョンの Spark API を引き続き利用できます。
または、報告期限までに Hive クエリを実行するためにさらなるリソースが必要なデータ アナリストには、自動スケーリングを有効にすることも可能です。あるいは、ML トレーニング ジョブの期間短縮を望んでいるデータ サイエンティストには、使い慣れたノートブック インターフェースを提供し、GPU を接続して必要に応じてクラスタを起動できます。
こうしたメリットはどれも魅力的かもしれませんが、ワークロードとユーザーの移行には大変な作業が付き物です。何から手を付ければよいでしょうか。
Google Cloud へのデータ処理 Hadoop ワークロードの移行に関するブログ記事は、データ処理ジョブを検討、計画、実行するデータ管理者、アーキテクト、エンジニアなどに役立つ内容となっています。注: 特定のワークロードで使用できる API とバージョンを正確に選択できます。ワークロードの要件を満たすため、必要に応じてクラスタのサイズ設定とスケーリングが可能です。
データを Google Cloud に保存して処理したら、分析ツールや探索ツールを使って、ツールの実行場所に関係なく、データを処理できるようにします。ここで必要な作業はプロキシ、ネットワーキング、セキュリティ全般にわたりますが、すでに確立された手法があるのでご安心ください。GCP への Hadoop クラスタの移行 - 可視化セキュリティ: パート 1 - アーキテクチャは、アーキテクトと管理者がアナリストが適切な分析を行えるようにする際に役立つ内容となっています。
先ほど Google は、データ サイエンスのワークロードとユーザー向けに Dataproc Hub をリリースしました。これにより、データ サイエンティストと IT 管理者は、それぞれのデータ サイエンス ニーズに合わせてオンデマンド クラスタにこの上なく安全にアクセスできます。
Apache Hadoop エコシステムは最良のデータ処理機能と分析機能を提供しています。こうした機能をユーザーとワークロードが利用できるようになることが、移行の成功を意味します。ワークロードによってクラスタが定義される移行であって、その逆ではありません。Google Cloud の担当者にぜひお問い合わせください。Hadoop の移行をお手伝いいたします。
- By プロダクト マネージャー Robert Saxby