Cloud Dataproc FAQ

全般

Cloud Dataproc とは何ですか?

Cloud Dataproc は、高速で使いやすい低コストのフルマネージド サービスであり、Google Cloud Platform で Apache Spark と Apache Hadoop エコシステムを実行できます。Cloud Dataproc は、大小さまざまなクラスタをすばやくプロビジョニングし、一般的な多くのジョブタイプをサポートし、他の Google Cloud Platform サービス(Cloud Storage や Stackdriver Logging など)と統合されているため、TCO の削減に役立ちます。

Cloud Dataproc は従来の Hadoop クラスタとはどのように違うのですか?

Cloud Dataproc は、Spark と Hadoop の使いやすさ、速度、機能性の向上を目的としたマネージド Spark / Hadoop サービスです。従来の Hadoop デプロイでは、クラウドベースであっても、デベロッパーが自らクラスタで作業を導入、構成、管理、オーケストレートする必要があります。一方、Cloud Dataproc はデベロッパーに代わってクラスタの作成、管理、モニタリング、ジョブ オーケストレーションを行います。

Cloud Dataproc を使用するにはどうすればよいですか?

Cloud Dataproc クラスタの使用方法は、ニーズと機能に応じてさまざまです。ブラウザベースの Google Cloud Platform Console を使用すると、Cloud Dataproc とやり取りできます。また、Cloud Dataproc は Cloud SDK と統合されているため、gcloud コマンドライン ツールも使用できます。Cloud Dataproc REST API を使用すれば、プログラムからクラスタにアクセスできます。また、クラスタのマスターノードやワーカーノードに SSH で接続することもできます。

Cloud Dataproc はどのように動作しますか?

Cloud Dataproc は、Google Cloud Platform で動作し、データ処理の目的で Apache Hadoop Spark、Hive、Pig などの一般的なツールが統合されたマネージド フレームワークです。クラスタのライフサイクル、管理、調整を行う制御と統合のメカニズムを備えています。YARN アプリケーション マネージャーと統合されているため、これまでよりも簡単にクラスタを管理および使用できます。

どのようなタイプのジョブを実行できますか?

Cloud Dataproc は、Spark、Spark SQL、PySpark、MapReduce、Hive、Pig など最も一般的なジョブタイプの多くを細部にわたって標準でサポートしています。

Cloud Dataproc は Spark でどのクラスタ マネージャーを使用しますか?

Cloud Dataproc は、YARN 上の Spark を実行します。

Cloud Dataproc のコンポーネントはどの程度の頻度で更新されますか?

Cloud Dataproc は、その基になるコンポーネント(Hadoop、Spark、Hive、Pig)のメジャー リリースが出ると更新されます。Cloud Dataproc のメジャー リリースごとに、サポートされる各コンポーネントのバージョンが異なります(サポートされている Cloud Dataproc バージョンを参照)。

Cloud Dataproc は他の Google Cloud Platform プロダクトと統合されていますか?

はい。Cloud Dataproc は、Compute Engine、Cloud Storage、Bigtable、BigQuery、Logging、Stackdriver Monitoring とネイティブで自動的に統合されています。さらに、Cloud Dataproc は、Cloud SDKGoogle Cloud Platform Console など、Cloud Platform とやり取りするツールにも統合されています。

クラスタを永続的に実行できますか?

Cloud Dataproc クラスタは、いったん起動するとシャットダウンするまで稼働し続けます。必要な限り、Cloud Dataproc クラスタを実行できます。

クラスタ管理

複数のクラスタを一度に実行できますか?

はい。プロジェクトごとに複数の Cloud Dataproc クラスタを同時に実行できます。デフォルトでは、すべてのプロジェクトが Google Cloud リソース割り当ての対象になります。簡単に割り当て使用状況をチェックして、割り当ての増加をリクエストできます。詳しくは、Cloud Dataproc のリソース割り当てをご覧ください。

クラスタを作成または破棄するにはどうすればよいですか?

クラスタを作成および破棄するには、いくつかの方法があります。Google Cloud Platform Console の Cloud Dataproc のセクションを使用すると、ブラウザから簡単にクラスタを管理できます。クラスタは、Cloud SDK を介してコマンドラインから管理することもできます。より複雑または高度なユースケースでは、Cloud Dataproc REST API を使用して、プログラムでクラスタを管理できます。

クラスタを作成するときにカスタマイズ設定を適用できますか?

Cloud Dataproc では、クラスタを作成すると実行される初期化アクションをサポートしています。こうした初期化アクションは、Cloud Dataproc がクラスタをプロビジョニングするときに実行するスクリプトや実行可能ファイルであり、設定をカスタマイズしたり、アプリケーションをインストールしたり、その他の変更をクラスタに加えたりできます。

ニーズに応じてクラスタのサイズを設定するにはどうすればよいですか?

クラスタのサイズを設定するときは、実行する作業のタイプ、費用の制約、速度要件、リソース割り当てなどの要因を考慮する必要があります。Cloud Dataproc はさまざまなマシンタイプにデプロイできるため、必要なリソースを必要なときに柔軟に選択できます。

クラスタのサイズを変更できますか?

はい。クラスタのサイズは、ジョブを処理している場合も含め簡単に変更できます。クラスタのサイズを変更するには、Google Cloud Platform Console やコマンドラインを使用します。サイズを変更すると、クラスタのワーカーの数が増減することがあります。クラスタに追加したワーカーでは、既存のワーカーと同じタイプとサイズが使用されます。クラスタのサイズは変更可能ですが、特殊なケースを除きます。たとえば、ワーカーの数を 1 つに減らしたり、HDFS 容量をジョブの完了に必要な量よりも少なくしたりすることはできません。

ジョブとワークフローの管理

クラスタのジョブを送信するにはどうすればよいですか?

Cloud Dataproc クラスタでジョブを送信するには、いくつかの方法があります。最も簡単な方法は、Google Cloud Platform Console で Cloud Dataproc の [ジョブを送信] ページを使用するか、Cloud SDK の gcloud dataproc jobs submit コマンドを使用することです。プログラムでジョブを送信する方法については、Cloud Dataproc API リファレンスをご覧ください。

複数のジョブを一度に実行できますか?

はい。Cloud Dataproc クラスタでは複数のジョブを一度に実行できます。Dataproc は、リソース マネージャー(YARN)とアプリケーション固有の構成(Spark によるスケーリングなど)を利用して、クラスタでのリソースの使用を最適化します。ジョブのパフォーマンスは、クラスタサイズとアクティブなジョブの数に応じて変わります。

クラスタのジョブをキャンセルできますか?

もちろんできます。ジョブをキャンセルするには、Google Cloud Platform Console ウェブ インターフェースかコマンドラインを使用します。Cloud Dataproc は、ジョブ停止のリクエストがあれば、YARN アプリケーション キャンセル機能を利用してジョブを停止します。

クラスタでジョブを自動化できますか?

クラスタでのジョブの実行を自動化できるメカニズムがいくつかあります。Cloud SDKgcloud コマンドライン ツールや Cloud Dataproc REST API を使用すると、クラスタやジョブの管理とワークフローを自動化できます。

開発

どのような開発言語がサポートされていますか?

Java、Scala、Python、R など、Spark / Hadoop エコシステムでサポートされている言語を使用できます。

Cloud Dataproc には API がありますか?

はい。Cloud Dataproc では、RESTful API セットを使用して、クラスタやジョブとプログラムのようにやり取りできます。

クラスタに SSH で接続できますか?

はい。クラスタ内のあらゆるマシン(マスターノードやワーカーノード)に SSH で接続できます。ブラウザやコマンドラインから SSH で接続できます。

Spark / Hadoop ウェブ UI にアクセスできますか?

はい。クラスタ内で Hadoop / Spark UI(Spark、Hadoop、YARN UI)にアクセスできます。UI 用にポートを開くのではなく、SSH トンネルを使用して SSH 接続でクラスタからトラフィックを安全に転送することをおすすめします。

クラスタでソフトウェアをインストールしたり管理したりできますか?

はい。Hadoop クラスタやサーバーと同じく、Cloud Dataproc クラスタでソフトウェアをインストールおよび管理できます。

デフォルトのレプリケーション係数はいくつですか?

パフォーマンスを考慮するだけでなく Cloud Dataproc クラスタに接続されたストレージの高い信頼性を確保するため、デフォルトではレプリケーション係数を 2 に設定しています。

Cloud Dataproc に使用されているオペレーティング システム(OS)は何ですか?

Cloud Dataproc は Debian に基づいています。最新のイメージは、Debian 9 Stretch に基づいています。

Hadoop ストリーミングはどこで学習できますか?

Apache プロジェクトのドキュメントをご覧ください。

gcloud dataproc コマンドをインストールするにはどうすればよいですか?

Cloud SDK をインストールすると、gcloud dataproc コマンドなど標準の gcloud コマンドライン ツールがインストールされます。

データアクセスと可用性

クラスタにデータを格納したり取り出したりするにはどうすればよいですか?

Cloud Dataproc では、データ保存に Hadoop Distributed File System(HDFS)を使用しています。また、HDFS 互換の Google Cloud Storage コネクタが自動的にインストールされるため、HDFS と並行して Cloud Storage も使用できます。クラスタに対してデータを移動したり取り出したりするには、HDFS や Cloud Storage へのアップロードとダウンロードを使用します。

Dataproc で Cloud Storage を使用できますか?

はい。Cloud Dataproc クラスタは、自動的に Cloud Storage コネクタをインストールします。従来の HDFS ではなく Cloud Storage を選択すると、データの永続性、信頼性、パフォーマンスなど数多くの利点が得られます。

Cloud Storage コネクタのサポートを受けられますか?

はい。Cloud Storage コネクタは、Cloud Dataproc と併用すると、Cloud Dataproc と同じレベルでサポートされます(サポートの利用を参照)。すべてのコネクタ ユーザーは、Stack Overflow でコネクタの質問と回答に google-cloud-dataproc タグを使用できます。

Cloud Dataproc はどの程度信頼できますか?

Cloud Dataproc は、Compute Engine、Cloud Storage、Monitoring など、信頼性が高く実証済みの Google Cloud Platform テクノロジーを基に構築されているため、高い可用性と信頼性を備えています。一般公開されているプロダクトとして、Cloud Dataproc SLA を確認できます。

クラスタをシャットダウンするとデータはどうなりますか?

Cloud Storage 内のデータは、クラスタをシャットダウンした後も保持されます。これは、HDFS よりも Cloud Storage を選択する理由の 1 つになっています。HDFS データは、(シャットダウンの前に永続的なロケーションに転送されない限り)クラスタがシャットダウンされると削除されます。

ロギング、モニタリング、デバッグ

どのような種類のロギングとモニタリングを使用できますか?

デフォルトでは、Cloud Dataproc クラスタは Monitoring および Logging と統合されています。Monitoring と Logging を使用すると、Cloud Dataproc クラスタの使用状況、パフォーマンス、ステータスに関する詳細な情報を簡単に取得できます。アプリケーション(YARN、Spark など)ログとシステムログのどちらも、Logging に転送されます。

Cloud Dataproc からログを参照するにはどうすればよいですか?

Cloud Dataproc からいくつかの方法でログを参照できます。Logging にアクセスすると、ウェブブラウザで集約されたクラスタログを参照できます。また、コマンドライン(SSH)を使用すると、ログを手動で表示したり、アプリケーション出力をモニタリングしたりできます。YARN ウェブ インターフェースなどの Hadoop アプリケーション ウェブ UI から詳細を確認することもできます。

クラスタをモニタリングするにはどうすればよいですか?

Monitoring や Google Cloud Platform Console の Cloud Dataproc セクションを使用すると、クラスタを簡単にモニタリングできます。また、コマンドライン(SSH)アクセスやアプリケーション(Spark や YARN など)ウェブ インターフェースを使用してクラスタをモニタリングすることもできます。

セキュリティとアクセス

データはどのように保護されますか?

Google Cloud Platform に導入されている機能豊富なセキュリティ モデルが Cloud Dataproc にも適用されます。Cloud Dataproc は、データを保護するために認証、承認、暗号化のメカニズム(SSL など)を備えています。クラスタを作成するときやジョブを送信するときに、クラスタとの間でユーザーが暗号化したデータを転送できます。

Cloud Dataproc クラスタへのアクセスを制御するにはどうすればよいですか?

Google Cloud Platform が備えている認証メカニズムを Cloud Dataproc で使用できます。Cloud Dataproc クラスタとジョブへのアクセス権限をプロジェクト レベルでユーザーに付与できます。

課金

Cloud Dataproc はどのように課金されますか?

Cloud Dataproc は、秒単位で課金され、クラスタのサイズとクラスタが動作可能な時間の長さに基づいています。クラスタ コンポーネントの料金を計算する際、Cloud Dataproc はクラスタの仮想 CPU(vCPU)の数に基づいて定額料金を請求します。この定額料金は、使用する Compute Engine リソースのマシンタイプやサイズに関係なく同じです。

他の Google Cloud リソースは課金されますか?

はい、Cloud Dataproc クラスタを実行すると、Compute Engine や Cloud Storage など、クラスタで使用されている他の Google Cloud リソースに対して料金が発生します。請求書には各アイテムが個別に記載されるため、費用がどのように計算され配分されているかを正確に把握できます。

課金の最小時間や最大時間はありますか?

Google Cloud の料金は、時間単位ではなく秒単位で計算されます。現時点では、Compute Engine の最小課金単位は 1 分です。したがって、Cloud Dataproc の最小課金単位も 1 分です。

対象

誰が Cloud Dataproc クラスタを作成できますか?

Cloud Dataproc は一般提供されているため、Google Cloud Platform のすべてのお客様がご利用になれます。

どのリージョンで Cloud Dataproc を利用できますか?

Cloud Dataproc は、Google Cloud Platform のすべてのリージョンとゾーンでご利用いただけます。

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

Cloud Dataproc ドキュメント
ご不明な点がありましたら、Google のサポートページをご覧ください。