リリースノート

これらのリリースノートは、コア Cloud Dataproc サービスに適用されます。このページを定期的にチェックして、新機能や更新された機能、バグ修正、既知の問題、非推奨になった機能に関するお知らせを確認してください。

Cloud Dataproc 仮想マシンのソフトウェア イメージでサポートされる現在または過去のソフトウェア コンポーネントについては、Cloud Dataproc バージョン リストをご覧ください。

Cloud Dataproc は毎週新しいバージョンがリリースされ、火曜日から始まる 4 日間のロールアウト期間が設けられています。

Cloud Dataproc リリースノートの配信にご登録ください。 登録

重要な相互更新に関する注意事項

  • 今後、初期化アクションドキュメントなどの一部の Cloud Dataproc マテリアル用の GitHub リポジトリをこの統合リポジトリに移行していきます。これにより、GitHub で Cloud Dataproc 関連のすべてのマテリアルが見つけやすくなります。移行中と移行後の一定期間は、両方の場所でコンテンツを利用できるようにします。
  • 2019 年 1 月 4 日より、Cloud Dataproc 1.3 が新しいクラスタのデフォルトのバージョンとなります。

2018 年 12 月 4 日

2018 年 11 月 16 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.102-deb9, 1.1.93-deb9, 1.2.56-deb9, 1.3.16-deb9
  • Dataproc クラスタの作成にあたり、誤って YARN ポートへの公開アクセスが可能になるよう構成されたファイアウォール ルールに起因する潜在的なセキュリティ上の脆弱性が検出された場合、警告が表示されるようになりました。
  • ジョブの詳細を検索すると、submittedBy 項目に誰がジョブを送信したかが表示されます。
  • イメージ 1.3 のみ:
    • Cloud Storage コネクタがバージョン 1.9.10 にアップグレードされました。GitHub リリースノートをご覧ください。

2018 年 11 月 12 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.101-deb9, 1.1.92-deb9, 1.2.55-deb9, 1.3.15-deb9
  • マイナー イメージ バージョンが Debian 9 ベースのイメージにリダイレクトされるようになりました。たとえば、1.2 は 1.2-deb9 を指します。新しい Debian 8 ベースのイメージはありません。
  • ジョブ UUID が公開され、ジョブの実行を一意に識別できるようになりました。
  • Cloud Storage コネクタは、Hadoop DistCp ジョブの fadviseSEQUENTIAL に設定するようになりました。このモードは、ストリーミング読み取り用に最適化されています。この読み取りは、これらのワークロードにとって最も効率的です。
  • Debian で配布されている最新の OpenJDK 8 との互換性がないため、Cloud Dataproc バージョン 1.0 および 1.1 から ALPN boot jar が削除されました。gRPC ユーザーは、netty-tcnative の形式(io.grpc:grpc-netty-shaded など)を使用する必要があります。これはすでに 1.2 と 1.3 に適用されています。
  • ユーザージョブの Linux プロセスの優先度が下がりました。
  • dfs.namenode.datanode.registration.retry-hostname-dns-lookuptrue に設定されるようになりました。
  • ノードごとにスケジュールされる DistCp タスクの最大数を増やしました。これにより、DistCp のパフォーマンスが向上します。
  • イメージ 1.3 のみ:
    • HDFS-13056 が Hadoop 2.9 に移行されました。
    • Cloud Storage コネクタがバージョン 1.9.9 にアップグレードされました。GitHub リリースノートをご覧ください。
    • Presto はオプションのトップレベル コンポーネントとしてサポートされるようになりました。
  • プリエンプティブ ワーカーの CMEK が PD に渡されなかったバグが修正されました。
  • カスタム イメージの PATH の変更によって Cloud Dataproc の初期化が機能しなくなるバグが修正されました。たとえば、デフォルトの Python を Python 3 に変更すると、以前は初期化が機能しなくなっていました。
  • YARN REST API への POST と PUT リクエストが Cloud Dataproc 1.3 の匿名ユーザーによってブロックされたバグが修正されました。これは、org.apache.hadoop.http.lib.StaticUserWebFiltercore-site.xmlhadoop.http.filter.initializers に再度追加することによって修正されました。
  • Cloud Dataproc 1.1、1.2、1.3 の Hive 2 でのロギング警告が修正されました。

2018 年 11 月 2 日

2018 年 11 月 2 日現在、Cloud Dataproc は Debian 8 に基づくイメージのリリースを停止しています。1.X リリースでは、ベース OS として Debian 9 が使用されるようになります。2018 年 11 月 2 日以降、Debian 8 に対応する更新、パッチ、セキュリティ フィックスはリリースされません。

Debian OpenJDK 8 パッケージの最新セキュリティ パッチと互換性を持たないため、2018 年 11 月 9 日に、ALPN boot jar は将来の Cloud Datproc バージョン 1.0 および 1.1 イメージのクラスパスから削除されます。イメージ バージョン 1.2 および 1.3 は gRPC Java クライアントになり、Google API による認証に netty-tcnative を使用する必要があります。netty-tcnative をバンドルする Cloud Bigtable などのクライアントは、grpc-netty-shaded を使用して、Hadoop のクラスパスとの競合を回避できます。詳細については、Apache Spark に関する Java と Scala の依存関係の管理をご覧ください。

2018 年 10 月 26 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.100-deb8, 1.1.91-deb8, 1.2.54-deb8, 1.3.14-deb8, 1.0.100-deb9, 1.1.91-deb9, 1.2.54-deb9, 1.3.14-deb9
  • 正常なデコミッションおよびセカンダリ ワーカーの問題が修正されました。セカンダリ ワーカー グループをスケーリングした直後に、正常なデコミッションを使用してセカンダリ(プリエンプティブ)ワーカーを削除すると、エラーが発生し、「セカンダリ ワーカー グループを Cloud Dataproc の外部で変更することはできません。このクラスタを最近作成または更新した場合は、正常なデコミッションにより、すべてのセカンダリ インスタンスがクラスタに対して参加または離脱できるようになるまで、数分間お待ちください。想定されているセカンダリ ワーカー グループのサイズは x で、実際のサイズは y です」という内容のエラー メッセージが表示される場合があります。
    関連情報:
    • Cloud Dataproc は、セカンダリ ワーカーを管理するマネージド インスタンス グループで listManagedInstances を呼び出し、現在のアクションが DELETING または ABANDONING であるインスタンスをフィルタリングして、結果セットから削除するインスタンスを選択します。Cloud Dataproc では、実行中の VM ではなく、作成中の VM を削除することが優先されます。
    • クラスタを記述するときに、セカンダリ ワーカー グループには DELETING と ABANDONING のインスタンスがまだ存在するように見えます。このため、スケーリングのオペレーションが完了した後でも、グループのターゲット サイズはホスト名のリストのサイズと一致しない可能性があります。インスタンスは、マネージド インスタンス グループから削除されると、リストから削除されます。
  • クラスタを作成するときに「内部サーバーエラー」が発生する問題が修正されました。

2018 年 10 月 22 日

  • Cloud Dataproc が asia-east2 リージョン(香港)で利用できるようになりました。

2018 年 10 月 19 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.99-deb8, 1.1.90-deb8, 1.2.53-deb8, 1.3.13-deb8, 1.0.99-deb9, 1.1.90-deb9, 1.2.53-deb9, 1.3.13-deb9
  • イメージ 1.0 のみ: Stackdriver 指標がパブリッシュされず、それが自動スケーリング機能にも影響していた問題が修正されました。

2018 年 10 月 12 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.98-deb8, 1.1.89-deb8, 1.2.52-deb8, 1.3.12-deb8, 1.0.98-deb9, 1.1.89-deb9, 1.2.52-deb9, 1.3.12-deb9
  • イメージ 1.3 のみ: Cloud Storage コネクタのアップグレード(詳細については、GitHub リポジトリの変更点を参照):
    • Cloud Storage コネクタが 1.9.8 バージョンにアップグレードされました。
  • イメージ 1.0 のみ: Hadoop が 2.7.4 にアップグレードされました。

2018 年 10 月 9 日

2018 年 10 月 5 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.97-deb8, 1.1.88-deb8, 1.2.51-deb8, 1.3.11-deb8, 1.0.97-deb9, 1.1.88-deb9, 1.2.51-deb9, 1.3.11-deb9
  • イメージ 1.1 のみ: Zeppelin が 0.7.3 にアップグレードされました。
  • イメージ 1.1 のみ:イメージ バージョン 1.1.82 以上を使用するクラスタから YARN および HDFS 指標が Stackdriver にパブリッシュされました(HDFS PendingDeletionBlocks)を除く。
  • 最初の初期化アクションのタイムアウトが、その他のすべての初期化アクションにも適用されていた問題が修正されました。
  • クラスタの作成が debconf: DbDriver "config": /var/cache/debconf/config.dat is locked by another process: Resource temporarily unavailable エラーで失敗していた、発生頻度の低い問題が修正されました。

2018 年 9 月 28 日

  • 機能(1.2+) - 新しい dataproc:am.primary_only クラスタ プロパティが有効になり、アプリケーション マスターがプリエンプティブ ワーカーで実行されないようになりました。この機能は、Dataproc 1.2+ クラスタでのみ有効です。このクラスタ プロパティを使用するには、クラスタを作成するときに --properties dataproc:am.primary_only=true を設定します。
  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.97-deb8, 1.1.88-deb8, 1.2.51-deb8, 1.3.11-deb8, 1.0.97-deb9, 1.1.88-deb9, 1.2.51-deb9, 1.3.11-deb9
  • イメージ 1.3 のみ: Cloud Storage コネクタのアップグレード(詳細については、GitHub リポジトリの変更点を参照):
    • Cloud Storage コネクタが 1.9.7 バージョンにアップグレードされました。
  • イメージ 1.0~1.2 のみ: Cloud Storage と BigQuery コネクタのアップグレード(詳細については、GitHub リポジトリの変更点を参照):
    • Cloud Storage コネクタが 1.6.10 バージョンにアップグレードされました。
    • BigQuery コネクタが、0.10.11 バージョンにアップグレードされました。
  • Spark ヒストリ サーバーが起動できない問題が修正されました。
  • クールダウン期間が 1,000 回に達した後に自動スケーリングが停止する問題が修正されました。

2018 年 9 月 25 日

2018 年 9 月 21 日

  • Cloud Dataproc クラスタで Apache Beam サービスをセットアップする Beam on Flink on Dataproc 初期化アクション(ベータ版)を、GitHub で発表しました。

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.95-deb8, 1.1.86-deb8, 1.2.49-deb8, 1.3.9-deb8, 1.0.95-deb9, 1.1.86-deb9, 1.2.49-deb9, 1.3.9-deb9
  • ログインシェル内で実行されるように初期化アクションを変更し、環境プロファイルの変更が後続の init アクションに反映されるようにしました。
  • イメージ 1.3 のみ: Cloud Storage コネクタのアップグレード(詳細については、GitHub リポジトリの変更点を参照):
    • Cloud Storage コネクタが 1.9.6 バージョンにアップグレードされました。
  • イメージ 1.0~1.2 のみ: Cloud Storage と BigQuery コネクタのアップグレード(詳細については、GitHub リポジトリの変更点を参照):
    • Cloud Storage コネクタが 1.6.9 バージョンにアップグレードされました。
    • BigQuery コネクタが 0.10.10 バージョンにアップグレードされました。

  • v1beta2 API を使用してクラスタ オペレーションを実行した後に、オペレーションで Get / List を呼び出すと、gRPC ベースのクライアントが失敗する可能性のある問題が修正されました。

2018 年 9 月 14 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.94-deb8, 1.1.85-deb8, 1.2.48-deb8, 1.3.8-deb8, 1.0.94-deb9, 1.1.85-deb9, 1.2.48-deb9, 1.3.8-deb9
  • Flink 1.5.0HBase 1.3.21.3-deb8 イメージに追加しました。
  • Stackdriver で Hadoop 指標の詳細度と精度を改善しました。
  • 1.3-deb9 イメージで Hue サービスが起動しない問題が修正されました。

2018 年 8 月 31 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.93-deb8, 1.1.84-deb8, 1.2.47-deb8, 1.3.7-deb8, 1.0.93-deb9, 1.1.84-deb9, 1.2.47-deb9, 1.3.7-deb9
  • コネクタの init アクションを使用しているときに、ワーカーがクラスタに参加できない問題が修正されました。
  • クラスタの作成後、最初の 1 分間に Hive ジョブが送信された場合、Hive ジョブが失敗する問題が修正されました。
  • E: Could not get lock /var/lib/dpkg/lock エラーによる init アクションの不安定さが修正されました。

2018 年 8 月 30 日

2018 年 8 月 24 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.92-deb8, 1.1.83-deb8, 1.2.46-deb8, 1.3.6-deb8, 1.0.92-deb9, 1.1.83-deb9, 1.2.46-deb9, 1.3.6-deb9
  • イメージ 1.0~1.2 のみ: Cloud Storage と BigQuery コネクタのアップグレード(詳細については、GitHub リポジトリの変更点を参照):
    • Cloud Storage コネクタがバージョン 1.6.8 にアップグレードされました。
    • BigQuery コネクタがバージョン 0.10.9 にアップグレードされました。
  • イメージ 1.3 のみ: Cloud Storage コネクタがバージョン 1.9.5 にアップグレードされました(詳細については、GitHub リポジトリの変更点を参照)。
  • Debian 9 を使用するイメージ 1.3 のみ:
    • Spark が 2.3.1 にアップグレードされます。
    • HBase 1.3.2 が追加されます。
    • Flink 1.5.0 が追加されます。
  • ASM JAR の競合によって Zeppelin がクラッシュする場合がある、Dataproc イメージ バージョン 1.2 での問題が修正されました。
  • Spark で ORC ファイル フォーマットでの Snappy 圧縮が壊れる Dataproc イメージ バージョン 1.3 の問題が修正されました。これは、SPARK-24018 を解決する間に、イメージ バージョン 1.3.3 で導入された回帰でした。この修正の後、Parquet と ORC は両方とも Snappy 圧縮を使用できるようになりました。

2018 年 8 月 16 日

  • 新しい Debian 9 ベースのイメージが、イメージ バージョン 1.0~1.3 で使用できるようになりました。これらには、既存のバージョン トラックに「-deb9」を追加することでアクセスできます(例: 1.2-deb9)。
  • 2018 年 11 月 2 日まで、既存の 1.X イメージ バージョンでは debian 8 イメージが使用されます(たとえば、1.3 は 1.3.Y-deb8 に解決されます)。2018 年 11 月 2 日に、既存の 1.X イメージ バージョンは Debian 9 イメージに切り替えられます。2018 年 11 月 2 日以降、新しいイメージ リリースで Debian 8 は使用されなくなります。
  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.91-deb8, 1.0.91-deb9, 1.1.82-deb8, 1.1.82-deb9, 1.2.45-deb8, 1.2.45-deb9, 1.3.5-deb8, 1.3.5-deb9
  • セキュリティ フィックス: すべてのイメージ バージョンで Linux Kernel 4.9 をインストールし、すべての新しい Debian 8 イメージで CVE-2018-3590CVE-2018-3591 に対するセキュリティ フィックスを取得してください。

2018 年 8 月 10 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.90, 1.1.81, 1.2.45, 1.3.5
  • すべての Systemd サービスに対して、オープン ファイルの最大数を 65535 に設定しました。

2018 年 8 月 3 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.89, 1.1.80, 1.2.44, 1.3.4
  • HA クラスタで、hadoop.security.token.service.use_ip が false に設定されるようになりました。
  • Hadoop が 2.8.4(Dataproc 1.2)にアップグレードされました(Dataproc 1.2)。
  • Hive ジョブが 1.3 HA クラスタで失敗する問題が修正されました。
  • mapreduce.jobhistory.recovery.store.fs.uri のデフォルト値の設定を ${hadoop.tmp.dir}/mapred/history/recoverystore に戻す修正を行いました。これは、7 月 6 日のリリースの一部として、間違って hdfs:///mapred/history/recoverystore に設定されたものです。
  • Dataproc 1.2 および 1.3 で、ZOOKEEPER-1576 を ZooKeeper 3.4.6 にバックポートしました。このバグにより、いずれかのサーバーが解決できなかった場合、Zookeper の接続が失敗していました。

2018 年 7 月 31 日

  • Cloud Dataproc の自動スケーリング(パブリック アルファ版)を発表しました。この機能により、ワークロードの要件に合わせて、クラスタが自動的にサイズ調整されます。
  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.3.3
  • 1.3 イメージのみの変更点:
    • Tez ジョブでノードのブラックリスト処理が無効になりました(tez.am.node-blacklisting.enabled=false を設定)。これは、デフォルトで Tez で実行されるすべての Hive ジョブに影響を及ぼします。
    • spark-shell(SPARK-24018)および Zeppelin で、ネイティブ Snappy 圧縮が壊れる問題が解決されました。
    • ANACONDA オプション コンポーネントが選択されている場合、gsutil と gcloud がクラスタ VM で機能しない問題が修正されました。

2018 年 7 月 18 日

2018 年 7 月 13 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.88, 1.1.79, 1.2.43, 1.3.2
  • Cloud Dataproc で、生成されたクラウド監査ログにリソースのロケーションを追加できるようになりました。

2018 年 7 月 10 日

  • Cloud Dataproc が us-west2 リージョン(ロサンゼルス)で利用できるようになりました。

2018 年 7 月 6 日

  • Cloud Dataproc オプション コンポーネントのアルファ版のリリースを発表しました。この機能を使用して、ユーザーは新しい Dataproc クラスタを作成するときに、インストールするコンポーネントをさらに指定できます。
  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.87, 1.1.78, 1.2.42, 1.3.1
  • 1.3 イメージのみの変更点:
    • ドライバごとの Spark ウェブ UI が、再度有効になりました。
    • デフォルトで、HCatalog ライブラリがインストールされます。
  • MapReduce ジョブヒストリ サーバーのリカバリがデフォルトで有効になりました。
  • resolveip ユーティリティを使用した HA クラスタ作成における競合状態が解決されました。

2018 年 6 月 29 日

  • Cloud Dataproc 1.3 - Cloud Dataproc の新しいイメージ バージョンが一般提供になりました。
    • 2018 年 7 月 30 日以降、イメージ バージョン 1.3 が新しいクラスタのデフォルト イメージ バージョンになります。詳細については、Cloud Dataproc のバージョン リストをご覧ください。
    イメージ バージョン 1.3 には、以下の変更が含まれています。
    • Apache Spark がバージョン 2.3.0 に更新されました。
    • Apache Hadoop がバージョン 2.9.0 に更新されました。
    • Apache Hive がバージョン 2.3.2 に更新されました。
    • Hive は、デフォルトで Apache Tez で実行されます。
    • デフォルトで、YARN Timeline Server が有効になります。
  • Cloud Dataproc カスタム イメージ(以前はベータ版)の一般提供(GA)リリースを発表しました。この機能により、ユーザーは事前にインストールされたパッケージで、カスタム イメージを作成および保存できます。これらのカスタム イメージを使用して、Cloud Dataproc クラスタを作成できます。
  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.86, 1.1.77, 1.2.41, 1.3.0
  • 1.3 イメージのみの変更点:
    • Cloud Storage コネクタがバージョン 1.9.0 にアップグレードされました(GitHub リポジトリの変更点を参照)。
    • NFS カーネル サーバーはインストールされなくなりました。

2018 年 6 月 27 日

2018 年 6 月 22 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.85, 1.1.76, 1.2.40
  • Cloud Storage と BigQuery のコネクタを 1.0.85、1.1.76、1.2.40 でアップグレードしました(詳細については、GitHub リポジトリの変更点を参照)。
    • Cloud Storage コネクタがバージョン 1.6.7 にアップグレードされました。
    • BigQuery コネクタがバージョン 0.10.8 にアップグレードされました。

2018 年 6 月 15 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.84, 1.1.75, 1.2.39
  • 初期化アクションの出力を、Stackdriver で google.dataproc.startup ログの下で入手できるようになりました。
  • Cloud Dataproc では、2018 年 2 月 14 日よりも前に作成された大部分のイメージに基づいて新しいクラスタを作成する操作が拒否されるようになります。お客様はマイナー バージョンを変更する必要はありませんが、このグループに属するサブマイナー バージョンを指定する場合、より新しいサブマイナー バージョンが必要になります(たとえば、新しいクラスタに 1.1.39 は使用できないが、1.1 と 1.1.73 は有効であるなど)。

2018 年 6 月 11 日

  • Cloud Dataproc が europe-north1 リージョン(フィンランド)で使用できるようになりました。

2018 年 6 月 8 日

  • Google Cloud SDK 203.0.0(2018 年 5 月 29 日)
    • 変更点は以下のとおりです。
      • gcloud beta dataproc workflow-templates instantiate-from-file が追加され、ワークフロー テンプレートを YAML ファイルから直接インスタンス化できるようになりました。
      • gcloud beta dataproc clusters create-from-file が追加され、クラスタを YAML ファイルから直接作成できるようになりました。
    • 詳しくは、Cloud SDK リファレンス ドキュメントをご覧ください。
  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.83, 1.1.74, 1.2.38
  • Cloud Dataproc ジョブ API を経由して Hive ジョブを高可用性クラスタに送信する際に渡される jdbc 接続文字列が変更されました。新しい接続文字列は HiveServer2 の高可用性を利用しています。
  • WorkflowTemplates はジョブの失敗を正しく報告するようになりました。

2018 年 5 月 28 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.82, 1.1.73, 1.2.37
  • Hive Server 2 は、3 つのマスターすべてを高可用性モードで実行します。
  • プレビュー画像について次のように変更されました(Dataproc 1.3)。
    • 最小で 15 GB のブートディスク サイズが必要です。
    • NameNode サービス RPC ポートが 8040 から 8051 に変更されました。
    • SPARK_HOME 環境変数がグローバルに設定されるようになりました。
  • ALPN boot jar が 1.2 から削除されました。この回帰は 1.2.35 で導入されました。

2018 年 5 月 21 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.81, 1.1.72, 1.2.36
  • 1.0.81、1.1.72、1.2.36 で Cloud Storage と BigQuery コネクタを更新しました(詳しくは、GitHub リポジトリで変更点をご確認ください)。
    • Cloud Storage コネクタがバージョン 1.6.6 にアップグレードされました。
    • BigQuery コネクタがバージョン 0.10.7 にアップグレードされました。
  • Cloud Dataproc 1.3 プレビュー イメージのバージョンが新しくなりました。
    • BigQuery コネクタが画像から削除されました。代わりに、ジョブには jar がある BigQuery コネクタを使用する必要があります。
    • Cloud Dataproc 1.3 はサポートされていません。
    • 詳しくは Cloud Dataproc バージョン リストをご覧ください。
  • Hive Metastore は、高可用性モードでは 3 つのマスターすべてで実行されるよう構成されます。
  • アクセラレータの割り当ての検証の誤りが発生する問題を解決しました。たとえば、クラスタの作成時に、NVIDIA_K80_GPUS の割り当てが十分であっても、割り当て不足エラーが発生して失敗することがあります。

2018 年 5 月 14 日

  • New Cloud Dataproc 1.3 のイメージ トラックをプレビューで利用できます。
    • 変更点は以下のとおりです。
      • Spark 2.3、Hadoop 2.9、Hive 2.3、Pig 0.17、Tez 0.9
      • デフォルトで Tez で Hive を使用できます(Tez の初期化処理は必要ありません)。
    • Cloud Dataproc 1.3 は正式にはサポートされていません。
    • 詳しくは Cloud Dataproc バージョン リストをご覧ください。

2018 年 5 月 4 日

  • クラスタから離脱したプリエンプティブ ワーカーがノード メンバーシップ ファイルからクリーンアップされない問題を解決しました。

2018 年 4 月 27 日

2018 年 4 月 20 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.77, 1.1.68, 1.2.32
  • プレビュー イメージの HA クラスタで Namenode HTTP ポートが 50070 から 9870 に変更されました。たとえば、WebHDFS には http://clustername-m-0:9870/webhdfs/v1/ でアクセスできます。これは、Dataproc 1.2 以降の標準および単一ノードクラスタと一貫しています。Dataproc 1.0 および 1.1 クラスタは、すべてのクラスタモードでポート 50070 を引き続き使用します。
  • Cloud Storage コネクタと BigQuery コネクタをアップグレードしました(詳細は、GitHub リポジトリの変更点をご覧ください)。
    • Cloud Storage コネクタがバージョン 1.6.5 にアップグレードされました
    • BigQuery コネクタがバージョン 0.10.6 にアップグレードされました
  • マネージド インスタンス グループのサイズを変更する際にエラーによりクラスタが ERROR 状態になることがある問題を修正しました。
  • Pig ジョブで発生することがある NullPointerException を修正するために、PIG-4967MAPREDUCE-6762 が Cloud Datproc イメージ バージョン 1.2 にバックポートされました。
  • クラスタをダウンスケーリングするオペレーションの短い期間中に Cloud Dataproc エージェントを再起動するとデータノードがデコミッションされる可能性があるという、特殊な問題を修正しました。

2018 年 4 月 13 日

  • Cloud Dataproc エージェントが HDFS 構成の初期化に失敗し、その際に報告する DataNotes レポートが少なすぎるというまれな問題を修正しました。
  • Cloud Dataproc で HDFS デコミッションの完了を判断する方法を修正しました。

2018 年 4 月 6 日

2018 年 3 月 30 日

2018 年 3 月 23 日

2018 年 3 月 22 日

  • ベータ版で Cloud Dataproc のジョブ、オペレーション、ワークフロー テンプレートに対して詳細な IAM 権限を利用できるようになりました。

2018 年 3 月 16 日

  • 高可用性モードの Hive Server 2 を使用しないマスターノードを Hive ジョブが参照することがある問題を修正しました。GitHub の問題を解決します。
## 2018 年 3 月 9 日
  • ZooKeeper がデータ ディレクトリを定期的にクリーンアップするように構成されない問題を修正しました。

2018 年 3 月 5 日

  • Cloud Dataproc カスタム イメージ - ベータ版。ユーザーが、パッケージがプリインストールされたカスタム イメージを作成して保存できるようになりました。このカスタム イメージを使用して、Cloud Dataproc クラスタを作成できます。
  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.70, 1.1.61, 1.2.25
  • オプションの requestId フィールドが、CreateCluster、UpdateCluster、DeleteCluster、SubmitJob に追加されました。requestId フィールドを使用すると、重複したリクエストの処理を回避できます(以前の requestId と同じ requestId を持つ後続リクエストは無視されます)。
  • 大規模なマスターノードの実行時における、MapReduce と Spark History Server のヒープサイズが増大されました。
  • 初期化アクションの実行がエラー [errno 26 Text file is busy] で失敗する問題を修正しました。

2018 年 2 月 23 日

2018 年 2 月 16 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.68, 1.1.59, 1.2.23
  • クラスタラベルを更新すると、マスター ワーカー VM とプライマリ ワーカー VM に接続されている PD 上のラベルも更新されるようになりました。
  • 複数のクラスタの削除リクエストが進行中の場合に、クラスタの削除に時間がかかる問題を修正しました。
  • ロギングが失敗した場合にジョブがスタックする問題を修正しました。
  • dataproc エージェントが HDFS データノードのデコミッションがスタックしていると誤って判断した場合に、クラスタのダウンサイズ オペレーションが失敗する問題を修正しました。
  • dataproc エージェントが誤って 2 つの YARN 指標を報告する問題を修正しました。

2018 年 2 月 9 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.67, 1.1.58, 1.2.22
  • 高可用性モード機能が公開リリースに含まれるようになりました(以前はベータ版)。高可用性モードを有効にして Cloud Dataproc クラスタを作成できます。これは、クラスタを作成する場合のオプション機能です。高可用性モードでは、Cloud Dataproc クラスタで 3 つのマスターノードを作成できます。これにより、単一ノードで障害が起きたり、ノードが再起動したりした場合でも、HDFS 高可用性と YARN 高可用性の両方で YARN と HDFS のオペレーションを中断なく行うことができます。

    この機能は、gcloud コマンドライン ツール、Cloud Dataproc REST APIGoogle Cloud Platform Console を使用してクラスタを作成するときに利用できます。詳細については、高可用性モードをご覧ください。

  • 更新リクエストで実行する作業がない場合、クラスタの更新オペレーションから DONE オペレーションが返されるようになりました。
  • 手動で削除されたクラスタが原因でワークフローがスタックする場合がある問題を修正しました。

2018 年 2 月 2 日

  • 新しい接頭辞による hadoop-env、mapred-env、spark-env、yarn-env dataproc プロパティの設定がサポートされるようになりました。注: 新しいサブマイナー イメージ バージョンにのみ適用されます。
  • Google Cloud Platform Console の [クラスタの詳細] ページに、クラスタの Stackdriver ログにリンクするボタンが追加されました。
  • 不十分な数の Datanode が報告される Hadoop の問題を修正しました。
  • 多数の最終ステージ(reduce)タスクを持つジョブに対する Cloud Storage での commitJob の処理速度が速くなりました。

2018 年 1 月 10 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.63, 1.1.54, 1.2.18
  • commitJob の自動再試行(MAPREDUCE-5485 で導入)が、デフォルトで有効化されるようになりました。mapreduce.fileoutputcommitter.failures.attempt1 に設定すると、以前の動作に戻ります。
  • CVE-2017-5754 のパッチ(「Meltdown」)が、DSA-4082-1 で参照されるその他のセキュリティ パッチとともに適用されました。
  • ローカル SSD が、正常でないホスト移行後の起動時に適切に再フォーマットされるようになりました。以前は、ローカル SSD を使用するノードで正常でないホストの移行が行われると、ワーカーが機能しなくなっていました。
  • 1 つ以上のマスターの起動が遅れた場合の、高可用性クラスタの起動の信頼性が向上しました。

2017 年 12 月 20 日

  • Google Cloud Dataproc の正常なデコミッション機能が公開リリースに含まれるようになりました(以前はベータ版)。正常なデコミッションにより、進行中のジョブを中断しなくてもクラスタからノードを削除できるようになりました。ユーザーが指定したタイムアウトにより、ノードを強制的に削除する前に、進行中のジョブの完了を待機する時間が指定されます。この機能は、gcloud コマンドライン ツール、Cloud Dataproc REST APIGoogle Cloud Platform Console を使用してクラスタを更新するときに利用できます。詳細については、正常なデコミッションをご覧ください。
  • 単一ノードクラスタ機能が公開リリースに含まれるようになりました(以前はベータ版)。単一ノードクラスタは、マスターとワーカーの両方として機能するノードを 1 つだけ備えた Cloud Dataproc クラスタです。単一ノードクラスタは、開発、教育、軽量データ サイエンスなど、多くのアクティビティに役立ちます。

    この機能は、gcloud コマンドライン ツール、Cloud Dataproc REST APIGoogle Cloud Platform Console を使用してクラスタを作成するときに利用できます。詳細については、単一ノードクラスタをご覧ください。

2017 年 12 月 8 日

  • 再実行可能なジョブ機能が公開リリースに含まれるようになりました(以前はベータ版)。Cloud Dataproc ジョブに、失敗したジョブを再実行するためのオプション設定が追加されました。再実行するジョブを設定するときに、1 時間あたりの最大再試行回数を指定します(最大値は 10)。再実行可能なジョブを使用すると、一般的な種類のジョブ障害を緩和でき、実行時間の長いジョブやストリーミング ジョブに特に役立ちます。この機能は、gcloud コマンドライン ツール、Cloud Dataproc REST APIGoogle Cloud Platform Console を使用してジョブを送信するときに利用できます。詳細については、再実行可能なジョブをご覧ください。

2017 年 11 月 17 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.58, 1.1.49, 1.2.13
  • タグの使用中にオペレーションやジョブのリスト オペレーションのパフォーマンスを向上させる新しい最適化機能を追加しました。

2017 年 11 月 10 日

  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.57, 1.1.48, 1.2.12
  • Apache Hadoop は、Cloud Dataproc 1.2 イメージで 2.8.2 にアップグレードされました。

2017 年 11 月 1 日

  • ワークフロー クラスタ セレクタを使用しているときに、複数のクラスタが指定したラベルと一致する場合、Cloud Dataproc は YARN メモリの空き容量が最大のクラスタを選択します。この変更により、ラベルが一致するクラスタをランダムに選択する従来の動作が置き換えられます。
  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.56, 1.1.47, 1.2.11
  • エラー メッセージがさらに便利になるように、HTTP 404409 エラーに完全なリソース名が表示されるようになりました。
  • ワークフロー テンプレートがリソース名の /locations/ を処理できないバグを修正しました。

2017 年 10 月 31 日

Cloud Dataproc が asia-south1 リージョン(インドのムンバイ)で使用できるようになりました。

2017 年 10 月 24 日

2017 年 10 月 17 日

  • Cloud Storage へのアクセス時に HTTP キープアライブによって java.lang.NullPointerException: ssl == null エラーが発生していたバグが修正されました。
  • Apache Oozie の初期化アクションが Cloud Dataproc 1.2 で動作するように修正されました。

2017 年 10 月 11 日

  • Cloud Dataproc クラスタの fluentd が再構成され、複数行のエラー メッセージを連結できるようになりました。これにより、エラー メッセージを見つけやすくなります。
  • Cloud Dataproc ワークフローで作成されたクラスタで、自動ゾーン プレースメントを使用できるようになりました。
  • このリリースから、リリースノートに Cloud Dataproc イメージのサブマイナー リリースが記載されるようになりました。
  • Cloud Dataproc イメージの新しいサブマイナー バージョン - 1.0.53, 1.1.44, 1.2.8
  • Cloud Dataproc 1.1 で Hive 2.1 の ORC ファイルを読み取るバグを修正しました。この問題を解決するため、HIVE-17448 が Hive 2.1 にパッチ適用されました。
  • ハイメモリ マシンとローメモリ ワーカーがあるクラスタで Spark memoryOverhead が適切に設定されない問題を修正しました。memoryOverhead は、これらの種類のクラスタに対して適切に設定されるようになりました。
  • Cloud Dataproc エージェントで、送信された順にジョブを開始するためのロジックが改善されました。
  • HUE 初期化アクションは、Cloud Dataproc 1.2 で動作するように修正されました。
  • 初期化アクションの失敗が正しく報告されないバグを修正しました。

2017 年 10 月 4 日

  • Cloud Dataproc ワークフロー テンプレート(ベータ版)- この新しい Cloud Dataproc リソースを使用すると、グラフにまとめるジョブをエフェメラル クラスタまたは既存のクラスタで実行できます。テンプレートでは、クラスタの作成やジョブの実行を行うことができ、さらにワークフローの終了時にクラスタを削除できます。グラフの進捗状況は、1 回のオペレーションをポーリングすることでモニタリングできます。詳細については、ワークフロー テンプレート - 概要を参照してください。

2017 年 9 月 27 日

  • Cloud Dataproc Granular IAM ベータ版 - IAM の役割とそれに対応する権限をクラスタ単位で設定できるようになりました。これにより、Cloud Dataproc クラスタごとに異なる IAM 設定を行うことができます。詳細については、Cloud Dataproc IAM のドキュメントをご覧ください。
  • Cloud Dataproc 1.2 で Apache Pig と Apache Tez が連携できないバグを修正しました。この修正は、以前のリリースで Cloud Dataproc 1.1 に適用されています。
  • Hive スキーマの検証に関するバグを修正しました。この修正は、具体的には HIVE-17448HIVE-12274 に対応しています。

2017 年 9 月 19 日

  • 新しいサブマイナー イメージ バージョン - 1.0、1.1、1.2 の最新のサブマイナー イメージ バージョンはそれぞれ 1.0.511.1.421.2.6 に対応します。

2017 年 9 月 6 日

  • クラスタのスケジュール設定された削除ベータ版 - Cloud Dataproc クラスタの作成時に、スケジュールされた削除ポリシーを設定できるようになりました。一定期間の経過後または特定の時間、あるいは非アクティブな期間が一定時間継続した後にクラスタを削除するようにスケジュールを設定できます。詳細については、クラスタのスケジュール設定された削除をご覧ください。

2017 年 9 月 5 日

Cloud Dataproc が southamerica-east1 リージョン(ブラジルのサンパウロ)で使用できるようになりました。

2017 年 8 月 18 日

  • 新しいサブマイナー イメージ バージョン - 1.0、1.1、1.2 の最新のサブマイナー イメージ バージョンはそれぞれ 1.0.491.1.401.2.4 に対応します。
  • すべての Cloud Dataproc クラスタに、基本となる Google Compute Engine リソースから伝播した goog-dataproc-cluster-name ラベルが設定されます。このラベルは、エクスポートされた請求データで Cloud Dataproc 関連のコスト合計を調べる場合に使用できます。
  • PySpark ドライバのプロセス グループ ID が変更され、Cloud Dataproc エージェントが動作に問題のあるジョブやキャンセルされたジョブを正常にクリーンアップできるようになりました。
  • クラスタラベルとセカンダリ ワーカーの数を 1 回の更新オペレーションで更新すると、更新オペレーションがスタックしてクラスタが削除できなくなるバグを修正しました。

2017 年 8 月 8 日

本日より、Cloud Dataproc 1.2 が新しいクラスタのデフォルトのバージョンとなります。古いバージョンの Cloud Dataproc を使用するには、クラスタの作成時に手動でバージョンを選択する必要があります。

2017 年 8 月 4 日

正常なデコミッション - Cloud Dataproc 1.2 以降を実行している Cloud Dataproc クラスタで、正常な YARN デコミッションがサポートされるようになりました。正常なデコミッションにより、進行中のジョブを中断しなくてもクラスタからノードを削除できるようになりました。ユーザーが指定したタイムアウトにより、ノードを強制的に削除する前に、進行中のジョブの完了を待機する時間が指定されます。Cloud Dataproc のスケーリングのドキュメントでは、正常なデコミッションを有効にする方法を説明しています。

Cloud Dataproc 1.2 の Apache Hadoop がバージョン 2.8.1 に更新されました。

2017 年 8 月 1 日

Cloud Dataproc が europe-west3 リージョン(ドイツのフランクフルト)で使用できるようになりました。

2017 年 7 月 21 日

  • Cloud Dataproc 1.2 - Cloud Dataproc の新しいイメージ バージョン 1.2 が一般提供になりました。2 週間後には新しいクラスタのデフォルトのイメージ バージョンとなります。詳細については、Cloud Dataproc バージョン リストを参照してください。この新しいイメージ バージョンにはいくつかの重要な変更点があります。
    • Apache Spark がバージョン 2.2.0 に更新されました。
    • Apache Hadoop がバージョン 2.8.0 に更新されました。
    • Cloud Storage コネクタによって使用されるデフォルトのセキュリティ(SSL)プロバイダが、Conscrypt ベースのプロバイダに変更されました。この変更により、SSL オペレーションに対して CPU 利用効率の向上が見込まれます。多くの場合、この変更によって、Cloud Dataproc と Cloud Storage の間で行われる読み取りと書き込みのパフォーマンスが向上します。
    • Cloud Storage の報告されているブロックサイズが 128MB になりました。
    • Hadoop と Spark のメモリ構成が、両方とも性能と安定性が向上するように調整されました。
    • HDFS デーモンは、HDFS-9427 で規定されている新しいポートの割り当てに従い、エフェメラル ポートを使用しなくなりました。これにより、デーモンの起動の失敗原因となることがある、まれに発生する特定の競合状態が解消されます。
    • YARN キャパシティ スケジューラで YARN-3319 のフェア順序指定がデフォルトで有効になりました。

Cloud Dataproc 1.2 リリース以降、Cloud Dataproc イメージに ALPN boot jar は組み込まれていません。Spark ジョブの破損を防ぐため、Cloud Bigtable クライアント バージョンをアップグレードして、boringssl-static を Cloud Dataproc ジョブにバンドルしてください。初期化アクション リポジトリには、以前の(非推奨の)jetty-alpn boot jar を含める動作に戻すための初期化アクションが含まれています。この変更の影響を受けるのは、Cloud Bigtable または Cloud Dataproc の他の Java gRPC クライアントを使用している場合に限ります。

2017 年 7 月 11 日

2017 年 6 月 28 日

  • リージョン エンドポイントの一般提供 - Cloud Dataproc のリージョン エンドポイントが一般提供になりました。
  • 自動ゾーンベータ版 - ゾーンを選択するのではなく、新しいクラスタを作成する場合、Cloud Dataproc の自動ゾーン機能を使用すると、クラスタを配置するために選択したリージョン内のゾーンを Cloud Dataproc が選択できるようになります。
  • Conscrypt for Cloud Storage コネクタ - Cloud Dataproc のプレビュー イメージの Cloud Storage コネクタによって使用されるデフォルトのセキュリティ(SSL)プロバイダが、Conscrypt ベースのプロバイダに変更されました。この変更により、SSL オペレーションに対して CPU 利用効率の向上が見込まれます。多くの場合、この変更によって、Cloud Dataproc と Cloud Storage の間で行われる読み取りと書き込みのパフォーマンスが向上します。

2017 年 6 月 26 日

  • Cloud Dataproc API の v1alpha1v1beta1 は非推奨になり、使用できなくなりました。代わりに、現在の v1 API を使用してください。

2017 年 6 月 20 日

Cloud Dataproc が australia-southeast1 リージョン(シドニー)で使用できるようになりました。

2017 年 6 月 6 日

Cloud Dataproc が europe-west2 リージョン(ロンドン)で使用できるようになりました。

2017 年 4 月 28 日

Cloud Storage コネクタと BigQuery コネクタのアップグレード - Cloud Storage コネクタが gcs-connector-1.6.1 にアップグレードされ、BigQuery コネクタが bigquery-connector-0.10.2 にアップグレードされました。詳細については、GitHub リポジトリで Cloud Storage または BigQuery の変更点をご覧ください。

Cloud Dataproc API の v1alpha1v1beta1 は非推奨になり、使用できなくなりました。代わりに、現在の v1 API を使用してください。

2017 年 4 月 21 日

2017 年 4 月 12 日

Cloud Dataproc 1.1 の Apache Hive がバージョン 2.1.1 に更新されました。

2017 年 4 月 7 日

Cloud Dataproc ワーカーの IAM 役割 - Dataproc/Dataproc Worker という Cloud Dataproc の新しい IAM 役割が追加されました。この役割はサービス アカウントで使用するためのものです。

Conscrypt セキュリティ プロバイダは一時的にデフォルトからオプションのセキュリティ プロバイダに変更されました。この変更は、一部のワークロードとの互換性に問題があるために行われました。Conscrypt プロバイダは、Cloud Dataproc 1.2 のリリース時に再度デフォルトとなる予定です。それまでの間は、クラスタの作成時に次のように Cloud Dataproc プロパティを指定すると Conscrypt プロパティを有効にできます。

--properties dataproc:dataproc.conscrypt.provider.enable=true

2017 年 3 月 30 日

Conscrypt for Cloud Storage コネクタ - Cloud Storage コネクタによって使用されるデフォルトのセキュリティ(SSL)プロバイダが、Conscrypt ベースのプロバイダに変更されました。この変更により、SSL オペレーションに対して CPU 利用効率の向上が見込まれます。多くの場合、この変更によって、Cloud Dataproc と Cloud Storage の間で行われる読み取りと書き込みのパフォーマンスが向上します。

Cloud Dataproc クラスタに適用されるユーザーラベルの更新が、マネージド インスタンス グループ テンプレートに適用されるようになります。マネージド インスタンス グループにはプリエンプティブ仮想マシンが含まれるため、プリエンプティブ VM にラベルの更新が適用されます。

2017 年 3 月 17 日

2 月 9 日のリリースノートでお知らせしたように、Cloud Dataproc の Cloud 監査ログが dataproc_cluster リソースタイプに対して生成されなくなります。このリリース以降、Cloud 監査ログは新しい cloud_dataproc_cluster リソースタイプに対して生成されます。

gcloud コマンドで、gcloud 固有の引数とこれらのコマンドの引数の間に、2 個のダッシュ(--)が必要になります。たとえば、以前は次のようなコマンドを使用していました。

gcloud dataproc jobs submit spark --cluster example-cluster \
--class sample_class --jars jar_file 1000
このコマンドの新しい形式では、前後にスペースの付いた 2 個のダッシュが必要です。
gcloud dataproc jobs submit spark --cluster example-cluster \
--class sample_class --jars jar_file -- 1000

2017 年 3 月 7 日

  • ユーザーラベル - Cloud Dataproc リソースでのユーザーラベルが一般提供になりました。Cloud Dataproc クラスタおよびジョブで、ラベルを追加および更新できます。ラベルは、原価計算、作業配分、テストなどの状況で役立ちます。
  • クラスタへの GPU の接続ベータ版 - Cloud Dataproc クラスタで Compute Engine GPU がサポートされるようになりました。クラスタでは、1~8 個の GPU をマスターノードとワーカーノードに接続できます。これらの GPU は、クラスタ上のアプリケーション(Apache Spark など)で使用できます。GPU の接続は、一部のタイプのデータ処理ジョブにメリットがあります。

2017 年 3 月 1 日

  • Restartable ジョブベータ版 – Cloud Dataproc ジョブに、失敗したジョブを再実行するためのオプション設定が追加されました。再実行するジョブを設定するときに、1 時間あたりの最大再試行回数を指定します。再実行可能なジョブを使用すると、一般的な種類のジョブ障害を緩和でき、実行時間の長いジョブやストリーミング ジョブに特に役立ちます。
  • 単一ノードクラスタベータ版 - 単一ノードクラスタは、マスターとワーカーの両方として機能するノードを 1 つのみ備えた Cloud Dataproc クラスタです。単一ノードクラスタは、開発、教育、軽量データ サイエンスなど、多くのアクティビティに役立ちます。

2017 年 2 月 9 日

  • Cloud Dataproc Stackdriver Logging のログの変更
    • 新しいイメージでは、クラスタログはリソースタイプ cloud_dataproc_cluster(これまでは dataproc_cluster)として Stackdriver にエクスポートされるようになります。
    • 3 月 9 日のリリースまで、Cloud 監査ログは cloud_dataproc_clusterdataproc_cluster(非推奨)の両方について生成されます。
    • 新しいイメージの Stackdriver ログには、クラスタ名またはクラスタ インスタンスでのログのフィルタリングに便利なように、最初にクラスタ名、次にクラスタ UUID によって、インデックスが作成されます。
  • Cloud Dataproc Stackdriver のモニタリングの変更
  • Cloud Dataproc のユーザーラベルの変更

2017 年 1 月 19 日

  • Cloud Dataproc 1.2 のプレビュー - preview image が更新され、予定されていた Cloud Dataproc 1.2 のリリースが反映されました。このイメージには Apache Spark 2.1 と Apache Hadoop 2.8-SNAPSHOT が含まれています。Hadoop 2.8 の正式リリース後、リリース候補版が利用可能になると、このプレビュー イメージを使用することで Dataproc 1.2 から Hadoop 2.8 にアクセスできるようになります。

2017 年 1 月 5 日

  • Cloud Storage コネクタと BigQuery コネクタのアップグレード - Cloud Storage コネクタが gcs-connector-1.6.0 にアップグレードされ、BigQuery コネクタが bigquery-connector-0.10.1 にアップグレードされました。詳細については、GitHub リポジトリで Cloud Storage または BigQuery の変更点をご覧ください。
  • diagnose コマンドが更新され、エージェントと生成ドライバの jstack 出力が追加されました。

2016 年 12 月 16 日

  • Google Stackdriver Agent のインストール - Cloud Dataproc クラスタに Stackdriver Monitoring エージェントがデフォルトでインストールされるようになりました。Cloud Dataproc で Stackdriver Monitoring を使用する方法が Cloud Dataproc Stackdriver Monitoring のドキュメントに記載されています。クラスタの作成時にクラスタ プロパティを調整すると、モニタリングとロギング用のエージェントを有効または無効にできます。
  • Cloud Dataproc 1.1.15 および 1.0.24 - 1.1 イメージと 1.0 イメージがマイナーなアップデート、バグ修正、機能拡張で更新されました。

2016 年 12 月 7 日

  • このリリース以降は、Google Cloud Dataproc API が有効になっていなければ、Cloud Dataproc 用のプロジェクトが正しく機能しません。 Google Cloud Platform Console を使用して、Cloud Dataproc API を有効にできます。Cloud Dataproc API が有効になっている既存のプロジェクトには影響はありません。
  • Cloud Dataproc 1.1.14 および 1.0.23 - 1.1 イメージと 1.0 イメージがマイナーなアップデート、バグ修正、機能拡張で更新されました。
  • 予期せぬ動作や異常な動作が発生したときにクラスタ上の systemd によって Cloud-Dataproc サービスが自動的に再起動される現象が増加しました。

2016 年 11 月 29 日

  • カスタム サービス アカウントのサポート - Cloud Dataproc クラスタを作成するときに、ユーザー マネージド(非デフォルト)サービス アカウントを指定できるようになりました。このサービス アカウントは、クラスタ内で Compute Engine 仮想マシンを実行するために使用されます。これにより、クラスタごとにサービスに対する権限をきめ細かく設定できます。詳細については、サービス アカウントのドキュメントをご覧ください。
  • Cloud Dataproc 1.1.13 および 1.0.22 - Cloud Dataproc の 1.1 イメージが Apache Spark 2.0.2、Apache Zeppelin 0.6.2、Apache Flink 1.1.3 に対するサポートを含めるように更新されました。1.1 イメージと 1.0 イメージがマイナーなバグ修正と機能拡張で更新されました。Cloud Dataproc のイメージ バージョンの詳細については、Cloud Dataproc バージョン リストをご覧ください。

2016 年 11 月 14 日

  • --jars 引数が gcloud dataproc jobs submit pyspark コマンドから削除されていた問題を修正しました。

2016 年 11 月 8 日

  • Google BigQuery コネクタのアップグレード - BigQuery コネクタが bigquery-connector-0.10.1-SNAPSHOT にアップグレードされました。このバージョンでは、Cloud Storage の一時バケットに直接書き込む Hadoop 出力形式を使用し、ジョブ commit 時に Hadoop / Spark ジョブあたり 1 つの BigQuery 読み込みジョブを発行する新しい IndirectBigQueryOutputFormat が導入されました。詳細については、GitHub リポジトリで BigQuery の変更点をご覧ください。

2016 年 11 月 7 日

  • 新しく発表された asia-northeast1 リージョンに対するサポート - Cloud Dataproc が、新しく発表された asia-northeast1 リージョンで使用できるようになりました。

2016 年 11 月 2 日

  • ユーザーラベル(ベータ版) - ユーザー指定の key=value ラベルを Cloud Dataproc のクラスタとジョブに適用できるようになりました。これにより、リソースと関連オペレーションをグループ分けし、後でフィルタリングして一覧表示できるようになります。たとえば、クラスタを含むラベルを使用して、グループまたは個別に Cloud Dataproc の使用状況を分類できます。詳細については、ユーザーラベルのドキュメントをご覧ください。
  • クラスタの更新中のエラーでクラスタが機能しなくなる問題を修正しました。現在は、更新エラーが発生するとクラスタが Running 状態に戻ります。
  • 大量のジョブを短時間にまたは長時間にわたって送信するとクラスタが機能しなくなる問題を修正しました。
  • クラスタあたりの連続ジョブの最大数を増やしました。

2016 年 10 月 18 日

  • クラスタのデプロイ後、最大 60 秒間、HiveServer2 が不安定になる問題を修正しました。現在は、Hive ジョブがクラスタのデプロイ直後に必要な HiveServer2 に正常に接続されるようになっているはずです。

2016 年 10 月 11 日

  • Cloud Storage コネクタと BigQuery コネクタのアップグレード - Cloud Storage コネクタが gcs-connector-1.5.4 にアップグレードされ、BigQuery コネクタが bigquery-connector-0.8.0 にアップグレードされました。詳細については、GitHub リポジトリで Cloud Storage または BigQuery の変更点をご覧ください。
  • dataproc.localssd.mount.enable - クラスタのデプロイ時に Cloud Dataproc でローカル SSD を無視するように設定可能な新しいプロパティ dataproc.localssd.mount.enable が追加されました。設定されている場合は、Cloud Dataproc が HDFS と一時的な Hadoop ディレクトリ用としてメインの永続ディスクを使用するため、ローカル SSD をユーザー定義の目的以外で使用できます。このプロパティは、Cloud Dataproc クラスタの作成時に引数 --properties dataproc:dataproc.localssd.mount.enable=false を使用して設定できます。
  • プリエンプティブ CPU 割り当てが設定されている場合でもプリエンプティブ仮想マシンの CPU 割り当て検証が非プリエンプティブ CPU 割り当てに対して実行される問題を修正しました。

2016 年 10 月 7 日

  • Google Cloud Platform Console
    • ワーカーノードに最大 8 個までのローカル SSD を追加できます。以前の制限は 4 個です。
    • [ジョブ] ページでクライアントの詳細を確認するときに、リスト内の各ジョブに [停止] ボタンと [削除] ボタンが表示されます。以前のリリースでは、マウスカーソルを合わせた行にだけ、これらのボタンが表示されました。
  • リソースのリストが状態とクラスタの UUID 別に表示されるようになりました。これにより、いくつかの list オペレーションの実行時間がこれまでの数秒単位から数ミリ秒単位に短縮されます。

2016 年 9 月 29 日

  • Hadoop 高可用性モード(ベータ版) - 高可用性モードを有効にして Cloud Dataproc クラスタを作成できます。これは、クラスタを作成する場合のオプション機能です。高可用性モードでは、Dataproc クラスタで 3 つのマスターノードを作成できます。これにより、単一ノードで障害が起きたり、ノードが再起動したりした場合でも、HDFS 高可用性と YARN 高可用性の両方で YARN と HDFS のオペレーションを中断なく行うことができます。

    現在、この機能は、gcloud コマンドライン ツールまたは Cloud Dataproc REST API を使用してクラスタを作成する場合に使用できます。今後のリリースでは、Google Cloud Platform Console でも可用性の高いクラスタを作成できるようにサポートを追加する予定です。

    詳細については、高可用性モードのドキュメントをご覧ください。

  • ジョブが状態またはクラスタの UUID 別に表示されるようになりました。これにより、ジョブリストの表示にかかる時間が短縮されています。

2016 年 9 月 22 日

  • Cloud Storage コネクタと BigQuery コネクタのアップグレード - Cloud Storage コネクタが gcs-connector-1.5.3 にアップグレードされ、BigQuery コネクタが bigquery-connector-0.7.9 にアップグレードされました。詳細については、GitHub リポジトリで変更点をご確認ください。
  • Cloud Dataproc は 2015 年 9 月にベータ版をリリースしてから Java 8 を使用してきましたが、Java 8 以降に対する依存度がさらに高くなりました。
  • クラスタの作成時にプリエンプティブ マシンを追加する必要がない場合、--preemptible-worker-boot-disk-size コマンドで 0 プリエンプティブ ワーカーを指定する必要がなくなりました。

2016 年 9 月 16 日

  • プリエンプティブ ブートディスクのサイズ - コマンド gcloud を使用してクラスタにプリエンプティブを追加しない場合でも、クラスタの作成時に --preemptible-worker-boot-disk-size コマンドライン ツールでプリエンプティブ ワーカーのディスクサイズを設定できるようになりました。

2016 年 9 月 1 日

  • ID とアクセス管理(IAM)のサポート(ベータ版) - Cloud Dataproc に Google Cloud IAMベータ版サポートが追加されました。Cloud Dataproc の IAM 権限を使用して、Cloud Dataproc クラスタ、ジョブ、オペレーションで特定のアクションを実行できます。詳細については、Cloud Dataproc の権限と IAM の役割をご覧ください。
  • LZO サポート - Cloud Dataproc クラスタが LZO データ圧縮形式をネイティブでサポートします。
  • Google Stackdriver Logging の切り替え - Cloud Dataproc クラスタで Google Stackdriver Logging を無効にすることができます。Stackdriver Logging を無効にするには、"gcloud" コマンドライン ツールでクラスタを作成するときにコマンド "--properties dataproc:dataproc.logging.stackdriver.enable=false" を使用します。
  • 新しくデプロイしたクラスタのリソース定義に、完全なサブマイナー イメージ バージョンが表示されるようになりました(例: 1.0 ではなく 1.0.11)。これにより、古いサブマイナー バージョンに一時的に戻すことができます。詳細については、Cloud Dataproc のバージョニングをご覧ください。
  • Google Cloud Platform Console で、クラスタの作成や削除など、長時間実行オペレーションを送信した後で、オペレーションの成功ではなく、オペレーションの送信を通知するメッセージが表示されます。

2016 年 8 月 25 日

Cloud Dataproc 1.1 デフォルト - Cloud Dataproc 1.1 が新しいクラスタのデフォルトのイメージ バージョンになりました。
  • Cloud Storage コネクタと BigQuery コネクタのアップグレード - Cloud Storage コネクタが gcs-connector-1.5.2 にアップグレードされ、BigQuery コネクタが bigquery-connector-0.7.8 にアップグレードされて、パフォーマンスが改善されました。詳細については、gcs-connectorbigquery-connector のリリースノートをご覧ください。
  • Apache Zeppelin 0.6.1Apache Zeppelin パッケージがバージョン 0.6.1 にアップグレードされました。このパッケージは Cloud Dataproc 用に作成され、この初期化アクションでインストールできます。この新しいバージョンの Zeppelin では、Google BigQuery がサポートされています。
  • 以前のリリースでは、クラスタに多く(200 以上)のノードを追加すると、一部のノードでエラーが発生しましたが、この問題が修正されました。
  • 以前のリリースでは、タイムアウトした初期化アクションの出力が Cloud Storage にコピーされませんでしたが、この問題が修正されました。

2016 年 8 月 16 日

Cloud Dataproc のベータ版で Cloud Dataproc の 2 つのイメージ バージョン0.10.2)がリリースされましたが、これらのバージョンは更新を受信しなくなります。引き続きベータ版のイメージを使用できますが、この 2 つのバージョンは非推奨になっているため、バグの修正やコネクタの更新など、新たな更新は適用されません。
Cloud Dataproc の後にリリースされたイメージ バージョンが一般提供になりました。バージョン 1.0 以降には、Cloud Dataproc のバージョニング ポリシーが適用されます。

2016 年 8 月 8 日

Cloud Dataproc 1.1 - 新しいイメージ バージョン Cloud Dataproc 1.1 がリリースされました。このイメージ バージョンでは、次のようなコンポーネントが更新されています。

1.1 のイメージでクラスタを作成するには、gcloud コマンドライン ツールを使用し、--image-version 引数を指定します(例: gcloud dataproc clusters create --image-version 1.1)。

Cloud SDK リリース 121.0.0 – いくつかの gcloud dataproc 引数が更新されました。
  • --preemptible-worker-boot-disk-size 引数が一般提供になり、プリエンプティブ ワーカーの永続ディスクサイズ(GB 単位)の調整に使用できます。
  • --master-boot-disk-size-gb 引数と --worker-boot-disk-size-gb 引数が削除されました。代わりに --master-boot-disk-size--worker-boot-disk-size を使用してください。

2016 年 8 月 2 日

Cloud Storage コネクタと BigQuery コネクタのアップグレード - Cloud Storage コネクタが gcs-connector-1.5.1 にアップグレードされ、BigQuery コネクタが bigquery-connector-0.7.7 にアップグレードされました。詳細については、gcs-connectorbigquery-connector のリリースノートをご覧ください。
プレビュー イメージの更新 - プレビュー イメージの次のコンポーネントが更新されています。
以前のリリースでは、実行時間の長いクラスタで、ファイル作成率が高い状態(1 時間あたり 1,000,000 ファイル以上)が継続すると、NFS ベースの Cloud Storage の整合性キャッシュが消去されませんでしたが、この問題が修正されました。

2016 年 7 月 19 日

新機能

  • 新しい us-west1 リージョンのサポート - 新しく発表された west-1 リージョンで Cloud Dataproc を初日から使用できます。発表のとおり、西海岸の一部のユーザーはレイテンシが減少する可能性があります。
  • Apache Spark 1.6.2 へのアップグレード - 1.0 Cloud Dataproc イメージ バージョンの Apache Spark が 1.6.1 から 1.6.2 にアップグレードされました。
  • Cloud Storage コネクタと BigQuery コネクタのアップグレード - Cloud Storage コネクタが gcs-connector-1.5.0 にアップグレードされ、BigQuery コネクタが bigquery-connector-0.7.6 にアップグレードされました。これらの新しいバージョンには多くの新機能と修正が含まれています。
    • 追加可能な出力ストリーム - GHFS(Google Hadoop File System)に、追加可能な出力ストリームをサポートするオプションが追加されました。fs.gs.outputstream.type プロパティを SYNCABLE_COMPOSITE に設定すると、このオプションを有効化できます。
    • 429 エラーの自動再試行 - Google API で HTTP 429(レート制限)エラーが発生した場合、バックオフで自動的に再試行されるようになりました。
    • Cloud Storage のパフォーマンス - Cloud Storage コネクタの読み取りパフォーマンスが改善されました。特に、小規模な読み取りとシークが大量に発生した場合のパフォーマンスが向上しています。詳細については、詳細な変更ログをご覧ください。

バグの修正

  • Google Cloud Platform Console
    • Google Cloud Platform Console で、v1beta1 API の代わりに Cloud Dataproc v1 が使用されるようになりました。equivalent REST リンクをクリックすると、該当する v1 API のパスとリソース名が表示されます。
  • 以前のリリースでは、最初の起動時にドメイン名が解決されないと、一部の HDFS ノードがクラスタに参加しませんでしたが、この問題が修正されました。

2016 年 7 月 1 日

新機能

  • gcloud コマンドライン ツール
    • プリエンプティブ ワーカーのブートディスク サイズを調整するフラグ --preemptible-worker-boot-disk-size が追加されました。これは gcloud beta トラックで追加されました。
    • --*-boot-disk-size-gb フラグはすべてのトラックで非推奨になり、--*-boot-disk-size コマンドに代わりました。

バグの修正

  • 6 月のリリースに、30 分以上待機しないとクラスタが失敗しないというバグが含まれていましたが、この問題が修正されました。この問題は、クラスタの作成時に初期化アクションが失敗すると頻繁に発生しました。このリリースでは、初期化アクションが失敗して 1 分以内にクラスタが失敗します。
  • Spark(SPARK-9926)のパッチの適用により、分割 / ネストされたディレクトリを含む SparkSQL ジョブの起動時間が短縮されました。
  • Hadoop(HADOOP-12810)のパッチの適用により、ファイル入力が大量に発生するジョブの起動時間が改善されました。

2016 年 6 月 10 日

新機能

2016 年 5 月 4 日

新機能

  • Cloud SQL の初期化アクション - Cloud Dataproc に Cloud SQL I/O と Hive メタストアの初期化アクションが追加されました。この初期化アクションにより、Cloud Dataproc クラスタの各ノードに Google Cloud SQL プロキシがインストールされます。また、指定した Cloud SQL インスタンスに Apache Hive メタデータを保存するようにクラスタが構成されます。

2016 年 4 月 29 日

バグの修正

  • ジョブの完了時に Cloud Dataproc ジョブのステージング ディレクトリが自動的に削除されるようになりました。
  • クラスタが適切に削除されなかった場合、クラスタが DELETING 状態ではなく、FAILED 状態に遷移するようになりました。
  • Cloud Dataproc の --properties command で MapReduce プロパティを変更できない問題が修正されました。
  • 以前のリリースでは、Cloud Storage に出力するように YARN log-aggregation を設定すると例外が発生しましたが、このバグ(YARN-3269 に関連する問題)が修正されました。

2016 年 3 月 30 日

新機能

  • Spark 1.6.1 - Cloud Dataproc イメージ バージョン 1.0 で Spark 1.6.0 から Spark 1.6.1 メンテナンス リリースにアップグレードされました。
  • OSS のアップグレード - このリリースでは、Cloud Storage と Google BigQuery のコネクタがそれぞれ gcs-connector-1.4.5 と bigquery-connector-0.7.5 にアップグレードされました。

バグの修正

  • gcloud コマンドライン ツールで --num-preemptible-workers 0 を指定できるようになりました。以前のリリースでは、この処理はできませんでした。
  • 400 bad input または 200 OK のレスポンスが必要な場合に 500 HTTP エラーが発生していた検証問題が修正されました。
  • キャッシュ検証の問題が解決され、Cloud Storage コネクタ(fs.gs.implicit.dir.infer.enable)のディレクトリ推定が再度有効になりました。
  • 予期しないホスト障害による Compute Engine の移行設定が調整されました。標準の VM は移行後に自動的に再起動しますが、プリエンプティブ マシンは再起動しません。以前のリリースでは、すべての VM が移行後に自動的に再起動しました。
  • 以前のリリースでは、迅速にジョブ送信を行うと Too many pending operations on a resource エラーが発生しましたが、この問題が解決されました。

2016 年 3 月 8 日

新機能

  • サブネットワークのサポート - Cloud Dataproc の gcloud コマンドライン ツールでサブネットワークがサポートされるようになりました。Cloud Dataproc クラスタの作成時に --subnet SUBNET コマンドでサブネットワークを指定できます。

バグの修正

  • コンピューティング リソースの完全な URI が厳密に検証されるようになりました。次のパターンに対応しています。
    • https://<authority>/compute/<version>/projects/...
    • compute/<version>/projects/...
    • projects/...
  • クラスタサイズを増やすときにディスク割り当てが確認されなかった問題が修正されました。

2016 年 2 月 22 日

Cloud Dataproc の正式版がリリースされました。 詳細については、発表のブログ投稿をご覧ください。

新機能

  • カスタム Compute Engine のマシンタイプ - Cloud Dataproc クラスタで、マスターノードとワーカーノードのカスタム Compute Engine のマシンタイプがサポートされるようになりました。これにより、カスタマイズした数量の仮想 CPU とメモリを使用してクラスタを作成できます。詳細については、カスタム マシンタイプに関する Dataproc のドキュメントをご覧ください。
  • OSS のアップグレード - Cloud Dataproc バージョン 1.0 がリリースされました。このリリースには Apache Spark 1.6.0 と Apache Hadoop 2.7.2 へのアップグレードが含まれています。このリリースには、Google Cloud Storage と Google BigQuery のコネクタの新しいバージョンも含まれています。
  • v1 API - Cloud Dataproc 用の v1 API を使用できるようになりました。この API には、リージョン対応のサポートとともに、小規模な修正と調整が含まれています。この API は API Explorer で利用でき、Maven Central に Maven アーティファクトもあります。詳細については、REST API のドキュメントをご覧ください。
  • PySpark 用 --jars のサポート - PySpark ジョブに --jars オプションを使用できるようになりました。
  • API の自動有効化 - Cloud Dataproc API を有効にすると、Cloud Storage や Google Compute Engine などの必要な依存 API が自動的に有効になります。

バグの修正

  • 一部のクラスタのスケールダウン中にハングが発生する原因となった複数の問題が解決されました。
  • 形式に誤りがある特定の URL の検証が改善されました。以前のリリースでは、クラスタのデプロイ中にこのような URL の検証が失敗しました。

2016 年 2 月 3 日

新機能

  • 新しい --image-version オプションの preview が追加されました。
    • 0.10.2 などのバージョンと異なり、preview バージョンには、Cloud Dataproc の次の安定配布バージョンを対象とした新しい Hadoop/Spark/Pig/Hive コンポーネントを組み込み、随時変更していきます。
    • 2016 年 2 月 3 日現在で、preview バージョンには Spark 1.6.0 とともに、Cloud Dataproc 0.2 と同じ Hadoop/Pig/Hive バージョンが含まれています。
    • preview オプションは、Google Cloud Platform Console に段階的にロールアウトしています。このため、あと 1 週間ほどはアカウントに表示されない可能性があります。preview オプションにアクセスするには、gcloud コマンドライン ツールでクラスタをデプロイします。

バグの修正

  • DeleteJob コマンドの信頼性が向上しました。
  • 正常に完了したジョブの状態が RUNNING のままになる問題を修正しました。

2016 年 1 月 27 日

新機能

  • Cloud Dataproc クラスタで使用されている仮想マシンにタグとメタデータを追加するための 2 つの新しいオプションが、Cloud Dataproc gcloud コマンドライン ツールに追加されました。これらのタグとメタデータは、通常のインスタンスとプリエンプティブ インスタンスの両方に適用されます。
    • --tags オプションは、クラスタ内の Google Compute Engine インスタンスにタグを追加します。たとえば、引数 --tags foo,bar,baz を使用すると、クラスタ内の仮想マシン インスタンスに 3 つのタグが追加されます。
    • --metadata オプションは、Compute Engine インスタンスにメタデータを追加します。たとえば、--metadata 'meta1=value1,key1=value2' を使用すると、メタデータの 2 つの Key-Value ペアが追加されます。
  • マスターノードとワーカーノードのメモリの量が異なる異種クラスタのサポート。以前のリリースでは、メモリ設定の一部がマスターノードに基づいて行われたため、Stack Overflow の質問で説明している問題が発生しました。Cloud Dataproc では、異なるマシンタイプを使用するマスターノードとワーカーノードを含むクラスタのサポートが改善されました。
  • Google Cloud Platform Console
    • 非常に長い行を含むジョブの出力を見やすくするため、ジョブの [出力] タブに [Line wrapping] オプションが追加されました。

バグの修正

  • クラスタ削除リクエストの送信後に仮想マシンがアクティブな状態を維持する問題を 2 つ修正しました。
  • 多くのタスクを含むジョブで AppMaster が失敗しないように、Spark maxExecutors 設定が 10000 に設定されました。
  • Cloud Dataproc エージェントに次の変更を行い、ジョブ送信処理を改善しました。
    • マスターノードのメモリに合わせて同時ジョブの数を制限する
    • 新しいジョブのスケジュールを設定する前に空きメモリをチェックする
    • サイクルごとにスケジュールを設定できるジョブの数をレートで制限する
  • 過度に時間がかかる更新を防ぐために、ノードのコミッションとデコミッション前に HDFS 容量を計算する方法を改善しました。

2016 年 1 月 21 日

新機能

  • Google Cloud SDK の dataproc コマンドに、--properties などのクラスタ構成ファイルでプロパティを追加または更新する core-site.xml オプションが組み込まれました。プロパティは、core:io.serializations などの接頭辞を指定して構成ファイルにマッピングします。このコマンドを使用すると、クラスタの作成時に複数のプロパティやファイルを変更できます。詳細については、--properties コマンドに関する Cloud Dataproc のドキュメントをご覧ください。
  • Google Cloud Platform Console
    • 「クラスタ作成」フォームに、クラスタのクラウド プラットフォーム範囲を有効にするオプションが追加されました。これにより、すべての Google Cloud Platform サービスのデータを Cloud Dataproc クラスタから表示して管理できます。フォームの下部で [Preemptible workers, bucket, network, version, initialization, & access options] セクションを展開すると、このオプションが表示されます。

バグの修正

  • 「アクセスが拒否されました」エラーが発生して SparkR ジョブがすぐに失敗することがなくなりました(Spark JIRA の問題)。
  • --driver-logging-levels オプションを使用して Spark ジョブのロギングを構成しても Java ドライバ オプションが妨げられることがなくなりました。
  • Google Cloud Platform Console
    • 形式が不適切な初期化アクションに表示されるエラーで、問題に関する情報も一緒に表示されるようになりました。
    • 非常に長いエラー メッセージにはスクロールバーが表示され、画面上に [閉じる] ボタンが残るようになりました。## 2016 年 1 月 7 日 #### バグ修正
  • Cloud Storage に各ジョブのゼロバイトの _SUCCESS ファイルと _FAILURE ファイルが継続的に書き込まれる Dataproc バージョン 0.1 の問題が修正されました。

2016 年 12 月 16 日

新機能

  • Cloud Dataproc クラスタに vimgitbash-completion がデフォルトでインストールされるようになりました。
  • Cloud Dataproc API に公式の Maven アーティファクトJavadocダウンロード可能な .zip ファイルが含まれるようになりました。
  • Google Cloud Platform Console
    • ジョブの送信時にプロパティを指定し、ジョブの [構成] タブで確認できるようになりました。
    • [Clone] ボタンが追加され、ジョブに関するすべての情報を新しいジョブ送信フォームに簡単にコピーできるようになりました。
    • [クラスタ] と [ジョブ] の左側のアイコンが汎用的なアイコンではなく、カスタム アイコンになりました。
    • クラスタ作成フォームの下部に [Image version] 項目が追加されました。クラスタの作成時に、この項目で特定の Cloud Dataproc イメージ バージョンを選択できます。
    • クラスタ詳細ページに [VM Instances] タブが追加されました。このタブにクラスタ内のすべての VM を表示し、マスターノードに簡単に SSH 接続できます。
    • クラスタ作成フォームの下部に [Initialization Actions] 項目が追加されました。クラスタの作成時に、この項目で初期化アクションを指定できます。
    • エラー メッセージに表示される Cloud Storage バケットのパスがクリック可能なリンクになりました。

バグの修正

  • distcp コマンドに追加の修正を行うため、distcp 設定を mapred-site.xml 設定に強制的に一致させました(関連する JIRA をご覧ください)。
  • 更新中に作成されたワーカーは、カスタム初期化アクションが完了するまでクラスタに追加されません。
  • Cloud Dataproc エージェントのシャットダウン時にワーカーが必ずクラスタから切断されます。
  • リクエストの検証後、クラスタに更新中のマークを付けるときに発生した API フロントエンドの競合状態を修正しました。
  • クラスタ更新時の割り当て、Cloud Dataproc イメージ、初期化アクションの検証チェックを強化しました。
  • Cloud Dataproc エージェントの再起動時のジョブの処理を改善しました。
  • Google Cloud Platform Console
    • ジョブの送信時に重複した引数が使用可能になりました。
    • Cloud Dataproc に関連しないエラーが発生した際の一般的な [Failed to load] メッセージを、エラーの原因に関する詳細に置き換えました。
    • ジョブの単一 jar ファイルが送信されるときに、ファイルが [ジョブを送信] フォームの [Main class or jar] 項目にのみ表示されるようになり、[Jar files] 項目には表示されなくなりました。

2015 年 11 月 18 日

ロールアウトは 4 日間にわたって段階的に実施され、発表されたバージョンのリリース日から 4 日以内に Cloud Dataproc クラスタにデプロイされるか、使用できるようになります。

新機能

  • バージョンの選択 - Cloud Dataproc バージョン 0.2 のリリースにより、Cloud Dataproc のさまざまなバージョンから選択できるようになりました。以前のバージョンのサポートについては Cloud Dataproc のバージョニングをご覧ください。各バージョンでサポートされているソフトウェア コンポーネントについては、Cloud Dataproc バージョン リストをご覧ください。Cloud Dataproc API や Cloud SDK(gcloud beta dataproc clusters create --image-version コマンドを使用)を介して、または Google Cloud Platform Console を介してクラスタを作成する場合、Cloud Dataproc のバージョンを選択できます。リージョン内で新バージョンがリリースされてから 4 日以内に、新バージョンがそのリージョンで作成される新しいクラスタのデフォルト バージョンになります。
  • OSS のアップグレード - Cloud Dataproc バージョン 0.2 がリリースされました。新しい Spark コンポーネントでは、多くのバグが修正されています。新しい Hive コンポーネントでは hive コマンドを使用でき、パフォーマンスが改善されています。また、新しいメタストアも追加されています。
  • コネクタの更新 - BigQuery コネクタと Google Cloud Storage コネクタが更新されました(それぞれ、0.7.3 と 1.4.3)。これらのコネクタでは多くのバグが修正されています。新しいバージョンは Cloud Dataproc バージョン 0.2 に含まれています。
  • Hive メタストア - MySQL ベースのクラスタごとの永続メタストアを導入しました。これは Hive と SparkSQL の間で共有されます。これにより、hive コマンドも修正されます。
  • よりネイティブなライブラリ - このリリースでは、Cloud Dataproc に Snappy ネイティブ ライブラリが追加されています。Spark の MLlib 用のネイティブ BLAS、LAPACK、ARPACK ライブラリも含まれています。
  • クラスタ --diagnose コマンド - クラスタに関するロギングと診断情報を収集する --diagnose コマンドが Cloud SDK に追加されました。このコマンドの詳細については、Cloud Dataproc のサポート ドキュメントをご覧ください。

バグの修正

  • 一部のクラスタとステージング ディレクトリの作成前にすぐに失敗したジョブの削除機能が修正されました。
  • distcp コマンドを使用する場合の vmem 設定について、未解決エラーの一部を修正しました。
  • Cloud Dataproc クラスタが正常に削除された後、VM インスタンスが削除されない場合がまれにありました。この問題の原因となっていた Compute Engine のバグが修正されました。
  • Hive コマンドを修正しました。
  • クラスタでワーカー(標準とプリエンプティブ)の数を更新する際のエラー報告を修正しました。
  • Rate Limit Exceeded エラーが発生するケースの一部を修正しました。
  • クラスタ名の最大長が 56 文字ではなく正確に 55 文字になりました。
  • Google Cloud Platform Console
    • クラスタリストに [Created] 列が表示されるようになりました。また、クラスタの構成タブにクラスタの作成時間を示す [Created] 項目が表示されます。
    • クラスタの作成画面で、999 GB を超えるメモリサイズが TB で表示されるようになりました。
    • PySpark と Hive のジョブ構成タブになかった項目([Additional Python Files] と [Jar Files])が追加されました。
    • クラスタの作成時にプリエンプティブ ノードを追加するオプションが、フォームの下部の展開ボタンに追加されました。
    • メモリ不足(3.5 GB 未満)のマシンタイプがリストに表示されなくなりました。以前のリリースでは、メモリ不足のマシンタイプを選択すると、バックエンド エラーが発生しました。
    • ジョブ送信フォームの [引数] 項目のプレースホルダ テキストが修正されました。

コアサービスの改善

  • プロジェクトのデフォルト ゾーンの設定が、GCP Console のクラスタ作成フォームでゾーンのデフォルト値として使用されるようになりました。

最適化

  • Hive パフォーマンスが改善されました。特に、パーティション数の多い分割テーブルでパフォーマンスが大幅に向上しています。
  • マルチスレッド listStatus が有効になりました。Cloud Storage の多くのファイルとディレクトリを読み取る FileInputFormats の起動時間が短縮されています。

2015 年 10 月 23 日

新機能

2015 年 10 月 15 日

バグの修正**

  • 起動時に DataNode が NameNode に登録されず HDFS 容量が予想より少なくなるバグを修正しました。
  • Error 状態のジョブが送信されないようにしました。
  • 一部の状況でクラスタが完全に削除されないバグを修正しました。
  • Cloud Dataproc クラスタをデプロイする際の HTTP 500 エラーを削減しました。
  • distcp メモリ不足エラーが修正され、クラスタの構成が改善されました。
  • ジョブが適切に削除されず Deleting 状態で残る状況を修正しました。

コアサービスの改善

  • 4xx errors. の代わりに HTTP 500 エラーの詳細が表示されるようになりました。
  • Resource already exists エラーについて既存のリソースに関する情報が追加されました。
  • Cloud Storage に関連するエラーで、一般的なエラー メッセージの代わりに特定の情報が表示されるようになりました。
  • list オペレーションでページ分割が可能になりました。

最適化

  • Cloud Storage に対して直接実行される MapReduce ジョブでの YARN の利用効率を大幅に改善しました。
  • yarn.scheduler.capacity.maximum-am-resource-percent の調整を行い、より効率的な利用と同時ジョブサポートを可能にしました。
このページは役立ちましたか?評価をお願いいたします。