Docker on YARN で Spark ジョブのランタイム環境をカスタマイズする

Dataproc の機能 Docker on YARN を使用すると、Docker イメージを作成、使用して Spark ジョブのランタイム環境をカスタマイズできます。イメージには、Java、Python、R の依存関係のカスタマイズや、ジョブ jar のカスタマイズを持たせることができます。

制限事項

以下では、利用できる機能またはサポートはありません。

2.0.49 以前のバージョンの Dataproc イメージ（1.5 のイメージでは使用できません）
MapReduce ジョブ（Spark ジョブでのみサポート）
Spark クライアントモード（Spark クラスタモードでのみサポートされます）
Kerberos クラスタ: Kerberos を有効にして Docker on YARN でクラスタを作成すると、クラスタの作成が失敗します。
JDK、Hadoop、Spark のカスタマイズ: カスタマイズではなく、ホスト JDK、Hadoop、Spark が使用されます。

Docker イメージを作成する

Spark 環境をカスタマイズするための最初のステップは、Docker イメージのビルドです。

Dockerfile

次の Dockerfile を例として使用し、必要に応じて変更や追加を行います。

FROM debian:10-slim

# Suppress interactive prompts.
ENV DEBIAN_FRONTEND=noninteractive

# Required: Install utilities required by Spark scripts.
RUN apt update && apt install -y procps tini

# Optional: Add extra jars.
ENV SPARK_EXTRA_JARS_DIR=/opt/spark/jars/
ENV SPARK_EXTRA_CLASSPATH='/opt/spark/jars/*'
RUN mkdir -p "${SPARK_EXTRA_JARS_DIR}"
COPY *.jar "${SPARK_EXTRA_JARS_DIR}"

# Optional: Install and configure Miniconda3.
ENV CONDA_HOME=/opt/miniconda3
ENV PYSPARK_PYTHON=${CONDA_HOME}/bin/python
ENV PYSPARK_DRIVER_PYTHON=${CONDA_HOME}/bin/python

ENV PATH=${CONDA_HOME}/bin:${PATH}
COPY Miniconda3-py39_4.10.3-Linux-x86_64.sh .
RUN bash Miniconda3-py39_4.10.3-Linux-x86_64.sh -b -p /opt/miniconda3 \
  && ${CONDA_HOME}/bin/conda config --system --set always_yes True \
  && ${CONDA_HOME}/bin/conda config --system --set auto_update_conda False \
  && ${CONDA_HOME}/bin/conda config --system --prepend channels conda-forge \
  && ${CONDA_HOME}/bin/conda config --system --set channel_priority strict

# Optional: Install Conda packages.
#
# The following packages are installed in the default image. It is strongly
# recommended to include all of them.
#
# Use mamba to install packages quickly.
RUN ${CONDA_HOME}/bin/conda install mamba -n base -c conda-forge \
    && ${CONDA_HOME}/bin/mamba install \
      conda \
      cython \
      fastavro \
      fastparquet \
      gcsfs \
      google-cloud-bigquery-storage \
      google-cloud-bigquery[pandas] \
      google-cloud-bigtable \
      google-cloud-container \
      google-cloud-datacatalog \
      google-cloud-dataproc \
      google-cloud-datastore \
      google-cloud-language \
      google-cloud-logging \
      google-cloud-monitoring \
      google-cloud-pubsub \
      google-cloud-redis \
      google-cloud-spanner \
      google-cloud-speech \
      google-cloud-storage \
      google-cloud-texttospeech \
      google-cloud-translate \
      google-cloud-vision \
      koalas \
      matplotlib \
      nltk \
      numba \
      numpy \
      openblas \
      orc \
      pandas \
      pyarrow \
      pysal \
      pytables \
      python \
      regex \
      requests \
      rtree \
      scikit-image \
      scikit-learn \
      scipy \
      seaborn \
      sqlalchemy \
      sympy \
      virtualenv

# Optional: Add extra Python modules.
ENV PYTHONPATH=/opt/python/packages
RUN mkdir -p "${PYTHONPATH}"
COPY test_util.py "${PYTHONPATH}"

# Required: Create the 'yarn_docker_user' group/user.
# The GID and UID must be 1099. Home directory is required.
RUN groupadd -g 1099 yarn_docker_user
RUN useradd -u 1099 -g 1099 -d /home/yarn_docker_user -m yarn_docker_user
USER yarn_docker_user

イメージをビルドして push します。

サンプル Docker イメージのビルドと push を行うコマンドは次のとおりです。カスタマイズに応じて変更を加えることができます。

# Increase the version number when there is a change to avoid referencing
# a cached older image. Avoid reusing the version number, including the default
# `latest` version.
IMAGE=gcr.io/my-project/my-image:1.0.1

# Download the BigQuery connector.
gcloud storage cp \
  gs://spark-lib/bigquery/spark-bigquery-with-dependencies_2.12-0.22.2.jar .

# Download the Miniconda3 installer.
wget https://repo.anaconda.com/miniconda/Miniconda3-py39_4.10.3-Linux-x86_64.sh

# Python module example:
cat >test_util.py <<EOF
def hello(name):
  print("hello {}".format(name))

def read_lines(path):
  with open(path) as f:
    return f.readlines()
EOF

# Build and push the image.
docker build -t "${IMAGE}" .
docker push "${IMAGE}"

Dataproc クラスタを作成する

Spark 環境をカスタマイズする Docker イメージを作成した後、Spark ジョブの実行時に Docker イメージを使用する Dataproc クラスタを作成します。

gcloud

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --image-version=DP_IMAGE \
    --optional-components=DOCKER \
    --properties=dataproc:yarn.docker.enable=true,dataproc:yarn.docker.image=DOCKER_IMAGE \
    other flags

次のように置き換えます。

CLUSTER_NAME: クラスタ名
REGION: クラスタリージョン。
DP_IMAGE: Dataproc イメージのバージョンは 2.0.49 以降にする必要があります（--image-version=2.0 は 2.0.49 以降で適合性が確認されたマイナーバージョンを使用します）。
--optional-components=DOCKER: クラスタで Docker コンポーネントを有効にします。
--properties flag:
- dataproc:yarn.docker.enable=true: Dataproc の機能 Docker on YARN を有効にするために必要なプロパティ。
- dataproc:yarn.docker.image: Container Registry イメージ命名形式 {hostname}/{project-id}/{image}:{tag} を使用して DOCKER_IMAGE を指定するために追加できる任意のプロパティ。
  例:
```
dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1
```
  要件: Docker イメージを Container Registry または Artifact Registry でホストする必要があります（Dataproc は他のレジストリからコンテナを取得できません）。
  
  推奨事項: クラスタを作成するときに Docker イメージがキャッシュに保存されるようにするため、またイメージを使用するジョブを送信するときに YARN のタイムアウトを回避するために、このプロパティを追加します。

dataproc:yarn.docker.enable が true に設定されている場合、Dataproc は Hadoop と Spark の構成を更新して、クラスタ内の Docker on YARN 機能を有効にします。たとえば、spark.submit.deployMode が cluster に設定され、spark.yarn.appMasterEnv.YARN_CONTAINER_RUNTIME_DOCKER_MOUNTS と spark.executorEnv.YARN_CONTAINER_RUNTIME_DOCKER_MOUNTS がホストからコンテナにディレクトリをマウントするように設定されます。

クラスタに Spark ジョブを送信する

Dataproc クラスタを作成したら、Docker イメージを使用するクラスタに Spark ジョブを送信します。このセクションの例では、PySpark ジョブをクラスタに送信します。

ジョブのプロパティを設定します。

# Set the Docker image URI.
IMAGE=(e.g., gcr.io/my-project/my-image:1.0.1)

# Required: Use `#` as the delimiter for properties to avoid conflicts.
JOB_PROPERTIES='^#^'

# Required: Set Spark properties with the Docker image.
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.yarn.appMasterEnv.YARN_CONTAINER_RUNTIME_DOCKER_IMAGE=${IMAGE}"
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.executorEnv.YARN_CONTAINER_RUNTIME_DOCKER_IMAGE=${IMAGE}"

# Optional: Add custom jars to Spark classpath. Don't set these properties if
# there are no customizations.
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.driver.extraClassPath=/opt/spark/jars/*"
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.executor.extraClassPath=/opt/spark/jars/*"

# Optional: Set custom PySpark Python path only if there are customizations.
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.pyspark.python=/opt/miniconda3/bin/python"
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.pyspark.driver.python=/opt/miniconda3/bin/python"

# Optional: Set custom Python module path only if there are customizations.
# Since the `PYTHONPATH` environment variable defined in the Dockerfile is
# overridden by Spark, it must be set as a job property.
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.yarn.appMasterEnv.PYTHONPATH=/opt/python/packages"
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.executorEnv.PYTHONPATH=/opt/python/packages"

注:

関連するプロパティについては、Docker コンテナを使用してアプリケーションを起動するをご覧ください。

gcloud

クラスタにジョブを送信します。

gcloud dataproc jobs submit pyspark PYFILE \
    --cluster=CLUSTER_NAME \
    --region=REGION \
    --properties=${JOB_PROPERTIES}

次のように置き換えます。

PYFILE: PySpark のジョブファイルへのファイルパス。ローカルファイルパスまたは Cloud Storage 内のファイルの URI（gs://BUCKET_NAME/PySpark filename）を指定できます。
CLUSTER_NAME: クラスタ名
REGION: クラスタリージョン。