Mit der Dataproc-Funktion Docker on YARN können Sie ein Docker-Image erstellen und verwenden, um die Laufzeitumgebung Ihres Spark-Jobs anzupassen. Das Image kann Anpassungen an Java-, Python- und R-Abhängigkeiten sowie an Ihrem Job-JAR enthalten.
Beschränkungen
Die Funktion ist nicht verfügbar für:
- Dataproc-Image-Versionen vor 2.0.49 (nicht in 1.5-Images verfügbar)
- MapReduce-Jobs (nur für Spark-Jobs unterstützt)
- Spark-Clientmodus (nur im Spark-Clustermodus unterstützt)
- Kerberos-Cluster: Die Clustererstellung schlägt fehl, wenn Sie einen Cluster mit Docker auf YARN erstellen und Kerberos aktiviert ist.
- Anpassungen von JDK, Hadoop und Spark: Es werden das Host-JDK, Hadoop und Spark verwendet, nicht Ihre Anpassungen.
Docker-Image erstellen
Der erste Schritt zum Anpassen Ihrer Spark-Umgebung besteht darin, ein Docker-Image zu erstellen.
Dockerfile
Sie können das folgende Dockerfile als Beispiel verwenden und Änderungen und Ergänzungen vornehmen, um es an Ihre Anforderungen anzupassen.
FROM debian:10-slim
# Suppress interactive prompts.
ENV DEBIAN_FRONTEND=noninteractive
# Required: Install utilities required by Spark scripts.
RUN apt update && apt install -y procps tini
# Optional: Add extra jars.
ENV SPARK_EXTRA_JARS_DIR=/opt/spark/jars/
ENV SPARK_EXTRA_CLASSPATH='/opt/spark/jars/*'
RUN mkdir -p "${SPARK_EXTRA_JARS_DIR}"
COPY *.jar "${SPARK_EXTRA_JARS_DIR}"
# Optional: Install and configure Miniconda3.
ENV CONDA_HOME=/opt/miniconda3
ENV PYSPARK_PYTHON=${CONDA_HOME}/bin/python
ENV PYSPARK_DRIVER_PYTHON=${CONDA_HOME}/bin/python
ENV PATH=${CONDA_HOME}/bin:${PATH}
COPY Miniconda3-py39_4.10.3-Linux-x86_64.sh .
RUN bash Miniconda3-py39_4.10.3-Linux-x86_64.sh -b -p /opt/miniconda3 \
&& ${CONDA_HOME}/bin/conda config --system --set always_yes True \
&& ${CONDA_HOME}/bin/conda config --system --set auto_update_conda False \
&& ${CONDA_HOME}/bin/conda config --system --prepend channels conda-forge \
&& ${CONDA_HOME}/bin/conda config --system --set channel_priority strict
# Optional: Install Conda packages.
#
# The following packages are installed in the default image. It is strongly
# recommended to include all of them.
#
# Use mamba to install packages quickly.
RUN ${CONDA_HOME}/bin/conda install mamba -n base -c conda-forge \
&& ${CONDA_HOME}/bin/mamba install \
conda \
cython \
fastavro \
fastparquet \
gcsfs \
google-cloud-bigquery-storage \
google-cloud-bigquery[pandas] \
google-cloud-bigtable \
google-cloud-container \
google-cloud-datacatalog \
google-cloud-dataproc \
google-cloud-datastore \
google-cloud-language \
google-cloud-logging \
google-cloud-monitoring \
google-cloud-pubsub \
google-cloud-redis \
google-cloud-spanner \
google-cloud-speech \
google-cloud-storage \
google-cloud-texttospeech \
google-cloud-translate \
google-cloud-vision \
koalas \
matplotlib \
nltk \
numba \
numpy \
openblas \
orc \
pandas \
pyarrow \
pysal \
pytables \
python \
regex \
requests \
rtree \
scikit-image \
scikit-learn \
scipy \
seaborn \
sqlalchemy \
sympy \
virtualenv
# Optional: Add extra Python modules.
ENV PYTHONPATH=/opt/python/packages
RUN mkdir -p "${PYTHONPATH}"
COPY test_util.py "${PYTHONPATH}"
# Required: Create the 'yarn_docker_user' group/user.
# The GID and UID must be 1099. Home directory is required.
RUN groupadd -g 1099 yarn_docker_user
RUN useradd -u 1099 -g 1099 -d /home/yarn_docker_user -m yarn_docker_user
USER yarn_docker_user
Erstellen Sie das Image und übertragen Sie es per Push:
Im Folgenden finden Sie Befehle zum Erstellen und Pushen des Beispiel-Docker-Images. Sie können sie entsprechend Ihren Anpassungen ändern.
# Increase the version number when there is a change to avoid referencing
# a cached older image. Avoid reusing the version number, including the default
# `latest` version.
IMAGE=gcr.io/my-project/my-image:1.0.1
# Download the BigQuery connector.
gcloud storage cp \
gs://spark-lib/bigquery/spark-bigquery-with-dependencies_2.12-0.22.2.jar .
# Download the Miniconda3 installer.
wget https://repo.anaconda.com/miniconda/Miniconda3-py39_4.10.3-Linux-x86_64.sh
# Python module example:
cat >test_util.py <<EOF
def hello(name):
print("hello {}".format(name))
def read_lines(path):
with open(path) as f:
return f.readlines()
EOF
# Build and push the image.
docker build -t "${IMAGE}" .
docker push "${IMAGE}"
Dataproc-Cluster erstellen
Nachdem Sie ein Docker-Image erstellt haben, mit dem Sie Ihre Spark-Umgebung anpassen, erstellen Sie einen Dataproc-Cluster, in dem Ihr Docker-Image beim Ausführen von Spark-Jobs verwendet wird.
gcloud
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --image-version=DP_IMAGE \ --optional-components=DOCKER \ --properties=dataproc:yarn.docker.enable=true,dataproc:yarn.docker.image=DOCKER_IMAGE \ other flags
Dabei gilt:
- CLUSTER_NAME: Der Clustername.
- REGION: Die Clusterregion.
- DP_IMAGE: Die Dataproc-Image-Version muss
2.0.49
oder höher sein. Bei--image-version=2.0
wird eine qualifizierte Nebenversion verwendet, die höher als2.0.49
ist. --optional-components=DOCKER
: Aktiviert die Docker-Komponente im Cluster.--properties
-Flag:dataproc:yarn.docker.enable=true
: Erforderliche Eigenschaft, um die Dataproc-Docker-on-YARN-Funktion zu aktivieren.dataproc:yarn.docker.image
: Optionale Eigenschaft, die Sie hinzufügen können, um Ihre DOCKER_IMAGE mit dem folgenden Container Registry-Image-Benennungsformat anzugeben:{hostname}/{project-id}/{image}:{tag}
.Beispiel:
dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1
Anforderung:Sie müssen Ihr Docker-Image in Container Registry oder Artifact Registry hosten. (Dataproc kann keine Container aus anderen Registries abrufen).
Empfehlung:Fügen Sie diese Eigenschaft beim Erstellen des Clusters hinzu, um Ihr Docker-Image im Cache zu speichern und spätere YARN-Zeitüberschreitungen zu vermeiden, wenn Sie einen Job einreichen, der das Image verwendet.
Wenn dataproc:yarn.docker.enable
auf true
gesetzt ist, aktualisiert Dataproc die Hadoop- und Spark-Konfigurationen, um die Docker on YARN-Funktion im Cluster zu aktivieren. Beispiel: spark.submit.deployMode
ist auf cluster
und spark.yarn.appMasterEnv.YARN_CONTAINER_RUNTIME_DOCKER_MOUNTS
und spark.executorEnv.YARN_CONTAINER_RUNTIME_DOCKER_MOUNTS
sind so festgelegt, dass Verzeichnisse vom Host im Container bereitgestellt werden.
Spark-Job an den Cluster senden
Nachdem Sie einen Dataproc-Cluster erstellt haben, reichen Sie einen Spark-Job für den Cluster ein, der Ihr Docker-Image verwendet. Im Beispiel in diesem Abschnitt wird ein PySpark-Job an den Cluster gesendet.
Legen Sie die Jobeigenschaften fest:
# Set the Docker image URI.
IMAGE=(e.g., gcr.io/my-project/my-image:1.0.1)
# Required: Use `#` as the delimiter for properties to avoid conflicts.
JOB_PROPERTIES='^#^'
# Required: Set Spark properties with the Docker image.
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.yarn.appMasterEnv.YARN_CONTAINER_RUNTIME_DOCKER_IMAGE=${IMAGE}"
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.executorEnv.YARN_CONTAINER_RUNTIME_DOCKER_IMAGE=${IMAGE}"
# Optional: Add custom jars to Spark classpath. Don't set these properties if
# there are no customizations.
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.driver.extraClassPath=/opt/spark/jars/*"
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.executor.extraClassPath=/opt/spark/jars/*"
# Optional: Set custom PySpark Python path only if there are customizations.
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.pyspark.python=/opt/miniconda3/bin/python"
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.pyspark.driver.python=/opt/miniconda3/bin/python"
# Optional: Set custom Python module path only if there are customizations.
# Since the `PYTHONPATH` environment variable defined in the Dockerfile is
# overridden by Spark, it must be set as a job property.
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.yarn.appMasterEnv.PYTHONPATH=/opt/python/packages"
JOB_PROPERTIES="${JOB_PROPERTIES}#spark.executorEnv.PYTHONPATH=/opt/python/packages"
Hinweise:
- Informationen zu ähnlichen Eigenschaften finden Sie unter Anwendungen mit Docker-Containern starten.
gcloud
Senden Sie den Job an den Cluster.
gcloud dataproc jobs submit pyspark PYFILE \ --cluster=CLUSTER_NAME \ --region=REGION \ --properties=${JOB_PROPERTIES}
Dabei gilt:
- PYFILE: Der Dateipfad zur PySpark-Jobdatei. Dies kann ein lokaler Dateipfad oder der URI der Datei in Cloud Storage (
gs://BUCKET_NAME/PySpark filename
) sein. - CLUSTER_NAME: Der Clustername.
- REGION: Die Clusterregion.