Envía un trabajo

Puedes enviar un trabajo a un clúster existente de Dataproc mediante una solicitud programática o HTTP jobs.submit de la API de Dataproc, con la herramienta de línea de comandos de gcloud del SDK de Cloud en un ventana de la terminal local o en Cloud Shell. También puedes hacerlo desde Google Cloud Console abierto en un navegador local. También puedes establecer una conexión SSH con la instancia principal en tu clúster y luego ejecutar un trabajo de forma directa desde la instancia sin usar el servicio de Dataproc.

Envía un trabajo de Dataproc

Comando de gcloud

Para enviar un trabajo a un clúster de Dataproc, ejecuta el comando gcloud dataproc jobs submit del SDK de Cloud de manera local en una ventana de la terminal o en Cloud Shell.
gcloud dataproc jobs submit job-command \
    --cluster=cluster-name \
    --region=region \
    other dataproc-flags \
    -- job-args
Ejemplo de envío de un trabajo de PySpark
  1. Muestra el archivo hello-world.py de acceso público ubicado en Cloud Storage.
    gsutil cat gs://dataproc-examples/pyspark/hello-world/hello-world.py
    
    A continuación, se muestra la lista de archivos:
    #!/usr/bin/python
    import pyspark
    sc = pyspark.SparkContext()
    rdd = sc.parallelize(['Hello,', 'world!'])
    words = sorted(rdd.collect())
    print(words)
    
  2. Envía el trabajo de Pyspark a Dataproc.
    gcloud dataproc jobs submit pyspark \
        gs://dataproc-examples/pyspark/hello-world/hello-world.py \
        --cluster=cluster-name  \
        --region=region
    
    A continuación, se muestra el resultado de la terminal:
    Waiting for job output...
    …
    ['Hello,', 'world!']
    Job finished successfully.
    
Ejemplo de envío de un trabajo de Spark
  1. Ejecuta el ejemplo de SparkPi preinstalado en el nodo principal del clúster de Cloud Dataproc.
    gcloud dataproc jobs submit spark \
        --cluster=cluster-name \
        --region=region \
        --class=org.apache.spark.examples.SparkPi \
        --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
        -- 1000
    
    A continuación, se muestra el resultado de la terminal:
    Job [54825071-ae28-4c5b-85a5-58fae6a597d6] submitted.
    Waiting for job output…
    …
    Pi is roughly 3.14177148
    …
    Job finished successfully.
    …
    

API de REST

Usa la API de jobs.submit de Dataproc para enviar un trabajo a un clúster. Aquí hay una solicitud HTTP POST para enviar un trabajo de Spark que calcule el valor aproximado de pi:
POST /v1/projects/project-id/regions/region/jobs:submit
{
  "job": {
    "placement": {
      "clusterName": "cluster-name"
    },
    },
    "sparkJob": {
      "args": [
        "1000"
      ],
      "mainClass": "org.apache.spark.examples.SparkPi",
      "jarFileUris": [
        "file:///usr/lib/spark/examples/jars/spark-examples.jar"
      ]
    }
  }
}

Console

Abre la página de Dataproc Enviar un trabajo (Submit a job) en Cloud Console, en tu navegador.
Ejemplo de trabajo de Spark

Para enviar un ejemplo de trabajo de Spark, llena los campos en la página Submit a job de la siguiente manera (como se muestra en la captura de pantalla anterior):

  1. En Clúster (Cluster), selecciona el nombre del clúster que quieres elegir de la lista.
  2. Establece Tipo de trabajo (Job type) en Spark.
  3. Establece Clase principal o jar (Main class or jar) en org.apache.spark.examples.SparkPi.
  4. Establece Argumentos (Arguments) en un argumento único 1000.
  5. Agrega file:///usr/lib/spark/examples/jars/spark-examples.jar a Archivos jar (Jar files):
    1. file:/// denota un esquema LocalFileSystem de Hadoop. Dataproc instaló /usr/lib/spark/examples/jars/spark-examples.jar en el nodo principal del clúster cuando creó el clúster.
    2. Como alternativa, puedes especificar una ruta de Cloud Storage (gs://your-bucket/your-jarfile.jar) o una ruta del sistema de archivos distribuido de Hadoop (hdfs://path-to-jar.jar) a uno de tus archivos jar.

Haz clic en Submit (Enviar) para iniciar el trabajo. Una vez que se inicia el trabajo, se agrega a la lista Jobs (Trabajos).

Haz clic en el ID de trabajo para abrir la página Jobs, en la que podrás ver el resultado del controlador del trabajo (consulta Accede al resultado del controlador de trabajos–CONSOLE). Este trabajo produce líneas de salida extensas que superan el ancho de la ventana del navegador, por lo que puedes marcar el cuadro Ajuste de línea (Line wrapping) para mostrar todo el texto de salida del resultado calculado de pi.

Puedes ver el resultado del controlador de trabajos desde la línea de comandos con gcloud dataproc jobs wait que se muestra a continuación. Para obtener más información, consulta Accede al resultado del controlador de trabajos–GCLOUD COMMAND. Copia y pega tu ID del proyecto como el valor de la marca --project y tu ID de trabajo (que aparece en la lista de trabajos) como argumento final.

gcloud dataproc jobs wait job-id \
    --project=project-id \
    --region=region

Aquí hay fragmentos del resultado del controlador para el trabajo de muestra de SparkPi que se envió con anterioridad:

...
2015-06-25 23:27:23,810 INFO [dag-scheduler-event-loop]
scheduler.DAGScheduler (Logging.scala:logInfo(59)) - Stage 0 (reduce at
SparkPi.scala:35) finished in 21.169 s

2015-06-25 23:27:23,810 INFO [task-result-getter-3] cluster.YarnScheduler
(Logging.scala:logInfo(59)) - Removed TaskSet 0.0, whose tasks have all
completed, from pool

2015-06-25 23:27:23,819 INFO [main] scheduler.DAGScheduler
(Logging.scala:logInfo(59)) - Job 0 finished: reduce at SparkPi.scala:35,
took 21.674931 s

Pi is roughly 3.14189648
...
Job [c556b47a-4b46-4a94-9ba2-2dcee31167b2] finished successfully.

driverOutputUri:
gs://sample-staging-bucket/google-cloud-dataproc-metainfo/cfeaa033-749e-48b9-...
...

Envía un trabajo directamente en tu clúster

Si deseas ejecutar un trabajo directamente en tu clúster sin usar el servicio de Dataproc, establece una conexión SSH al nodo principal de tu clúster y ejecuta el trabajo en el nodo principal.

Establece una conexión SSH a la instancia principal

Puedes conectarte a una instancia de VM de Compute Engine de tu clúster mediante SSH desde la línea de comandos o desde Cloud Console.

Comando de gcloud

Ejecuta el comando gcloud compute ssh en una ventana de la terminal de manera local o en Cloud Shell para establecer una conexión SSH al nodo principal del clúster (el nombre predeterminado del nodo principal es el nombre del clúster seguido de un sufijo -m).

gcloud compute ssh cluster-name-m \
    --region=region \
    --project=project-id

El siguiente fragmento usa gcloud compute ssh para establecer una conexión SSH con el nodo principal de cluster-1.

gcloud compute ssh cluster-1-m \
    --region=us-central-1 \
    --project=my-project-id
...
Linux cluster-1-m 4.9.0-8-amd64 #1 SMP Debian 4.9.110-3+deb9u6...
...
user@cluster-1-m:~$

Console

Usa Cloud Console para establecer una conexión SSH al nodo principal del clúster (el nombre predeterminado del nodo principal es el nombre del clúster seguido de un sufijo -m).
  1. En Cloud Console, ve a la página Instancias de VM.
  2. En la lista de instancias de máquinas virtuales, haz clic en SSH en la fila de la instancia principal (sufijo -m) a la que deseas conectarte.

Se abrirá una ventana del navegador en tu directorio principal del nodo.

Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
user@cluster-1-m:~$

Ejecuta un trabajo de Spark en el nodo principal

Luego de establecer una conexión SSH a la instancia principal de VM, ejecuta comandos en una ventana de terminal en el nodo principal del clúster para realizar las siguientes acciones:

  1. Abrir una shell de Spark
  2. Ejecutar un trabajo de Spark simple para contar la cantidad de líneas en un archivo “hello-world” de Python (de siete líneas) ubicado en un archivo accesible de manera pública en Cloud Storage
  3. Salir de la shell

    user@cluster-name-m:~$ spark-shell
    ...
    scala> sc.textFile("gs://dataproc-examples"
    + "/pyspark/hello-world/hello-world.py").count
    ...
    res0: Long = 7
    scala> :quit
    

Ejecuta trabajos de bash en Dataproc

Es posible que desees ejecutar una secuencia de comandos bash como tu trabajo de Dataproc, ya sea porque los motores que usas no son compatibles como un tipo de trabajo de Dataproc de nivel superior o porque necesitas realizar una configuración o cálculo adicional de argumentos antes de iniciar un trabajo mediante hadoop o spark-submit de tu secuencia de comandos.

Ejemplo de pig

Supongamos que copiaste una secuencia de comandos bash hello.sh en Cloud Storage:

gsutil cp hello.sh gs://${BUCKET}/hello.sh

Dado que el comando pig fs usa rutas de acceso de Hadoop, copia la secuencia de comandos de Cloud Storage a un destino especificado como file:/// para asegurarte de que esté en el sistema de archivos local en lugar de HDFS. Los comandos sh posteriores hacen referencia al sistema de archivos local de forma automática y no requieren el prefijo file:///.

gcloud dataproc jobs submit pig --cluster=${CLUSTER} --region=${REGION} \
    -e='fs -cp -f gs://${BUCKET}/hello.sh file:///tmp/hello.sh; sh chmod 750 /tmp/hello.sh; sh /tmp/hello.sh'

De manera alternativa, como los trabajos de Dataproc envían un archivo a etapa de argumento --jars en un directorio temporal creado durante la vida útil del trabajo, puedes especificar tu secuencia de comandos de shell de Cloud Storage como argumento --jars:

gcloud dataproc jobs submit pig --cluster=${CLUSTER} --region=${REGION} \
    --jars=gs://${BUCKET}/hello.sh \
    -e='sh chmod 750 ${PWD}/hello.sh; sh ${PWD}/hello.sh'

Ten en cuenta que el argumento --jars también puede hacer referencia a una secuencia de comandos local:

gcloud dataproc jobs submit pig --cluster=${CLUSTER} --region=${REGION} \
    --jars=hello.sh \
    -e='sh chmod 750 ${PWD}/hello.sh; sh ${PWD}/hello.sh'