Envía un trabajo de Spark con una plantilla

En esta página, se muestra cómo usar una plantilla de Explorador de API de Google para ejecutar un trabajo simple de Spark en un clúster existente de Dataproc.

Para conocer otras formas de enviar un trabajo a un clúster de Dataproc, consulta los siguientes vínculos:

Antes de comenzar

Antes de ejecutar un trabajo de Dataproc, debes crear un clúster de una o más máquinas virtuales (VM) en el que ejecutarlo. Puedes usar el Explorador de API, la consola de Google Cloud, la herramienta de línea de comandos de gcloud de gcloud CLI o las guías de inicio rápido sobre el uso de bibliotecas cliente de Cloud para crear un clúster.

Envía un trabajo

Para enviar una muestra, sigue estos pasos:Apache Spark Trabajo que calcula un valor aproximado parapi , completa y ejecuta el Explorador de API de GooglePrueba esta API plantilla.

  1. Parámetros de solicitud

    1. Inserta el projectId.
    2. Especifica la región donde se encuentra el clúster (confirma o reemplaza “us-central1”). La región de tu clúster aparece en la página Clústeres de Dataproc en la consola de Google Cloud.
  2. Cuerpo de la solicitud:

    1. job.placement.clusterName: El nombre del clúster en el que se ejecutará el trabajo (confirma o reemplaza “example-cluster”).
    2. job.sparkJob.args: “1,000”, la cantidad de tareas de trabajo.
    3. job.sparkJob.jarFileUris: "file:///usr/lib/spark/examples/jars/spark-examples.jar". Esta es la ruta del archivo local en el nodo principal del clúster de Dataproc en el que se instala el archivo jar que contiene el código del trabajo de Spark Scala.
    4. job.sparkJob.mainClass: "org.apache.spark.examples.SparkPi". Es el método principal de la aplicación Scala de cálculo de pi del trabajo.
  3. Haz clic en EJECUTAR. La primera vez que ejecutes la plantilla de API, es posible que se te solicite que elijas y accedas a tu Cuenta de Google y que autorices al Explorador de API de Google a acceder a tu cuenta. Si la solicitud es exitosa, la respuesta JSON muestra que la solicitud de envío de trabajos está pendiente.

  4. Para ver el resultado del trabajo, abre la página Trabajos de Dataproc en Google Cloud Console y haz clic en el ID de trabajo de la parte superior (más reciente). Haz clic en “UNIÓN DE LÍNEAS” para ver las líneas que exceden el margen derecho.

    ...
    Pi is roughly 3.141804711418047
    ...
    

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que se usaron en esta página.

  1. Si no necesitas el clúster para explorar las otras guías de inicio rápido o ejecutar otros trabajos, usa el Explorador de API, la consola de Google Cloud, la herramienta de línea de comandos de gcloud de gcloud CLI o las bibliotecas cliente de Cloud para borrar el clúster.

¿Qué sigue?