Enviar un trabajo de Sparks con una plantilla

En esta página, se muestra cómo usar una plantilla del Explorador de API de Google para ejecutar un trabajo simple de Spark en un clúster de Dataproc existente.

Si quieres conocer otras formas de enviar un trabajo a un clúster de Dataproc, consulta los siguientes vínculos:

Antes de comenzar

Antes de ejecutar un trabajo de Dataproc, debes crear un clúster de una o más máquinas virtuales (VM) para ejecutarlo. Puedes usar el Explorador de API, Google Cloud Console, la herramienta de línea de comandos de gcloud de la CLI gcloud o las Guías de inicio rápido sobre el uso de bibliotecas cliente de Cloud para crear un clúster.

Envía un trabajo

Para enviar un trabajo de muestra de Apache Spark que calcula un valor aproximado de pi, completa y ejecuta la plantilla Prueba esta API del Explorador de API de Google.

  1. Parámetros de solicitud:

    1. Inserta el projectId.
    2. Especifica la región en la que se encuentra el clúster (confirma o reemplaza us-central1"). La región del clúster aparece en la página Clústeres de Dataproc en Cloud Console.
  2. Cuerpo de la solicitud:

    1. job.placement.clusterName: El nombre del clúster en el que se ejecutará el trabajo (confirma o reemplaza &example-cluster").
    2. job.sparkJob.args: "1000", la cantidad de tareas de trabajo
    3. job.sparkJob.jarFileUris: "file:///usr/lib/spark/examples/jars/spark-examples.jar". Esta es la ruta del archivo local en el nodo principal del clúster de Dataproc, en el que está instalado el jar que contiene el código de trabajo de Spark Scala.
    4. job.sparkJob.mainClass: "org.apache.spark.examples.SparkPi". Es el método principal de la aplicación de escalar pi del trabajo.
  3. Haz clic en EJECUTAR. La primera vez que ejecutes la plantilla de API, se te pedirá que elijas acceder a tu Cuenta de Google y, luego, que autorices al Explorador de API de Google para que acceda a ella. Si la solicitud se realiza de manera correcta, la respuesta JSON muestra que la solicitud de envío de trabajos está pendiente.

  4. Para ver el resultado de un trabajo, abre la página Trabajos de Dataproc en Cloud Console y haz clic en el ID de trabajo superior (más reciente). Haz clic en la opción para ajustar las líneas que exceden el margen derecho.

    ...
    Pi is roughly 3.141804711418047
    ...
    

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

  1. Si no necesitas que el clúster explore las otras guías de inicio rápido o ejecute otros trabajos, usa el Explorador de API, Google Cloud Console, la herramienta de línea de comandos de gcloud de la CLI de gcloud o las guías de inicio rápido sobre el uso de bibliotecas cliente de Cloud para borrar el clúster.

Próximos pasos