Guía de inicio rápido de Explorador de API: envía un trabajo de Spark

En esta página, se muestra cómo usar una plantilla del Explorador de API de Google para ejecutar un trabajo simple de Spark en un clúster de Dataproc existente.

Para conocer otras maneras de enviar un trabajo a un clúster de Dataproc, consulte los siguientes vínculos:

Antes de comenzar

Antes de ejecutar un trabajo de Dataproc, debes crear un clúster de una o más máquinas virtuales (VM) para ejecutarlo. Puedes usar el Explorador de API, Google Cloud Console, el comando de gcloud del SDK de Cloud. -line, o las guías de inicio rápido con bibliotecas cliente de Cloud para crear un clúster.

Envía un trabajo

Si quieres enviar un trabajo de muestra de Apache Spark que calcula un valor aproximado para pi, completa y ejecuta el Explorador de API de Google Prueba esta plantilla de API.

  1. Parámetros de la solicitud:

    1. Inserta tu projectId.
    2. Especifica la región en la que se encuentra tu clúster (confirma o reemplaza "us-central1"). La región de tu clúster se muestra en la página Clústeres de Dataproc en Cloud Console.
  2. Cuerpo de la solicitud:

    1. job.placement.clusterName: El nombre del clúster en el que se ejecutará el trabajo (confirma o reemplaza “example-cluster”).
    2. job.sparkJob.args: “1000”, la cantidad de tareas de trabajo.
    3. job.sparkJob.jarFileUris: “file:///usr/lib/spark/examples/jars/spark-examples.jar”. Esta es la ruta del archivo local en el nodo principal del clúster de Dataproc en la que está instalado el jar que contiene el código de trabajo de Spark Scala.
    4. job.sparkJob.mainClass: “org.apache.spark.examples.SparkPi”. Este es el método principal de la aplicación Scala de cálculo de pi del trabajo.
  3. Haga clic en EJECUTAR. La primera vez que ejecutes la plantilla de API, es posible que se te solicite elegir y acceder a tu Cuenta de Google y autorizar al Explorador de API de Google para que acceda a ella. Si la solicitud tiene éxito, en la respuesta JSON se muestra que la solicitud de envío de trabajos está pendiente.

  4. Para ver el resultado del trabajo, abre la página Trabajos de Dataproc en Cloud Console y, luego, haz clic en el ID del trabajo más reciente (más reciente). Haga clic en "LINE WRAP" para ACTIVAR las líneas que superen el margen derecho.

    ...
    Pi is roughly 3.141804711418047
    ...
    

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta guía de inicio rápido.

  1. Si no necesitas el clúster para explorar las otras guías de inicio rápido o ejecutar otros trabajos, usa el Explorador de API, Google Cloud Console, la herramienta de línea de comandos de gcloud del SDK de Cloud, o las Guías de inicio rápido con bibliotecas cliente de Cloud para borrar el clúster.

¿Qué sigue?