Envía un trabajo de Spark con una plantilla

En esta página, se muestra cómo usar una plantilla de Explorador de API de Google para ejecutar un trabajo simple de Spark en un clúster existente de Dataproc.

Para conocer otras formas de enviar un trabajo a un clúster de Dataproc, consulta los siguientes vínculos:

Antes de comenzar

Antes de ejecutar un trabajo de Dataproc, debes crear un clúster de una o más máquinas virtuales (VM) en el que ejecutarlo. Puedes usar la Explorador de APIs, el Consola de Google Cloud, en gcloud CLI la herramienta de línea de comandos de gcloud, o las Guías de inicio rápido para usar bibliotecas cliente de Cloud para crear un clúster.

Envía un trabajo

Para enviar una muestra de Apache Spark trabajo que calcule un valor aproximado pi, completa y ejecuta la plantilla Prueba esta API del Explorador de APIs de Google.

  1. Parámetros de solicitud

    1. Inserta el projectId.
    2. Especifica la región donde se encuentra el clúster (confirma o reemplaza “us-central1”). El almacenamiento región aparece en el bucket de Dataproc Clústeres en la Consola de Google Cloud
  2. Cuerpo de la solicitud:

    1. job.placement.clusterName: El nombre del clúster en el que se ejecutará el trabajo (confirma o reemplaza “example-cluster”).
    2. job.sparkJob.args: “1,000”, la cantidad de tareas de trabajo.
    3. job.sparkJob.jarFileUris: "file:///usr/lib/spark/examples/jars/spark-examples.jar". Esta es la ruta del archivo local en el nodo principal del clúster de Dataproc en el que se instala el archivo jar que contiene el código del trabajo de Spark Scala.
    4. job.sparkJob.mainClass: "org.apache.spark.examples.SparkPi". Es el método principal de la aplicación Scala de cálculo de pi del trabajo.
  3. Haz clic en EJECUTAR. La primera vez que ejecutes la plantilla de API, es posible que se te solicite que elijas y accedas a tu Cuenta de Google y que autorices al Explorador de API de Google a acceder a tu cuenta. Si la solicitud es exitosa, la respuesta JSON muestra que la solicitud de envío de trabajos está pendiente.

  4. Para ver el resultado del trabajo, abre la página Trabajos de Dataproc en la consola de Google Cloud y haz clic en el ID de tarea superior (más reciente). Haz clic en “UNIÓN DE LÍNEAS” para ver las líneas que exceden el margen derecho.

    ...
    Pi is roughly 3.141804711418047
    ...
    

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

  1. Si no necesitas el clúster para explorar las otras guías de inicio rápido o ejecutar otros trabajos, usa el Explorador de APIs, la consola de Google Cloud, la CLI de gcloud, la herramienta de línea de comandos gcloud o las bibliotecas cliente de Cloud para borrar el clúster.

¿Qué sigue?