Envía un trabajo de Spark con una plantilla
En esta página, se muestra cómo usar una plantilla de Explorador de API de Google para ejecutar un trabajo simple de Spark en un clúster existente de Dataproc.
Para conocer otras formas de enviar un trabajo a un clúster de Dataproc, consulta los siguientes vínculos:
Antes de comenzar
Antes de ejecutar un trabajo de Dataproc, debes crear un clúster de una o más máquinas virtuales (VM) en el que ejecutarlo. Puedes usar el Explorador de APIs, la consola de Google Cloud, gcloud CLI, la herramienta de línea de comandos gcloud o las guías de inicio rápido sobre el uso de las bibliotecas cliente de Cloud para crear un clúster.Envía un trabajo
Para enviar una muestra, sigue estos pasos:Apache Spark Trabajo que calcula un valor aproximado parapi , completa y ejecuta el Explorador de API de GooglePrueba esta API plantilla.
Parámetros de solicitud
Cuerpo de la solicitud:
- job.placement.clusterName: El nombre del clúster en el que se ejecutará el trabajo (confirma o reemplaza “example-cluster”).
- job.sparkJob.args: “1,000”, la cantidad de tareas de trabajo.
- job.sparkJob.jarFileUris: "file:///usr/lib/spark/examples/jars/spark-examples.jar". Esta es la ruta del archivo local en el nodo principal del clúster de Dataproc en el que se instala el archivo jar que contiene el código del trabajo de Spark Scala.
- job.sparkJob.mainClass: "org.apache.spark.examples.SparkPi". Es el método principal de la aplicación Scala de cálculo de pi del trabajo.
Haz clic en EJECUTAR. La primera vez que ejecutes la plantilla de API, es posible que se te solicite que elijas y accedas a tu Cuenta de Google y que autorices al Explorador de API de Google a acceder a tu cuenta. Si la solicitud es exitosa, la respuesta JSON muestra que la solicitud de envío de trabajos está pendiente.
Para ver el resultado del trabajo, abre la página Trabajos de Dataproc en la consola de Google Cloud y haz clic en el ID de tarea superior (más reciente). Haz clic en “UNIÓN DE LÍNEAS” para ver las líneas que exceden el margen derecho.
... Pi is roughly 3.141804711418047 ...
Limpia
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.
- Si no necesitas el clúster para explorar las otras guías de inicio rápido o ejecutar otros trabajos, usa el Explorador de APIs, la consola de Google Cloud, gcloud CLI, la herramienta de línea de comandos gcloud o las bibliotecas cliente de Cloud para borrar el clúster.
¿Qué sigue?
- Obtén información para actualizar un clúster de Dataproc con una plantilla.