Enviar um job do Spark usando um modelo

Nesta página, mostramos como usar um modelo das APIs Explorer do Google para executar um job simples do Spark em um cluster atual do Dataproc.

Para conhecer outras maneiras de enviar um job a um cluster do Dataproc, veja:

Antes de começar

Antes de executar um job do Dataproc, é preciso criar um cluster de uma ou mais VMs que ele será executado. Você pode usar o APIs Explorer, a Console do Google Cloud, a CLI gcloud a ferramenta de linha de comando gcloud, ou os Guias de início rápido sobre como usar as bibliotecas de cliente do Cloud para criar um cluster.

Envie um job

Para enviar um exemplo do Apache Spark job que calcula um valor bruto para pi, preencher e execute o modelo Testar a API do APIs Explorer do Google.

  1. Parâmetros de solicitação:

    1. Insira seu projectId.
    2. Especifique a região em que o cluster está localizado (confirme ou substitua "us-central1"). A região do cluster está listada na página Clusters do Dataproc no console do Google Cloud.
  2. Corpo da solicitação:

    1. job.placement.clusterName: o nome do cluster em que o job será executado (confirme ou substitua "example-cluster").
    2. job.sparkJob.args: "1.000", o número de tarefas do job.
    3. job.sparkJob.jarFileUris: "file:///usr/lib/spark/examples/jars/spark-examples.jar". Esse é o caminho do arquivo local no nó mestre do cluster do Dataproc em que está instalado o jar com o código do job do Spark Scala.
    4. job.sparkJob.mainClass: "org.apache.spark.examples.SparkPi". É o principal método do aplicativo Scala de cálculo do pi do job.
  3. Clique em EXECUTAR. Na primeira vez que você executar o modelo da API, talvez receba solicitação para escolher, fazer login na Conta do Google e autorizar o acesso ao Google APIs Explorer. Se a solicitação for bem-sucedida, a resposta JSON vai mostrar que a solicitação de envio de job está pendente.

  4. Para conferir a saída do job, abra a página Jobs do Dataproc no console do Google Cloud e clique no ID do job superior (mais recente). Clique em LINE WRAP para ativar e ver as linhas que ultrapassam a margem direita.

    ...
    Pi is roughly 3.141804711418047
    ...
    

Limpar

Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

  1. Se você não precisar do cluster para explorar os outros guias de início rápido ou executar outros jobs, ele pode ser excluído com a APIs Explorer, o Console do Google Cloud, a ferramenta de linha de comando gcloud do gcloud CLI ou as Bibliotecas de cliente do Cloud.

A seguir