Usar o Dataproc Hub

Use o Dataproc Hub para abrir a IU do JupyterLab em um cluster do Dataproc de usuário único.

Objetivos

  1. Use o Dataproc Hub para criar um ambiente de notebook do JupyterLab em execução em um cluster do Dataproc de usuário único.

  2. Crie um notebook e execute um job do Spark no cluster do Dataproc.

  3. Exclua o cluster e preserve o notebook no Cloud Storage.

Antes de começar

  1. O administrador precisa conceder a você a permissão notebooks.instances.use (consulte Definir papéis de gerenciamento de identidade e acesso (IAM, na sigla em inglês)).

Abrir uma IU do JupyterLab Notebook em um cluster do Dataproc

  1. Abra a IU do Dataproc Hub:

    1. Se você tiver acesso ao Console do Cloud, na página Instâncias do Dataproc→Notebooks no Console do Cloud, clique em ABRIR O JUPYTERLAB na linha que lista a instância do Dataproc Hub criada por um administrador.
    2. Se você não tiver acesso ao Console do Cloud, no navegador da Web, insira o URL da instância do Dataproc Hub que o administrador compartilhou com você.
  2. Na página Jupyterhub, selecione uma configuração de cluster e zona. Se estiver ativado, especifique as personalizações e clique em "Iniciar".

    A criação do cluster leva alguns minutos. Depois que o cluster for criado, você será redirecionado para a IU do JupyterLab em execução no cluster do Dataproc.

Criar um notebook e executar um job do Spark

  1. No painel esquerdo da IU do JupyterLab, clique em GCS ou local.

  2. Criar um notebook do PySpark.

  3. O kernel do PySpark inicializa um SparkContext (usando a variável sc). Você pode examinar o SparkContext e executar um job do Spark no notebook.

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. Nomeie e salve o notebook. O notebook é salvo e permanece no Cloud Storage depois que o cluster do Dataproc for excluído.

Encerrar o cluster do Dataproc

  1. Na IU do JupyterLab, selecione "Arquivo → Painel de controle do hub" para ABRIR a IU do Dataproc Hub.

  2. Clique em Parar Meu servidor para encerrar (excluir) o servidor do Jupyter, que exclui o cluster do Dataproc.

A seguir