Antes de começar
Caso ainda não tenha feito isso, crie um projeto do Google Cloud Platform e um bucketdo Cloud Storage.
Criar o projeto
-
Faça login na sua conta do Google.
Se você ainda não tiver uma, inscreva-se.
-
No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.
- Ative as APIs Dataproc and Compute Engine.
- Instale e inicialize o SDK do Cloud..
Crie um bucket do Cloud Storage no projeto
- No Console do Cloud, acesse a página Navegador do Cloud Storage.
- Clique em Criar bucket.
- Na caixa de diálogo Criar bucket, especifique os seguintes atributos.
- Nome exclusivo do bucket, sujeito aos requisitos de nome de bucket.
- Uma classe de armazenamento.
- Um local onde os dados do bucket serão armazenados.
- Clique em Criar. Seus notebooks serão armazenados no Cloud Storage em
gs://bucket-name/notebooks/jupyter
.Criar um cluster e instalar o componente Jupyter
Comando gcloud
-
Execute localmente o seguinte comando gcloud beta dataproc clusters create em uma janela de terminal ou no Cloud Shell:
- crie o cluster e instale os componentes do Jupyter e do Anaconda no nó mestre do cluster
- ative o Gateway de componentes
Insira os valores para cluster-name, bucket-name e project-id no comando abaixo. Para bucket-name, especifique o nome do bucket criado em Criar um bucket do Cloud Storage no projeto (especifique apenas o nome do bucket). Seus blocos de notas serão armazenados no Cloud Storage em
gs://bucket-name/notebooks/jupyter
.Linux/macOS
gcloud beta dataproc clusters create cluster-name \ --optional-components=ANACONDA,JUPYTER \ --image-version=1.3 \ --enable-component-gateway \ --bucket=bucket-name \ --region=region \ --project=project-id
Windows
gcloud dataproc clusters create cluster-name ^ --optional-components=ANACONDA,JUPYTER ^ --image-version=1.3 ^ --enable-component-gateway ^ --bucket=bucket-name ^ --region=region ^ --project=project-id
Console
- Acesse a página Clusters do Dataproc no Console do Cloud.
- Clique em Criar cluster para abrir a página "Criar um cluster".
- Digite o nome do cluster no campo Nome.
- Selecione uma região e uma zona para o cluster nos menus suspensos Região e Zona. Consulte Regiões e zonas disponíveis.
Especifique uma região distinta e selecione "Sem preferência" para a
zona a fim de permitir que o Dataproc escolha uma zona dentro da região
selecionada para o cluster. Consulte
Colocação em zona automática do Dataproc).
Em vez disso, selecione uma região de
global
, que é um namespace especial de várias regiões capaz de implantar instâncias em todas as zonas do Compute Engine globalmente. Ao selecionar uma região global, você também precisa selecionar uma zona. - Marque a caixa de seleção "Gateway de componentes".
-
Expanda o painel Opções avançadas.
- Digite o nome do bucket criado em Criar um Cloud Storage no projeto, no campo bucket de preparo do Cloud Storage. Só especifique o nome do bucket. Seus blocos de notas serão armazenados no Cloud Storage em
gs://bucket-name/notebooks/jupyter
. -
Clique em "Selecionar componente" para abrir o painel de seleção de componentes opcionais.
-
Selecione os componentes "Anaconda" e "Jupyter Notebook".
-
Você pode usar os padrões fornecidos para as outras opções.
-
Clique em criar para criar o cluster e instalar os componentes e o gateway do componente no nó mestre do cluster.
Abrir a anotação do Jupyter no navegador local
Navegue até o formulário Clusters do Dataproc no Google Cloud Console e selecione o cluster para abrir o formulário Detalhes do cluster. Clique na guia Interfaces da Web para exibir uma lista de links do Gateway de componentes para as interfaces da Web dos componentes padrão e opcionais instalados no cluster.
Clique no link Jupyter. A IU da Web do notebook do Jupyter será aberta no navegador local.