Esta página mostra como criar sessões interativas e modelos de sessões do Serverless para Apache Spark. Pode usar um modelo de sessão para criar várias sessões interativas com base na configuração do modelo de sessão.
Crie uma sessão interativa
Pode usar a CLI do Google Cloud ou a API Dataproc para criar uma sessão interativa do Serverless para Apache Spark.
gcloud
Pode usar o comando
gcloud beta dataproc sessions create command SESSION_NAME
para
criar uma sessão interativa do Serverless para Apache Spark.
gcloud beta dataproc sessions create spark SESSION_ID \ --location=REGION \ optional flags ...
Substitua ou adicione o seguinte:
SESSION_ID: obrigatório. Um ID para a sessão.
REGION: obrigatório. Uma região disponível para localizar a sua sessão.
--version
: Opcional. Uma versão do tempo de execução do Spark suportada. Se não usar esta flag para especificar uma versão, é usada a versão atual predefinida do tempo de execução do Spark.--container-image
: Opcional. Uma imagem de contentor personalizada para usar na sua sessão.--property
: Opcional. Uma ou mais propriedades do Spark separadas por vírgulas para a sua sessão.--service-account
: Opcional. A conta de serviço a usar para a sua sessão. Se não for especificada, é usada a conta de serviço predefinida do Compute Engine.--subnet
: Opcional. O nome de uma sub-rede na região da sessão. Se não for especificado, o Serverless para Apache Spark usa a sub-rededefault
na região da sessão. O Serverless para Apache Spark ativa o Acesso privado do Google (PGA) na sub-rede. Para ver os requisitos de conetividade de rede, consulte o artigo Google Cloud Configuração de rede do Serverless para Apache Spark.
REST
Pode usar a API Dataproc
sessions.create
para criar uma sessão interativa do Serverless para Apache Spark.
Notas:
name
: Obrigatório. Nome da sessão.version
: Opcional. Qualquer uma das versões de tempo de execução do Spark suportadas para a sua sessão. Se não especificar uma versão, é usada a versão predefinida atual.containerImage
: Opcional. Uma imagem de contentor personalizada para usar na sua sessão.properties
: Opcional. Um mapeamento de nomes de propriedades de sessão para valores. Consulte as propriedades do Spark.serviceAccount
: Opcional. A conta de serviço a usar para executar a sua sessão. Se não for especificada, é usada a conta de serviço predefinida do Compute Engine.subnetworkUri
: Opcional. O nome de uma sub-rede na região da sessão. Se não for especificado, o Serverless para Apache Spark usa a sub-rededefault
na região da sessão. O Serverless para Apache Spark ativa o Acesso privado do Google (PGA) na sub-rede. Para ver os requisitos de conetividade de rede, consulte o artigo Google Cloud Configuração de rede do Serverless para Apache Spark.
Crie um modelo de sessão
Um modelo de sessão do Serverless para Apache Spark define as definições de configuração para criar uma ou mais sessões interativas do Serverless para Apache Spark. Pode usar a Google Cloud consola, a CLI gcloud ou a API Dataproc para criar um modelo de sessão do Serverless para Apache Spark para uma sessão do Jupyter ou do Spark Connect.
Consola
Para criar um modelo de sessão do Serverless for Apache Spark através da Google Cloud consola, conclua os seguintes passos:
Na Google Cloud consola, aceda à página Modelos de sessões.
- Clique em Criar.
Na página Criar modelo de sessão, introduza ou confirme as definições de configuração do modelo. Tenha em conta o seguinte:
- ID de tempo de execução do modelo: obrigatório. Aceite o ID (nome) predefinido ou especifique um nome de tempo de execução do modelo.
- Região: obrigatório. Aceite a região predefinida ou especifique uma região disponível para sessões de modelos.
- Versão do tempo de execução: opcional. Os tempos de execução da sessão selecionáveis correspondem às
versões do tempo de execução do Serverless para Apache Spark.
- Requisito da sessão do bloco de notas do BigQuery Studio: se estiver a criar um modelo para usar em sessões do Spark Connect do bloco de notas do BigQuery Studio, tem de usar a versão 2.3 ou superior do tempo de execução do Spark.
- Tipo de configuração do modelo: obrigatório. Selecione um tipo. Se selecionar
Jupyter
, especifique o Nome a apresentar e selecione o Tipo de kernel do Jupyter. Veja também o artigo Inicie um bloco de notas do Jupyter no Serverless para Apache Spark.- Requisito da sessão do bloco de notas do BigQuery Studio: as sessões do bloco de notas do BigQuery Studio têm de especificar o Spark Connect como o tipo de configuração do modelo.
- Conta de serviço: opcional. A conta de serviço a usar para executar sessões baseadas em modelos. Se não for especificada, é usada a conta de serviço predefinida do Compute Engine.
- Imagem de contentor personalizada: opcional. Uma imagem de contentor personalizada para usar nas suas sessões baseadas em modelos.
- Propriedades: opcional. Clique em Adicionar item para cada propriedade a definir para as sessões baseadas em modelos. Para mais informações, consulte o artigo Propriedades do Spark.
- Configuração de rede: * Obrigatório. Selecione uma sub-rede na região da sessão. O Serverless para Apache Spark ativa o Acesso privado do Google (PGA) na sub-rede especificada. Para ver os requisitos de conetividade de rede, consulte o artigo Google Cloud Configuração de rede do Serverless para Apache Spark.
Clique em Enviar para criar o modelo de sessão.
gcloud
Não pode criar diretamente um modelo de sessão do Serverless para Apache Spark através da CLI gcloud, mas pode usar o comando gcloud beta dataproc session-templates import
para importar um modelo de sessão existente. Pode editar o modelo importado
e, em seguida, exportá-lo através do comando gcloud beta dataproc session-templates export
.
REST
Pode usar a API Dataproc
sessionTemplates.create
para criar um modelo de sessão do Serverless para Apache Spark.
Notas:
name
: Obrigatório. Nome do modelo de sessão.version
: Opcional. Qualquer uma das versões de tempo de execução do Spark suportadas para as suas sessões baseadas em modelos. Se não especificar uma versão, é usada a versão predefinida.- Requisito da sessão do bloco de notas do BigQuery Studio: se estiver a criar um modelo para usar em sessões do Spark Connect do bloco de notas do BigQuery Studio, tem de usar a versão 2.3 ou superior do tempo de execução do Spark.
sessionConfig
: especifiquejupyter_session
ouspark_connect_session
. Se especificarjupyter_session
, também especifiqueJupyterConfig.display_name
eJupyterConfig.kernel
. Veja também Inicie um bloco de notas do Jupyter no Serverless para Apache Spark.- Requisito da sessão do bloco de notas do BigQuery Studio: as sessões do bloco de notas do BigQuery Studio têm de especificar o Spark Connect como o tipo de configuração do modelo.
containerImage
: Opcional. Uma imagem de contentor personalizado para usar nas suas sessões baseadas em modelos.properties
: Opcional. Um mapeamento de nomes de propriedades de sessão para valores. Consulte as propriedades do Spark.serviceAccount
: Opcional. Uma conta de serviço a usar para executar as sessões baseadas em modelos. Se não for especificada, é usada a conta de serviço predefinida do Compute Engine.subnetworkUri
: Opcional. O nome de uma sub-rede na região da sessão. Se não for especificado, o Serverless para Apache Spark usa a sub-rededefault
na região da sessão. O Serverless para Apache Spark ativa o Acesso privado do Google (PGA) na sub-rede. Para ver os requisitos de conetividade de rede, consulte o artigo Google Cloud Configuração de rede do Serverless para Apache Spark.