Esta página foi traduzida pela API Cloud Translation.

Visão geral do Dataproc sem servidor

O Dataproc sem servidor permite executar cargas de trabalho do Spark sem precisar provisionar e gerenciar o próprio cluster do Dataproc. Há duas maneiras de executar cargas de trabalho sem servidor do Dataproc:

Dataproc Serverless para Spark Batch
Dataproc Serverless para Spark Interactive

Dataproc Serverless para Spark Batch

Envie uma carga de trabalho em lote para o serviço sem servidor do Dataproc usando o console do Google Cloud, a Google Cloud CLI ou a API Dataproc. O serviço executa a carga de trabalho em uma infraestrutura de computação gerenciada, fazendo o escalonamento automático de recursos conforme necessário. As cobranças do Dataproc sem servidor se aplicam somente ao momento em que a carga de trabalho está em execução.

Para começar, consulte Executar uma carga de trabalho em lote do Apache Spark.

Dataproc Serverless para Spark interativo

Registre e execute códigos em notebooks do Jupyter durante uma sessão do Dataproc sem servidor para Spark interativo. É possível criar uma sessão de bloco de notas das seguintes maneiras:

Use o plug-in do JupyterLab do Dataproc para criar várias sessões de notebook com base em modelos que você cria e gerencia. Quando você instala o plug-in em uma máquina local ou em uma VM do Compute Engine, cards diferentes que correspondem a diferentes configurações do kernel do Spark aparecem na página de inicialização do JupyterLab. Clique em um card para criar uma sessão de notebook do Dataproc Serverless e comece a escrever e testar seu código no notebook.

O plug-in do JupyterLab para Dataproc também permite usar a página de inicialização do JupyterLab para fazer o seguinte:
- Crie o Dataproc em clusters do Compute Engine.
- Envie jobs para o Dataproc em clusters do Compute Engine.
- Acesse Google Cloud e os registros do Spark.

Para começar, consulte Usar o JupyterLab para sessões de notebook interativas e em lote sem servidor.

Dataproc Serverless para Spark em comparação com o Dataproc no Compute Engine

Se você quiser provisionar e gerenciar a infraestrutura e, em seguida, executar cargas de trabalho no Spark e em outros frameworks de processamento de código aberto, use o Dataproc no Compute Engine. A tabela a seguir lista as principais diferenças entre o Dataproc no Compute Engine e o Dataproc Serverless para Spark.

Capacidade	O Dataproc Serverless para Spark	Dataproc no Compute Engine
Frameworks de processamento	Batch: Spark 3.4 e versões anteriores Interativo: kernels do PySpark para Spark 3.4 e versões anteriores	Spark 3.3 e versões anteriores. Outros frameworks de código aberto, como Hive, Flink, Trino e Kafka
Sem servidor	Sim	Não
Tempo de inicialização	60 s	Anos 90
Controle de infraestrutura	Não	Sim
Gerenciamento de recursos	Com base no Spark	Com base no YARN
Suporte a GPUs	Sim	Sim
Sessões interativas	Sim	Não
Contêineres personalizados	Sim	Não
Acesso à VM (por exemplo, SSH)	Não	Sim
Versões do Java	Java 17, 11	Versões anteriores com suporte
`OS Login` suporte *	Não	Sim

Observações:

Uma política de login do SO não é aplicável nem tem suporte do Dataproc Serverless. Se a sua organização aplicar uma política OS Login, os workloads do Dataproc sem servidor vão falhar.

Compliance de segurança do Dataproc sem servidor

O Dataproc sem servidor obedece a todas as residência de dados, CMEK, VPC-SC e outros requisitos de segurança que o Dataproc obedece.

Recursos de carga de trabalho em lote do Dataproc sem servidor para Spark

É possível executar os seguintes tipos de carga de trabalho em lote do Dataproc sem servidor para o Spark:

PySpark
Spark SQL
Spark R
Spark (Java ou Scala)

É possível especificar propriedades do Spark ao enviar uma carga de trabalho em lote do Dataproc Serverless para Spark.