Esta página foi traduzida pela API Cloud Translation.

Visão geral do Serverless para Apache Spark

Google Cloud Com o Serverless para Apache Spark, você pode executar cargas de trabalho do Spark sem precisar provisionar e gerenciar seu próprio cluster do Dataproc. Há duas maneiras de executar cargas de trabalho do Serverless para Apache Spark:

Cargas de trabalho em lote
Sessões interativas

Cargas de trabalho em lote

Envie uma carga de trabalho em lote para o serviço sem servidor para Apache Spark usando o consoleGoogle Cloud , Google Cloud CLI ou a API Dataproc. O serviço executa a carga de trabalho em uma infraestrutura de computação gerenciada, com escalonamento automático de recursos conforme necessário. As cobranças do Serverless para Apache Spark se aplicam somente ao momento em que a carga de trabalho está em execução.

Para começar, consulte Executar uma carga de trabalho em lote do Apache Spark.

Sessões interativas

Escrever e executar código em notebooks Jupyter durante uma sessão interativa do Dataproc sem servidor para Apache Spark. É possível criar uma sessão de notebook das seguintes maneiras:

Executar código PySpark em notebooks do BigQuery Studio. Use o notebook Python do BigQuery para criar uma sessão interativa do Serverless para Apache Spark baseada no Spark Connect. Cada notebook do BigQuery só pode ter uma sessão ativa do Serverless para Apache Spark associada a ele.
Use o plug-in do Dataproc JupyterLab para criar várias sessões de notebook Jupyter com base em modelos que você cria e gerencia. Ao instalar o plug-in em uma máquina local ou em uma VM do Compute Engine, diferentes cards correspondentes a diferentes configurações de kernel do Spark aparecem na página de inicialização do JupyterLab. Clique em um card para criar uma sessão de notebook do Serverless para Apache Spark e comece a escrever e testar seu código no notebook.

O plug-in do JupyterLab para Dataproc também permite usar a página de inicialização do JupyterLab para realizar as seguintes ações:
- Crie clusters do Dataproc no Compute Engine.
- Envie jobs para clusters do Dataproc no Compute Engine.
- Ver Google Cloud e registros do Spark.

Sem servidor para Apache Spark em comparação com o Dataproc no Compute Engine

Se você quiser provisionar e gerenciar a infraestrutura e executar cargas de trabalho no Spark e em outros frameworks de processamento de código aberto, use o Dataproc no Compute Engine. A tabela a seguir lista as principais diferenças entre o Dataproc no Compute Engine e o Serverless para Apache Spark.

Capacidade	Serverless para Apache Spark	Dataproc no Compute Engine
Frameworks de processamento	Cargas de trabalho em lote: Spark 3.5 e versões anteriores Sessões interativas: Spark 3.5 e versões anteriores	Spark 3.5 e versões anteriores. Outros frameworks de código aberto, como Hive, Flink, Trino e Kafka
Sem servidor	Sim	Não
Tempo de inicialização	60 s	90
Controle de infraestrutura	Não	Sim
Gerenciamento de recursos	Com base no Spark	Baseado em YARN
Suporte a GPUs	Sim	Sim
Sessões interativas	Sim	Não
Contêineres personalizados	Sim	Não
Acesso à VM (por exemplo, SSH)	Não	Sim
Versões do Java	Java 17, 11	Versões anteriores com suporte

Compliance da segurança

O Serverless para Apache Spark segue todos os requisitos de residência de dados, CMEK, VPC-SC e outros requisitos de segurança que o Dataproc atende.

Recursos de carga de trabalho em lote

É possível executar os seguintes tipos de carga de trabalho em lote do Serverless para Apache Spark:

PySpark
Spark SQL
Spark R
Spark (Java ou Scala)

É possível especificar propriedades do Spark ao enviar uma carga de trabalho em lote do Serverless para Apache Spark.