O Dataproc sem servidor permite executar cargas de trabalho do Spark sem a necessidade de provisionar e gerenciar seu próprio cluster do Dataproc.
Há duas maneiras de executar cargas de trabalho do Dataproc sem servidor:
Dataproc sem servidor para Spark Batch:use o console do Google Cloud, a Google Cloud CLI ou a API Dataproc para enviar uma carga de trabalho em lote ao serviço sem servidor do Dataproc. O serviço executará a carga de trabalho em uma infraestrutura de computação gerenciada, fazendo o escalonamento automático de recursos conforme necessário. As cobranças sem servidor do Dataproc se aplicam somente ao momento em que a carga de trabalho está em execução.
Para começar, consulte Executar uma carga de trabalho em lote do Apache Spark.
Dataproc sem servidor para Spark Interactive: escreva e execute código em notebooks do Jupyter durante uma sessão sem servidor do Dataproc para Spark Interactive. É possível criar uma sessão de notebook das seguintes maneiras:
- Use o plug-in Dataproc JupyterLab para criar várias sessões de notebook a partir de modelos que você cria e gerencia. Quando você instala o plug-in em uma máquina local ou VM do Compute Engine, cartões diferentes que correspondem a diferentes configurações do kernel do Spark aparecem na página de início do JupyterLab. Clique em um card para criar uma sessão de notebook do Dataproc sem servidor e comece a escrever e testar o código no notebook.
O plug-in JupyterLab do Dataproc também permite usar a página de início do JupyterLab para realizar as seguintes ações:
- Criar clusters do Dataproc no Compute Engine.
- Enviar jobs para o Dataproc nos clusters do Compute Engine.
- Acessar os registros do Google Cloud e do Spark.
Para começar, consulte Usar o JupyterLab para sessões de notebook interativas e em lote sem servidor.
Dataproc sem servidor para Spark em comparação com o Dataproc no Compute Engine
O Dataproc no Compute Engine é ideal se você quer provisionar e gerenciar a infraestrutura e, em seguida, executar cargas de trabalho no Spark e em outros frameworks de processamento de código aberto. A tabela a seguir lista as principais diferenças entre o Dataproc no Compute Engine e o Dataproc sem servidor para Spark.
Capacidade | Dataproc sem servidor para Spark | Dataproc no Compute Engine |
---|---|---|
Frameworks de processamento | Lote: versões do Spark 3.4 e anteriores Interativo: kernels do PySpark para o Spark 3.4 e versões anteriores |
Spark 3.3 e versões anteriores. Outros frameworks de código aberto, como Hive, Flink, Trino e Kafka |
Sem servidor | Sim | Não |
Tempo de inicialização | 60 s | Anos 90 |
Controle da infraestrutura | Não | Sim |
Gerenciamento de recursos | Baseado em Spark | Com base em YARN |
Suporte a GPUs | Planejado | Sim |
Sessões interativas | Sim | Não |
Contêineres personalizados | Sim | Não |
Acesso à VM (por exemplo, SSH) | Não | Sim |
Versões do Java | Java 17 e 11 | Versões anteriores compatíveis |
Suporte a OS Login * |
Não | Sim |
Observações:
- Uma política de Login do SO não é aplicável nem compatível com o Dataproc sem servidor.
Se a organização aplicar uma política
OS Login
, as cargas de trabalho sem servidor do Dataproc falharão.
Compliance de segurança sem servidor do Dataproc
O Dataproc sem servidor segue todos os requisitos de residência de dados, CMEK, VPC-SC e outros requisitos de segurança com que o Dataproc está em conformidade.
Recursos de carga de trabalho em lote do Dataproc sem servidor para Spark
É possível executar os seguintes tipos de carga de trabalho em lote do Dataproc sem servidor para Spark:
- Pyspark
- Spark SQL
- Spark r
- Spark (Java ou Scala)
É possível especificar propriedades do Spark ao enviar uma carga de trabalho em lote do Dataproc sem servidor para o Spark.