O que é o Dataproc sem servidor?

O Dataproc sem servidor permite executar cargas de trabalho do Spark sem a necessidade de provisionar e gerenciar seu próprio cluster do Dataproc.

Há duas maneiras de executar cargas de trabalho do Dataproc sem servidor:

  1. Dataproc sem servidor para Spark Batch:use o console do Google Cloud, a Google Cloud CLI ou a API Dataproc para enviar uma carga de trabalho em lote ao serviço sem servidor do Dataproc. O serviço executará a carga de trabalho em uma infraestrutura de computação gerenciada, fazendo o escalonamento automático de recursos conforme necessário. As cobranças sem servidor do Dataproc se aplicam somente ao momento em que a carga de trabalho está em execução.

    Para começar, consulte Executar uma carga de trabalho em lote do Apache Spark.

  2. Dataproc sem servidor para Spark Interactive: escreva e execute código em notebooks do Jupyter durante uma sessão sem servidor do Dataproc para Spark Interactive. É possível criar uma sessão de notebook das seguintes maneiras:

    • Use o plug-in Dataproc JupyterLab para criar várias sessões de notebook a partir de modelos que você cria e gerencia. Quando você instala o plug-in em uma máquina local ou VM do Compute Engine, cartões diferentes que correspondem a diferentes configurações do kernel do Spark aparecem na página de início do JupyterLab. Clique em um card para criar uma sessão de notebook do Dataproc sem servidor e comece a escrever e testar o código no notebook.

    O plug-in JupyterLab do Dataproc também permite usar a página de início do JupyterLab para realizar as seguintes ações:

    • Criar clusters do Dataproc no Compute Engine.
    • Enviar jobs para o Dataproc nos clusters do Compute Engine.
    • Acessar os registros do Google Cloud e do Spark.

Para começar, consulte Usar o JupyterLab para sessões de notebook interativas e em lote sem servidor.

Dataproc sem servidor para Spark em comparação com o Dataproc no Compute Engine

O Dataproc no Compute Engine é ideal se você quer provisionar e gerenciar a infraestrutura e, em seguida, executar cargas de trabalho no Spark e em outros frameworks de processamento de código aberto. A tabela a seguir lista as principais diferenças entre o Dataproc no Compute Engine e o Dataproc sem servidor para Spark.

Capacidade Dataproc sem servidor para Spark Dataproc no Compute Engine
Frameworks de processamento Lote: versões do Spark 3.4 e anteriores
Interativo: kernels do PySpark para o Spark 3.4 e versões anteriores
Spark 3.3 e versões anteriores. Outros frameworks de código aberto, como Hive, Flink, Trino e Kafka
Sem servidor Sim Não
Tempo de inicialização 60 s Anos 90
Controle da infraestrutura Não Sim
Gerenciamento de recursos Baseado em Spark Com base em YARN
Suporte a GPUs Planejado Sim
Sessões interativas Sim Não
Contêineres personalizados Sim Não
Acesso à VM (por exemplo, SSH) Não Sim
Versões do Java Java 17 e 11 Versões anteriores compatíveis
Suporte a OS Login * Não Sim

Observações:

  • Uma política de Login do SO não é aplicável nem compatível com o Dataproc sem servidor. Se a organização aplicar uma política OS Login, as cargas de trabalho sem servidor do Dataproc falharão.

Compliance de segurança sem servidor do Dataproc

O Dataproc sem servidor segue todos os requisitos de residência de dados, CMEK, VPC-SC e outros requisitos de segurança com que o Dataproc está em conformidade.

Recursos de carga de trabalho em lote do Dataproc sem servidor para Spark

É possível executar os seguintes tipos de carga de trabalho em lote do Dataproc sem servidor para Spark:

  • Pyspark
  • Spark SQL
  • Spark r
  • Spark (Java ou Scala)

É possível especificar propriedades do Spark ao enviar uma carga de trabalho em lote do Dataproc sem servidor para o Spark.