O que é o Dataproc sem servidor?

O Dataproc sem servidor permite executar cargas de trabalho do Spark sem que você precise para provisionar e gerenciar seu próprio cluster do Dataproc. Há duas maneiras de executar cargas de trabalho do Dataproc sem servidor:

Dataproc sem servidor para lote do Spark

Usar o console do Google Cloud, a Google Cloud CLI ou a API Dataproc para enviar uma carga de trabalho em lote para o serviço Dataproc sem servidor. O serviço será executado a carga de trabalho em uma infraestrutura de computação gerenciada, fazendo o escalonamento automático dos recursos conforme necessário. As cobranças do Dataproc sem servidor se aplicam somente a o momento em que a carga de trabalho está sendo executada.

Para começar, consulte Execute uma carga de trabalho em lote do Apache Spark.

Dataproc Serverless for Spark Interactive

Escrever e executar código em notebooks do Jupyter durante um período do Dataproc sem servidor para Sessão interativa do Spark. É possível criar uma sessão de notebook nas seguintes maneiras:

  • usar o plug-in do Dataproc do Dataproc para criar vários notebooks; sessões com modelos criados e gerenciados por você. Quando você instala em uma máquina local ou VM do Compute Engine, placas diferentes que correspondem a diferentes configurações do kernel do Spark aparecem na parte Página inicial do JupyterLab. Clique em um card para criar uma instância do Dataproc sem servidor sessão de notebook e comece a escrever e testar seu código nele.

    O plug-in Dataproc JupyterLab também permite use a página de tela de início do JupyterLab para fazer o seguinte:

    • Criar clusters do Dataproc no Compute Engine.
    • Enviar jobs para clusters do Dataproc no Compute Engine.
    • Acessar os registros do Google Cloud e do Spark.

Para começar, consulte Use o JupyterLab para sessões interativas de notebook e em lote sem servidor.

Dataproc sem servidor para Spark em comparação com o Dataproc no Compute Engine

Dataproc no Compute Engine é a opção ideal se você quer provisionar e gerenciar a infraestrutura e cargas de trabalho no Spark e em outros frameworks de processamento de código aberto. A tabela a seguir lista as principais diferenças entre o Dataproc no Compute Engine e Dataproc sem servidor para Spark.

Capacidade Dataproc sem servidor para Spark Dataproc no Compute Engine
Estruturas de processamento Lote: Spark 3.4 e versões anteriores
Interativo: kernels do PySpark para o Spark 3.4 e versões anteriores
Spark 3.3 e versões anteriores. Outros frameworks de código aberto, como Hive, Flink, Trino e Kafka.
Sem servidor Sim Não
Tempo de inicialização 60 s Anos 90
Controle da infraestrutura Não Sim
Gerenciamento de recursos Baseado em Spark Com base em YARN
Suporte a GPUs Sim Sim
Sessões interativas Sim Não
Contêineres personalizados Sim Não
Acesso à VM (por exemplo, SSH) Não Sim
Versões do Java Java 17 e 11 Versões anteriores compatíveis
OS Login Suporte * Não Sim

Observações:

  • Uma política de Login do SO não é aplicável ou compatível com o Dataproc sem servidor. Se a organização aplicar uma política OS Login, as cargas de trabalho do Dataproc sem servidor vai falhar.

Compliance de segurança do Dataproc sem servidor

O Dataproc sem servidor adere a toda a residência de dados, CMEK VPC-SC, e outros requisitos de segurança com os quais o Dataproc está em conformidade.

Dataproc sem servidor para recursos de carga de trabalho em lote do Spark

É possível executar o seguinte Dataproc sem servidor para tipos de carga de trabalho em lote do Spark:

  • Pyspark
  • Spark SQL
  • Spark R
  • Spark (Java ou Scala)

É possível especificar as propriedades do Spark quando você envia uma carga de trabalho em lote do Dataproc sem servidor para Spark.