O que é o Dataproc sem servidor?

O Dataproc sem servidor permite executar cargas de trabalho em lote do Spark sem a necessidade de provisionar e gerenciar seu próprio cluster. Especifique os parâmetros da carga de trabalho e envie a carga de trabalho ao serviço sem servidor do Dataproc. O serviço executará a carga de trabalho em uma infraestrutura de computação gerenciada, fazendo o escalonamento automático dos recursos conforme necessário. As cobranças sem servidor do Dataproc se aplicam somente ao momento em que a carga de trabalho está em execução.

Programar cargas de trabalho em lote do Dataproc sem servidor para o Spark: é possível programar uma carga de trabalho em lote do Spark como parte de um fluxo de trabalho do Airflow ou do Cloud Composer usando um operador de lote do Airflow. Para mais informações, consulte Executar cargas de trabalho sem servidor do Dataproc com o Cloud Composer.

Dataproc sem servidor para o Spark em comparação com o Dataproc no Compute Engine

O Dataproc no Compute Engine é ideal para usuários que querem provisionar e gerenciar uma infraestrutura e, em seguida, executar cargas de trabalho no Spark e em outros frameworks de processamento de código aberto. A tabela a seguir lista as principais diferenças entre o Dataproc no Compute Engine e o Dataproc sem servidor para o Spark.

Capacidade Dataproc sem servidor para o Spark Dataproc no Compute Engine
Frameworks de processamento Spark 3.2L Spark 3.1 e versões anteriores Outros frameworks de código aberto, como o Hive
Sem servidor Yes No
Tempo de inicialização 60 s 90
Controle de infraestrutura No Yes
Gerenciamento de recursos Baseada em Spark Com base em YARN
Suporte a GPUs Em planejamento Yes
Sessões interativas Planejado (gerenciado pelo Google) Sim (gerenciado pelo cliente)
Contêineres personalizados Yes No
Acesso à VM (por exemplo, SSH) No Yes
Versões Java Java 11 Versões anteriores compatíveis
Suporte para OS Login * No Yes

Observações:

  • Uma política de login do SO não é aplicável ou compatível com o Dataproc sem servidor. Se a organização aplicar uma política OS Login, as cargas de trabalho sem servidor do Dataproc falharão.

Dataproc sem servidor para recursos de carga de trabalho do Spark

É possível executar os seguintes tipos de carga de trabalho do Spark no serviço sem servidor do Dataproc para o Spark:

  • Pyspark
  • Spark SQL
  • Spark r
  • Spark Java/Scala