O Dataproc sem servidor permite executar cargas de trabalho em lote do Spark sem a necessidade de provisionar e gerenciar seu próprio cluster. Especifique os parâmetros da carga de trabalho e envie a carga de trabalho ao serviço sem servidor do Dataproc. O serviço executará a carga de trabalho em uma infraestrutura de computação gerenciada, fazendo o escalonamento automático dos recursos conforme necessário. As cobranças sem servidor do Dataproc se aplicam somente ao momento em que a carga de trabalho está em execução.
Programar cargas de trabalho em lote do Dataproc sem servidor para o Spark: é possível programar uma carga de trabalho em lote do Spark como parte de um fluxo de trabalho do Airflow ou do Cloud Composer usando um operador de lote do Airflow. Para mais informações, consulte Executar cargas de trabalho sem servidor do Dataproc com o Cloud Composer.
Dataproc sem servidor para o Spark em comparação com o Dataproc no Compute Engine
O Dataproc no Compute Engine é ideal para usuários que querem provisionar e gerenciar uma infraestrutura e, em seguida, executar cargas de trabalho no Spark e em outros frameworks de processamento de código aberto. A tabela a seguir lista as principais diferenças entre o Dataproc no Compute Engine e o Dataproc sem servidor para o Spark.
Capacidade | Dataproc sem servidor para o Spark | Dataproc no Compute Engine |
---|---|---|
Frameworks de processamento | Spark 3.2L | Spark 3.1 e versões anteriores Outros frameworks de código aberto, como o Hive |
Sem servidor | Yes | No |
Tempo de inicialização | 60 s | 90 |
Controle de infraestrutura | No | Yes |
Gerenciamento de recursos | Baseada em Spark | Com base em YARN |
Suporte a GPUs | Em planejamento | Yes |
Sessões interativas | Planejado (gerenciado pelo Google) | Sim (gerenciado pelo cliente) |
Contêineres personalizados | Yes | No |
Acesso à VM (por exemplo, SSH) | No | Yes |
Versões Java | Java 11 | Versões anteriores compatíveis |
Suporte para OS Login * |
No | Yes |
Observações:
- Uma política de login do SO não é aplicável ou compatível com o Dataproc sem servidor.
Se a organização aplicar uma política
OS Login
, as cargas de trabalho sem servidor do Dataproc falharão.
Dataproc sem servidor para recursos de carga de trabalho do Spark
É possível executar os seguintes tipos de carga de trabalho do Spark no serviço sem servidor do Dataproc para o Spark:
- Pyspark
- Spark SQL
- Spark r
- Spark Java/Scala
- É possível especificar as propriedades do Spark ao enviar uma carga de trabalho em lote do Spark.