Dataproc Serverless consente di eseguire carichi di lavoro Spark senza dover gestire e eseguire il provisioning del cluster Dataproc.
Esistono due modi per eseguire i carichi di lavoro Dataproc Serverless:
Dataproc Serverless per Spark Batch: usa la console Google Cloud, Google Cloud CLI o l'API Dataproc per inviare un carico di lavoro batch al servizio Dataproc Serverless. Il servizio eseguirà il carico di lavoro su un'infrastruttura di computing gestita, con scalabilità automatica delle risorse secondo necessità. Gli addebiti di Dataproc Serverless si applicano solo al momento in cui il carico di lavoro è in esecuzione.
Per iniziare, consulta Eseguire un carico di lavoro batch Apache Spark.
Dataproc Serverless for Spark Interactive: scrivi ed esegui codice nei blocchi note Jupyter durante una sessione interattiva di Dataproc Serverless per Spark. Puoi creare una sessione di blocco note nei seguenti modi:
- Utilizza il plug-in Dataproc JupyterLab per creare più sessioni di blocco note dai modelli che crei e gestisci. Quando installi il plug-in su una macchina locale o su una VM di Compute Engine, nella pagina dell'avvio di JupyterLab vengono visualizzate schede diverse corrispondenti alle diverse configurazioni del kernel Spark. Fai clic su una scheda per creare una sessione blocco note con Dataproc Serverless, quindi inizia a scrivere e testare il codice.
Il plug-in JupyterLab di Dataproc consente inoltre di utilizzare la pagina di avvio di JupyterLab per eseguire le seguenti azioni:
- Creare cluster di Dataproc su Compute Engine.
- Inviare job a Dataproc su cluster Compute Engine.
- Visualizzare i log di Google Cloud e Spark.
Per iniziare, consulta Utilizzare JupyterLab per sessioni serverless in batch e blocchi note interattive.
Dataproc Serverless per Spark rispetto a Dataproc su Compute Engine
Dataproc su Compute Engine è ideale per eseguire il provisioning e la gestione dell'infrastruttura, per poi eseguire carichi di lavoro su Spark e altri framework di elaborazione open source. La seguente tabella elenca le principali differenze tra Dataproc su Compute Engine e Dataproc Serverless per Spark.
Capacità | Dataproc Serverless per Spark | Dataproc su Compute Engine |
---|---|---|
Framework di elaborazione | Batch: Spark 3.4 e versioni precedenti Interattiva: kernel PySpark per Spark 3.4 e versioni precedenti |
Spark 3.3 e versioni precedenti. Altri framework open source, come Hive, Flink, Trino e Kafka |
Serverless | Sì | No |
Tempi di avvio | 60 secondi | 90 secondi |
Controllo dell'infrastruttura | No | Sì |
Gestione delle risorse | Basato su Spark | In base a YARN |
Supporto GPU | Pianificato | Sì |
Sessioni interattive | Sì | No |
Container personalizzati | Sì | No |
Accesso alle VM (ad esempio SSH) | No | Sì |
Versioni Java | Java 17, 11 | Versioni precedenti supportate |
Assistenza OS Login * |
No | Sì |
Note:
- Un criterio di accesso al sistema operativo non è applicabile o supportato da Dataproc Serverless.
Se la tua organizzazione applica un criterio
OS Login
, i relativi carichi di lavoro Dataproc serverless non riusciranno.
Conformità della sicurezza di Dataproc Serverless
Dataproc Serverless è conforme a tutti i requisiti di residenza dei dati, CMEK, VPC-SC e ad altri requisiti di sicurezza a cui è conforme Dataproc.
Funzionalità dei carichi di lavoro batch di Dataproc Serverless per Spark
Puoi eseguire i seguenti Dataproc Serverless per i tipi di carichi di lavoro batch Spark:
- Pyspark
- Spark SQL
- Spark R
- Spark (Java o Scala)
Puoi specificare le proprietà Spark quando invii un carico di lavoro batch Dataproc Serverless per Spark.