Dataproc Serverless consente di eseguire carichi di lavoro Spark senza che sia necessario per il provisioning e la gestione del tuo cluster Dataproc. Esistono due modi per eseguire i carichi di lavoro Dataproc Serverless:
Dataproc Serverless per Spark Batch
Utilizza la console Google Cloud, Google Cloud CLI o l'API Dataproc per inviare un carico di lavoro batch al servizio Dataproc Serverless. Il servizio verrà eseguito il carico di lavoro su un'infrastruttura di computing gestita, con la scalabilità automatica delle risorse in base alle esigenze. Gli addebiti di Dataproc Serverless si applicano solo al tempo di esecuzione del carico di lavoro.
Per iniziare, consulta Esegui un carico di lavoro batch Apache Spark.
Dataproc Serverless per Spark Interactive
Scrivi ed esegui codice nei blocchi note Jupyter durante una sessione interattiva Dataproc Serverless per Spark. Puoi creare una sessione del notebook nei seguenti modi:
Utilizza il plug-in JupyterLab di Dataproc per creare più blocchi note sessioni da modelli che crei e gestisci. Quando installi il su una macchina locale o su una VM di Compute Engine, schede diverse che corrispondono a diverse configurazioni del kernel Spark, Pagina Avvio app JupyterLab. Fai clic su una scheda per creare un Dataproc serverless blocco note, quindi inizia a scrivere e testare il codice nel blocco note.
Il plug-in JupyterLab di Dataproc ti consente inoltre di utilizzare la pagina di avvio di JupyterLab per eseguire le seguenti azioni:
- Crea cluster Dataproc su Compute Engine.
- Invio di job ai cluster Dataproc su Compute Engine.
- Visualizzare i log di Google Cloud e Spark.
Per iniziare, consulta Utilizza JupyterLab per sessioni batch e interattive del blocco note serverless.
Dataproc serverless per Spark a confronto con Dataproc su Compute Engine
Dataproc su Compute Engine è la soluzione ideale per eseguire il provisioning e gestire l'infrastruttura e poi eseguire carichi di lavoro standard su Spark e altri framework di elaborazione open source. La seguente tabella elenca le principali differenze tra Dataproc su Compute Engine e Dataproc Serverless per Spark.
Capacità | Dataproc Serverless per Spark | Dataproc su Compute Engine |
---|---|---|
Framework di elaborazione | Batch: Spark 3.4 e versioni precedenti Interattivo: kernel PySpark per Spark 3.4 e versioni precedenti |
Spark 3.3 e versioni precedenti. Altri framework open source, come Hive, Flink, Trino e Kafka |
Serverless | Sì | No |
Tempi di avvio | 60 secondi | 90 secondi |
Controllo dell'infrastruttura | No | Sì |
Gestione delle risorse | In base a Spark | Basato su YARN |
Supporto GPU | Sì | Sì |
Sessioni interattive | Sì | No |
Container personalizzati | Sì | No |
Accesso alla VM (ad esempio SSH) | No | Sì |
Versioni Java | Java 17, 11 | Versioni precedenti supportate |
OS Login
assistenza * |
No | Sì |
Note:
- Un criterio di accesso al sistema operativo non è applicabile o supportato da Dataproc Serverless.
Se la tua organizzazione applica un criterio
OS Login
, i relativi carichi di lavoro serverless Dataproc non riuscirà.
Conformità alla sicurezza di Dataproc Serverless
Dataproc Serverless rispetta tutti i requisiti di residenza dei dati, CMEK, VPC-SC e altri requisiti di sicurezza previsti da Dataproc.
Funzionalità dei carichi di lavoro batch di Dataproc Serverless per Spark
Puoi eseguire i seguenti tipi di carichi di lavoro batch Dataproc Serverless per Spark:
- Pyspark
- Spark SQL
- Spark R
- Spark (Java o Scala)
Puoi specificare le proprietà di Spark. quando invii un carico di lavoro batch Dataproc serverless per Spark.