Questa pagina è stata tradotta dall'API Cloud Translation.

Che cos'è Dataproc Serverless?

Dataproc Serverless consente di eseguire carichi di lavoro Spark senza che sia necessario per il provisioning e la gestione del tuo cluster Dataproc. Esistono due modi per eseguire carichi di lavoro serverless Dataproc:

Dataproc Serverless per Spark Batch
Dataproc Serverless per Spark Interactive

Dataproc serverless per batch Spark

Utilizza la console Google Cloud, Google Cloud CLI o l'API Dataproc per inviare un carico di lavoro batch al servizio Dataproc Serverless. Il servizio verrà eseguito il carico di lavoro su un'infrastruttura di computing gestita, con la scalabilità automatica delle risorse in base alle esigenze. Gli addebiti di Dataproc Serverless si applicano solo a e quando il carico di lavoro è in esecuzione.

Per iniziare, consulta Esegui un carico di lavoro batch Apache Spark.

Dataproc serverless per Spark interattivo

Scrivi ed esegui codice nei blocchi note Jupyter durante un ambiente Dataproc serverless per Sessione interattiva Spark. Puoi creare una sessione di blocco note nel seguente modi:

Utilizza il plug-in JupyterLab di Dataproc per creare più blocchi note sessioni da modelli che crei e gestisci. Quando installi il su una macchina locale o su una VM di Compute Engine, schede diverse corrispondenti a diverse configurazioni del kernel Spark, appaiono Pagina Avvio app JupyterLab. Fai clic su una scheda per creare un Dataproc serverless blocco note, quindi inizia a scrivere e testare il codice nel blocco note.

Il plug-in JupyterLab di Dataproc consente inoltre utilizza la pagina Avvio app JupyterLab per eseguire le seguenti azioni:
- Creare cluster Dataproc su Compute Engine.
- Invia job ai cluster Dataproc su Compute Engine.
- Visualizzare i log di Google Cloud e Spark.

Per iniziare, consulta Utilizza JupyterLab per sessioni batch e interattive del blocco note serverless.

Dataproc serverless per Spark a confronto con Dataproc su Compute Engine

Dataproc su Compute Engine è la soluzione ideale per eseguire il provisioning e gestire l'infrastruttura e poi eseguire carichi di lavoro standard su Spark e altri framework di elaborazione open source. La tabella seguente elenca le principali differenze tra Dataproc on Compute Engine e Dataproc Serverless per Spark.

Capacità	Dataproc serverless per Spark	Dataproc su Compute Engine
Framework di elaborazione	Batch: Spark 3.4 e versioni precedenti Interactive: kernel PySpark per Spark 3.4 e versioni precedenti	Spark 3.3 e versioni precedenti. Altri framework open source, come Hive, Flink, Trino e Kafka
Serverless	Sì	No
Tempi di avvio	60 secondi	90 secondi
Controllo dell'infrastruttura	No	Sì
Gestione delle risorse	Basato su Spark	Basato su YARN
Supporto GPU	Sì	Sì
Sessioni interattive	Sì	No
Container personalizzati	Sì	No
Accesso alle VM (ad esempio SSH)	No	Sì
Versioni Java	Java 17, 11	Versioni precedenti supportate
`OS Login` assistenza *	No	Sì

Note:

Un criterio di accesso al sistema operativo non è applicabile o supportato da Dataproc Serverless. Se la tua organizzazione applica un criterio OS Login, i relativi carichi di lavoro serverless Dataproc non riuscirà.

Conformità alla sicurezza serverless di Dataproc

Dataproc Serverless rispetta tutta la residente dei dati, CMEK VPC-SC, e altri requisiti di sicurezza conformi a Dataproc.

Funzionalità di Dataproc serverless per i carichi di lavoro batch Spark

Puoi eseguire Dataproc Serverless per i tipi di carichi di lavoro batch Spark:

Pyspark
Spark SQL
Spark R
Spark (Java o Scala)

Puoi specificare le proprietà di Spark. quando invii un carico di lavoro batch Dataproc serverless per Spark.