Questa pagina è stata tradotta dall'API Cloud Translation.

Panoramica di Dataproc Serverless

Dataproc Serverless consente di eseguire carichi di lavoro Spark senza dover eseguire il provisioning e gestire il tuo cluster Dataproc. Esistono due modi per eseguire i carichi di lavoro Dataproc Serverless:

Dataproc Serverless per Spark Batch
Dataproc Serverless per Spark Interactive

Dataproc Serverless per Spark Batch

Invia un carico di lavoro batch al servizio Dataproc Serverless utilizzando la console Google Cloud, l'interfaccia a riga di comando Google Cloud CLI o l'API Dataproc. Il servizio esegue il carico di lavoro su un'infrastruttura di calcolo gestita, scalando le risorse in base alle esigenze. Gli addebiti di Dataproc Serverless si applicano solo al momento dell'esecuzione del carico di lavoro.

Per iniziare, consulta Eseguire un carico di lavoro batch Apache Spark.

Dataproc Serverless per Spark Interactive

Scrivi ed esegui codice nei blocchi note Jupyter durante una sessione interattiva Dataproc Serverless per Spark. Puoi creare una sessione del notebook nei seguenti modi:

Utilizza il plug-in JupyterLab di Dataproc per creare più sessioni del blocco note da modelli che crei e gestisci. Quando installi il plug-in su una macchina locale o su una VM Compute Engine, nella pagina del programma di avvio di JupyterLab vengono visualizzate diverse schede corrispondenti a diverse configurazioni del kernel Spark. Fai clic su una scheda per creare una sessione del blocco note Dataproc Serverless, quindi inizia a scrivere e testare il codice nel blocco note.

Il plug-in JupyterLab di Dataproc ti consente inoltre di utilizzare la pagina di avvio di JupyterLab per eseguire le seguenti azioni:
- Crea cluster Dataproc su Compute Engine.
- Invia job a Dataproc sui cluster Compute Engine.
- Visualizza i log di Google Cloud e Spark.

Per iniziare, consulta Utilizzare JupyterLab per sessioni batch e del blocco note interattive serverless.

Confronto tra Dataproc Serverless per Spark e Dataproc su Compute Engine

Se vuoi eseguire il provisioning e la gestione dell'infrastruttura ed eseguire i carichi di lavoro su Spark e altri framework di elaborazione open source, utilizza Dataproc su Compute Engine. La seguente tabella elenca le principali differenze tra Dataproc su Compute Engine e Dataproc Serverless per Spark.

Capacità	Dataproc Serverless per Spark	Dataproc su Compute Engine
Framework di elaborazione	Batch: Spark 3.4 e versioni precedenti Interattivo: kernel PySpark per Spark 3.4 e versioni precedenti	Spark 3.3 e versioni precedenti. Altri framework open source, come Hive, Flink, Trino e Kafka
Serverless	Sì	No
Tempo di avvio	60 secondi	90 secondi
Controllo dell'infrastruttura	No	Sì
Gestione delle risorse	In base a Spark	Basato su YARN
Supporto GPU	Sì	Sì
Sessioni interattive	Sì	No
Container personalizzati	Sì	No
Accesso alla VM (ad esempio SSH)	No	Sì
Versioni Java	Java 17, 11	Versioni precedenti supportate
`OS Login` assistenza *	No	Sì

Note:

Un criterio di accesso al sistema operativo non è applicabile o supportato da Dataproc Serverless. Se la tua organizzazione applica un criterio OS Login, i suoi carichi di lavoro Dataproc Serverless non andranno a buon fine.

Conformità alla sicurezza di Dataproc Serverless

Dataproc Serverless rispetta tutti i requisiti di residenza dei dati, CMEK, VPC-SC e altri requisiti di sicurezza previsti da Dataproc.

Funzionalità dei carichi di lavoro batch di Dataproc Serverless per Spark

Puoi eseguire i seguenti tipi di carichi di lavoro batch Dataproc Serverless per Spark:

PySpark
Spark SQL
Spark R
Spark (Java o Scala)

Puoi specificare le proprietà Spark quando invii un carico di lavoro batch Dataproc Serverless per Spark.