Questa pagina è stata tradotta dall'API Cloud Translation.

Panoramica di Serverless per Apache Spark

Serverless per Apache Spark ti consente di eseguire workload Spark senza richiedere il provisioning e la gestione del tuo cluster Dataproc. Esistono due modi per eseguire i workload Serverless per Apache Spark:

Batch workloads
Sessioni interattive

Workload batch

Invia un carico di lavoro batch al servizio Serverless per Apache Spark utilizzando la consoleGoogle Cloud , Google Cloud CLI o l'API Dataproc. Il servizio esegue il workload su un'infrastruttura di calcolo gestita, scalando le risorse in base alle esigenze. Gli addebiti per Serverless per Apache Spark si applicano solo al periodo di esecuzione del workload.

Per iniziare, vedi Esegui un workload batch Apache Spark.

Sessioni interattive

Scrivi ed esegui codice nei blocchi note Jupyter durante una sessione interattiva di Serverless per Apache Spark. Puoi creare una sessione del notebook nei seguenti modi:

Esegui il codice PySpark nei blocchi note di BigQuery Studio. Utilizza il notebook Python BigQuery per creare una sessione interattiva di Serverless per Apache Spark basata su Spark Connect. A ogni notebook BigQuery può essere associata una sola sessione Serverless per Apache Spark attiva.
Utilizza il plug-in JupyterLab di Dataproc per creare più sessioni del notebook Jupyter da modelli che crei e gestisci. Quando installi il plug-in su una macchina locale o su una VM Compute Engine, nella pagina di avvio di JupyterLab vengono visualizzate diverse schede corrispondenti a diverse configurazioni del kernel Spark. Fai clic su una scheda per creare una sessione del notebook Serverless per Apache Spark, quindi inizia a scrivere e testare il codice nel notebook.

Il plug-in JupyterLab di Dataproc ti consente anche di utilizzare la pagina di avvio di JupyterLab per eseguire le seguenti azioni:
- Crea cluster Dataproc su Compute Engine.
- Invia job ai cluster Dataproc su Compute Engine.
- Visualizza i log Google Cloud e Spark.

Serverless per Apache Spark rispetto a Dataproc su Compute Engine

Se vuoi eseguire il provisioning e gestire l'infrastruttura ed eseguire carichi di lavoro su Spark e altri framework di elaborazione open source, utilizza Dataproc su Compute Engine. La seguente tabella elenca le principali differenze tra Dataproc su Compute Engine e Serverless per Apache Spark.

Capacità	Serverless per Apache Spark	Dataproc su Compute Engine
Framework di elaborazione	Carichi di lavoro batch: Spark 3.5 e versioni precedenti Sessioni interattive: Spark 3.5 e versioni precedenti	Spark 3.5 e versioni precedenti. Altri framework open source, come Hive, Flink, Trino e Kafka
Serverless	Sì	No
Tempi di avvio	60 secondi	90 secondi
Controllo dell'infrastruttura	No	Sì
Gestione delle risorse	Basato su Spark	Basato su YARN
Supporto GPU	Sì	Sì
Sessioni interattive	Sì	No
Container personalizzati	Sì	No
Accesso alla VM (ad esempio, SSH)	No	Sì
Versioni di Java	Java 17, 11	Versioni precedenti supportate

Conformità ai requisiti di sicurezza

Serverless per Apache Spark rispetta tutti i requisiti di residenza dei dati, CMEK, VPC-SC e altri requisiti di sicurezza rispettati da Dataproc.

Funzionalità del carico di lavoro batch

Puoi eseguire i seguenti tipi di workload batch Serverless per Apache Spark:

PySpark
Spark SQL
Spark R
Spark (Java o Scala)

Puoi specificare le proprietà Spark quando invii un carico di lavoro batch Serverless per Apache Spark.