Panoramica di Serverless per Apache Spark

Serverless per Apache Spark ti consente di eseguire workload Spark senza richiedere il provisioning e la gestione del tuo cluster Dataproc. Esistono due modi per eseguire i workload Serverless per Apache Spark:

Workload batch

Invia un carico di lavoro batch al servizio Serverless per Apache Spark utilizzando la consoleGoogle Cloud , Google Cloud CLI o l'API Dataproc. Il servizio esegue il workload su un'infrastruttura di calcolo gestita, scalando le risorse in base alle esigenze. Gli addebiti per Serverless per Apache Spark si applicano solo al periodo di esecuzione del workload.

Per iniziare, vedi Esegui un workload batch Apache Spark.

Sessioni interattive

Scrivi ed esegui codice nei notebook Jupyter durante una sessione interattiva di Serverless per Apache Spark. Puoi creare una sessione del notebook nei seguenti modi:

  • Esegui il codice PySpark nei blocchi note di BigQuery Studio. Utilizza il notebook Python BigQuery per creare una sessione interattiva di Serverless per Apache Spark basata su Spark Connect. A ogni notebook BigQuery può essere associata una sola sessione Serverless per Apache Spark attiva.

  • Utilizza il plug-in JupyterLab di Dataproc per creare più sessioni del notebook Jupyter da modelli che crei e gestisci. Quando installi il plug-in su una macchina locale o su una VM Compute Engine, nella pagina di avvio di JupyterLab vengono visualizzate diverse schede corrispondenti a diverse configurazioni del kernel Spark. Fai clic su una scheda per creare una sessione del notebook Serverless per Apache Spark, quindi inizia a scrivere e testare il codice nel notebook.

    Il plug-in JupyterLab di Dataproc ti consente anche di utilizzare la pagina di avvio di JupyterLab per eseguire le seguenti azioni:

    • Crea cluster Dataproc su Compute Engine.
    • Invia job ai cluster Dataproc su Compute Engine.
    • Visualizza i log Google Cloud e Spark.

Serverless per Apache Spark rispetto a Dataproc su Compute Engine

Se vuoi eseguire il provisioning e gestire l'infrastruttura ed eseguire carichi di lavoro su Spark e altri framework di elaborazione open source, utilizza Dataproc su Compute Engine. La seguente tabella elenca le principali differenze tra Dataproc su Compute Engine e Serverless per Apache Spark.

Capacità Serverless per Apache Spark Dataproc su Compute Engine
Framework di elaborazione Carichi di lavoro batch: Spark 3.5 e versioni precedenti
Sessioni interattive: Spark 3.5 e versioni precedenti
Spark 3.5 e versioni precedenti. Altri framework open source, come Hive, Flink, Trino e Kafka
Serverless No
Tempi di avvio 60 secondi 90 secondi
Controllo dell'infrastruttura No
Gestione delle risorse Basato su Spark Basato su YARN
Supporto GPU
Sessioni interattive No
Container personalizzati No
Accesso alla VM (ad esempio, SSH) No
Versioni di Java Java 17, 11 Versioni precedenti supportate

Conformità ai requisiti di sicurezza

Serverless per Apache Spark rispetta tutti i requisiti di residenza dei dati, CMEK, VPC-SC e altri requisiti di sicurezza rispettati da Dataproc.

Funzionalità del carico di lavoro batch

Puoi eseguire i seguenti tipi di workload batch Serverless per Apache Spark:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java o Scala)

Puoi specificare le proprietà Spark quando invii un carico di lavoro batch Serverless per Apache Spark.