Che cos'è Dataproc Serverless?

Dataproc Serverless consente di eseguire carichi di lavoro Spark senza dover eseguire il provisioning e gestire il cluster Dataproc. Esistono due modi per eseguire carichi di lavoro serverless Dataproc:

Dataproc serverless per batch Spark

Utilizza la console Google Cloud, Google Cloud CLI o l'API Dataproc per inviare un carico di lavoro batch al servizio Dataproc serverless. Il servizio eseguirà il carico di lavoro su un'infrastruttura di computing gestita, con scalabilità automatica delle risorse in base alle esigenze. Gli addebiti di Dataproc Serverless si applicano solo al momento in cui il carico di lavoro è in esecuzione.

Per iniziare, consulta Eseguire un carico di lavoro batch Apache Spark.

Dataproc serverless per Spark interattivo

Scrivi ed esegui il codice nei blocchi note Jupyter durante una sessione Dataproc Serverless per Spark Interactive. Puoi creare una sessione di blocco note nei seguenti modi:

  • Utilizza il plug-in JupyterLab di Dataproc per creare più sessioni di blocco note dai modelli che crei e gestisci. Quando installi il plug-in su una macchina locale o su una VM di Compute Engine, nella pagina Avvio app di JupyterLab vengono visualizzate schede diverse che corrispondono alle diverse configurazioni del kernel Spark. Fai clic su una scheda per creare una sessione di blocco note Dataproc serverless, quindi inizia a scrivere e testare il codice nel blocco note.

    Il plug-in JupyterLab di Dataproc consente inoltre di utilizzare la pagina Avvio applicazioni JupyterLab per eseguire le seguenti azioni:

    • Creare cluster Dataproc su Compute Engine.
    • Invia job ai cluster Dataproc su Compute Engine.
    • Visualizzare i log di Google Cloud e Spark.

Per iniziare, consulta Utilizzare JupyterLab per sessioni batch e interattive del blocco note serverless.

Dataproc serverless per Spark a confronto con Dataproc su Compute Engine

Dataproc su Compute Engine è la soluzione ideale se vuoi eseguire il provisioning e gestire l'infrastruttura, quindi eseguire carichi di lavoro su Spark e altri framework di elaborazione open source. La tabella riportata di seguito elenca le principali differenze tra Dataproc su Compute Engine e Dataproc serverless per Spark.

Capacità Dataproc serverless per Spark Dataproc su Compute Engine
Framework di elaborazione Batch: Spark 3.4 e versioni precedenti
Interactive: kernel PySpark per Spark 3.4 e versioni precedenti
Spark 3.3 e versioni precedenti. Altri framework open source, come Hive, Flink, Trino e Kafka
Serverless No
Tempi di avvio 60 secondi 90 secondi
Controllo dell'infrastruttura No
Gestione delle risorse Basato su Spark Basato su YARN
Supporto GPU Yes
Sessioni interattive No
Container personalizzati Yes No
Accesso alle VM (ad esempio SSH) No
Versioni Java Java 17, 11 Versioni precedenti supportate
Assistenza OS Login * No

Note

  • Un criterio di accesso al sistema operativo non è applicabile o supportato da Dataproc Serverless. Se la tua organizzazione applica un criterio OS Login, i relativi carichi di lavoro serverless Dataproc non andranno a buon fine.

Conformità alla sicurezza serverless di Dataproc

Dataproc Serverless rispetta tutti i requisiti di residente dei dati, CMEK, VPC-SC e altri requisiti di sicurezza a cui è conforme Dataproc.

Funzionalità di Dataproc serverless per i carichi di lavoro batch Spark

Puoi eseguire i seguenti carichi di lavoro Datapro serverless per carichi di lavoro batch Spark:

  • Pyspark
  • Spark SQL
  • Spark R
  • Spark (Java o Scala)

Puoi specificare le proprietà di Spark quando invii un carico di lavoro batch Dataproc serverless per Spark.