Gestisci profili di calcolo

Un profilo di computing specifica come e dove viene eseguita una pipeline. Incapsula tutte le informazioni necessarie per configurare ed eliminare l'ambiente di esecuzione fisica di una pipeline. Un profilo di computing specifica il nome di un provisioner e le impostazioni di configurazione per quel provisioner.

Ogni profilo di computing ha un ambito: system o user. Puoi usare i profili Compute di sistema per qualsiasi spazio dei nomi al di sotto. I profili di calcolo dell'utente esistono all'interno di uno spazio dei nomi e solo le pipeline in questo spazio dei nomi possono utilizzare i profili di calcolo dell'utente. I profili di calcolo possono essere assegnati a pipeline in modalità batch. Quando un profilo di computing viene assegnato a una pipeline, il provisioner specificato nel profilo verrà utilizzato per creare un cluster in cui verrà eseguita la pipeline.

Ad esempio, un amministratore potrebbe decidere di creare profili di calcolo di piccole, medie e grandi dimensioni. Configura ogni profilo con le credenziali Google Cloud necessarie per creare ed eliminare i cluster Dataproc nell'account Google Cloud dell'azienda.

  • Il profilo piccolo è configurato per creare un cluster a 5 nodi.
  • Il profilo di medie dimensioni è configurato per creare un cluster di 20 nodi.
  • Il profilo di grandi dimensioni è configurato per creare un cluster di 50 nodi.

L'amministratore assegna il profilo piccolo alle pipeline pianificate per essere eseguite ogni ora su piccole quantità di dati. Assegnano il profilo di grandi dimensioni alle pipeline pianificate per essere eseguite ogni giorno su una grande quantità di dati.

Profilo di computing predefinito

Per impostazione predefinita, Cloud Data Fusion utilizza la scalabilità automatica come profilo di calcolo. Stimare il numero appropriato di worker (nodi) del cluster per un carico di lavoro è difficile e una singola dimensione di cluster per un'intera pipeline spesso non è l'ideale. La scalabilità automatica di Dataproc offre un meccanismo per automatizzare la gestione delle risorse del cluster. Per maggiori informazioni, consulta la sezione Scalabilità automatica.

Nella pagina Configurazione Compute, dove puoi visualizzare un elenco di profili, è presente la colonna Core totali che contiene il numero massimo di vCPU a cui il profilo può fare lo scale up, ad esempio Up to 84.

Profili di calcolo di sistema e utente

Un profilo di computing indica il provisioner da utilizzare durante la creazione di un cluster e specifica la configurazione del cluster. Specifica inoltre la configurazione del provisioner da utilizzare durante la creazione di un cluster.

  • Per creare un profilo di computing di sistema, vai alla pagina Amministratore di sistema in Cloud Data Fusion Studio. In questa pagina sono elencati tutti i profili di calcolo del sistema e puoi crearne di nuovi.
  • Per creare un profilo di computing utente, vai alla pagina Amministrazione spazio dei nomi in Cloud Data Fusion Studio, quindi seleziona lo spazio dei nomi in cui creare il profilo. Poi puoi creare un profilo che esiste solo all'interno di questo spazio dei nomi.

Assegnazione del profilo di calcolo

Puoi assegnare profili di calcolo alle pipeline batch nei seguenti modi:

  • Assegna un profilo predefinito per l'istanza Cloud Data Fusion.
  • Assegna un profilo predefinito per uno spazio dei nomi specifico.
  • Assegna un profilo a una pipeline batch da utilizzare per le esecuzioni avviate manualmente.
  • Assegnare un profilo a una pianificazione della pipeline.

Se nella pianificazione è impostato un profilo che attiva un'esecuzione o se esegui manualmente una pipeline ed esiste un profilo assegnato a quella pipeline, Cloud Data Fusion utilizza quel profilo di calcolo.

Se non è impostato alcun profilo, Cloud Data Fusion utilizza il profilo predefinito per lo spazio dei nomi. Se non è impostato alcun profilo predefinito per lo spazio dei nomi,

Cloud Data Fusion utilizza il profilo predefinito di sistema. Se non vengono impostati valori predefiniti di sistema, viene utilizzato il profilo integrato.

Assegna un profilo di computing predefinito

Per assegnare profili predefiniti a uno spazio dei nomi o a un'istanza di Cloud Data Fusion, accedi a Cloud Data Fusion Studio e fai clic su Amministratore di sistema > Configurazione > Profili di calcolo di sistema. Per selezionare l'impostazione predefinita, fai clic sulla stella accanto al nome del profilo.

(Facoltativo) Utilizza i microservizi Preferenze per impostare profili predefiniti

  • Per impostare il profilo predefinito, imposta una preferenza sull'istanza Cloud Data Fusion con la chiave system.profile.name e il valore system:<profile-name>.
  • Per impostare il profilo predefinito per uno spazio dei nomi, imposta una preferenza per lo spazio dei nomi scelto con la chiave system.profile.name e il valore <scope>:<profile-name>.

Assegna un profilo di calcolo per le esecuzioni manuali

Per assegnare un profilo da utilizzare per le esecuzioni manuali della pipeline:

  1. Vai alla pagina dei dettagli della pipeline.
  2. Fai clic su Configura > Configurazione computing.
  3. Seleziona un profilo e fai clic su Salva. Il profilo selezionato viene utilizzato ogni volta che la pipeline viene eseguita manualmente.

In alternativa, puoi utilizzare i microservizi Preferenze per impostare il profilo per le esecuzioni manuali impostando la preferenza nell'entità DataPipelineWorkflow con chiave system.profile.name e valore <scope>:<profile-name>.

Assegna un profilo di computing a una pianificazione

Ogni volta che crei una pianificazione per una pipeline, puoi assegnarle un profilo. Ogni volta che la pianificazione attiva l'esecuzione di una pipeline, utilizzerà quel profilo per l'esecuzione. Questo vale per le pianificazioni temporali e per le pianificazioni attivate da altre pipeline.

Esegui l'override della configurazione di un profilo di computing

Quando viene creato un profilo, ogni impostazione di configurazione può essere resa immutabile bloccandolo. Tuttavia, se le impostazioni di configurazione non sono bloccate, è possibile eseguirne l'override in fase di runtime. Per eseguire l'override della configurazione del profilo:

  1. Dalla pagina Elenco pipeline, seleziona la pipeline di cui hai eseguito il deployment che vuoi eseguire.
  2. Nella pagina Dettagli pipeline, fai clic su Configura.
  3. Scegli un profilo di computing e fai clic su Personalizza.
  4. Modifica le impostazioni desiderate e fai clic su Salva.

Puoi utilizzare argomenti di runtime e proprietà di pianificazione per modificare le dimensioni del cluster e altre impostazioni.

  • Per eseguire l'override del profilo utilizzato, imposta un argomento di runtime con la chiave system.profile.namee il valore <scope>:<profile-name>.
  • Per eseguire l'override di una proprietà del profilo, imposta un argomento di runtime con chiave system.profile.properties.<property-name> e valore uguale al valore della proprietà in questione.

Ad esempio, per eseguire l'override di numWorkerssetting con un valore 10, imposta una preferenza o un argomento di runtime con la chiave system.profile.properties.numWorkers e il valore 10.

Passaggi successivi