Un profilo di calcolo specifica come e dove viene eseguita una pipeline. Incapsula tutte le informazioni necessarie per configurare ed eliminare l'ambiente di esecuzione fisico di una pipeline. Un profilo di calcolo specifica un nome di provisioner e le impostazioni di configurazione per quel provisioner.
Ogni profilo di calcolo ha un ambito: system o user. Puoi utilizzare i profili di calcolo di sistema per tutti gli spazi dei nomi al loro interno. I profili di calcolo utente esistono all'interno di uno spazio dei nomi e solo le pipeline in quello spazio dei nomi possono utilizzarli. I profili di calcolo possono essere assegnati alle pipeline batch. Quando un profilo di calcolo viene assegnato a una pipeline, il provisioning specificato nel profilo verrà utilizzato per creare un cluster in cui verrà eseguita la pipeline.
Ad esempio, un amministratore potrebbe decidere di creare profili di calcolo di piccole, medie e grandi dimensioni. Configurano ogni profilo con le Google Cloud credenziali necessarie per creare ed eliminare i cluster Dataproc nell' Google Cloud account Google Clouddella società.
- Il profilo piccolo è configurato per creare un cluster di 5 nodi.
- Il profilo medio è configurato per creare un cluster di 20 nodi.
- Il profilo grande è configurato per creare un cluster di 50 nodi.
L'amministratore assegna il profilo piccolo alle pipeline pianificate per essere eseguite ogni ora su piccole quantità di dati. Assegnano il profilo di grandi dimensioni alle pipeline pianificate per l'esecuzione ogni giorno su una grande quantità di dati.
Profilo di calcolo predefinito
Per impostazione predefinita, Cloud Data Fusion utilizza Autoscale come profilo di calcolo. È difficile stimare il numero appropriato di worker (nodi) del cluster per un carico di lavoro e spesso una singola dimensione del cluster per un'intera pipeline non è ideale. La scalabilità automatica di Dataproc offre un meccanismo per automatizzare la gestione delle risorse del cluster e consente la scalabilità automatica delle VM worker del cluster. Per ulteriori informazioni, consulta la sezione Scalabilità automatica.
Nella pagina Configurazione di calcolo, in cui puoi visualizzare un elenco di profili, è presente una colonna Core totali che indica il numero massimo di vCPU a cui il profilo può eseguire il ridimensionamento, ad esempio Up to 84
.
Profili di calcolo di sistema e utente
Un profilo di calcolo indica quale provisioning manager utilizzare per creare un cluster e specifica la configurazione del cluster. Specificano inoltre la configurazione del provisioning da utilizzare durante la creazione di un cluster.
- Per creare un profilo di calcolo di sistema, vai alla pagina Amministrazione di sistema in Cloud Data Fusion Studio. Questa pagina elenca tutti i profili di calcolo di sistema e ti consente di crearne di nuovi.
- Per creare un profilo di calcolo utente, vai alla pagina Amministrazione del nome visualizzato in Cloud Data Fusion Studio e seleziona il nome visualizzato in cui creare il profilo. Poi, puoi creare un profilo che esista solo all'interno di questo spazio dei nomi.
Assegnazione del profilo di calcolo
Puoi assegnare i profili di calcolo alle pipeline batch nei seguenti modi:
- Assegna un profilo predefinito per l'istanza Cloud Data Fusion.
- Assegna un profilo predefinito per uno spazio dei nomi specifico.
- Assegna un profilo a una pipeline batch da utilizzare per le esecuzioni avviate manualmente.
- Assegna un profilo a una pianificazione della pipeline.
Se nella pianificazione è impostato un profilo che attiva un'esecuzione o se esegui manualmente una pipeline e a questa è assegnato un profilo, Cloud Data Fusion utilizza quel profilo di calcolo.
Se non è impostato alcun profilo, Cloud Data Fusion utilizza il profilo predefinito per lo spazio dei nomi. Se non è impostato alcun profilo predefinito per lo spazio dei nomi,
Cloud Data Fusion utilizza il profilo predefinito di sistema. Se non è impostato un valore predefinito per il sistema, viene utilizzato il profilo integrato.
Assegnare un profilo di calcolo predefinito
Per assegnare profili predefiniti a un'istanza o a un nome di spazio di Cloud Data Fusion, vai a Cloud Data Fusion Studio e fai clic su Amministrazione sistema > Configurazione > Profili di calcolo del sistema. Per selezionare quello predefinito, fai clic sulla stella accanto al nome del profilo.
(Facoltativo) Utilizza i microservizi delle preferenze per impostare i profili predefiniti
- Per impostare il profilo predefinito, imposta una preferenza sull'istanza Cloud Data Fusion con la chiave system.profile.name e il valore
system:<profile-name>
. - Per impostare il profilo predefinito per uno spazio dei nomi, imposta una preferenza sullo spazio dei nomi scelto con chiave
system.profile.name
e valore<scope>:<profile-name>
.
Assegna un profilo di calcolo per le esecuzioni manuali
Per assegnare un profilo da utilizzare per le esecuzioni manuali della pipeline:
- Vai alla pagina dei dettagli della pipeline.
- Fai clic su Configura > Configurazione calcolo.
- Seleziona un profilo e fai clic su Salva. Il profilo selezionato viene utilizzato ogni volta che la pipeline viene eseguita manualmente.
In alternativa, puoi utilizzare i microservizi Preferences per impostare il profilo per le esecuzioni manuali impostando la preferenza sull'entità DataPipelineWorkflow
con chiave system.profile.name
e valore <scope>:<profile-name>
.
Assegnare un profilo di calcolo a una pianificazione
Ogni volta che crei una pianificazione per una pipeline, puoi assegnarle un profilo. Ogni volta che la pianificazione attiva un'esecuzione della pipeline, utilizzerà questo profilo per l'esecuzione. Questo vale per le pianificazioni temporali e le pianificazioni attivate da altre pipeline.
Sostituire la configurazione di un profilo di calcolo
Quando viene creato un profilo, ogni impostazione di configurazione può essere resa immutabile bloccandola. Tuttavia, se le impostazioni di configurazione non sono bloccate, possono essere sostituite in fase di esecuzione. Per eseguire l'override della configurazione del profilo:
- Nella pagina Elenco pipeline, seleziona la pipeline di cui vuoi eseguire il deployment.
- Nella pagina Dettagli pipeline, fai clic su Configura.
- Scegli un profilo di calcolo e fai clic su Personalizza.
- Modifica le impostazioni e fai clic su Salva.
Puoi utilizzare gli argomenti di runtime e le proprietà di pianificazione per modificare le dimensioni del cluster e altre impostazioni.
- Per sostituire il profilo utilizzato, imposta un argomento di runtime con la chiave
system.profile.name
e il valore<scope>:<profile-name>
. - Per sostituire una proprietà del profilo, imposta un argomento di runtime con chiave
system.profile.properties.<property-name>
e valore uguale al valore per la proprietà.
Ad esempio, per sostituire numWorkerssetting
con un valore 10
, imposta un
argomento di preferenza o di runtime con la chiave
system.profile.properties.numWorkers
e il valore 10
.
Passaggi successivi
- Scopri di più sui provisioner in Cloud Data Fusion.
- Scopri di più sulla configurazione del cluster Dataproc.