Un profilo di calcolo specifica come e dove viene eseguita una pipeline. it che contiene tutte le informazioni necessarie per configurare ed eliminare il dell'ambiente di esecuzione di una pipeline. Un profilo di calcolo specifica un nome di provisioner e le impostazioni di configurazione per quel provisioner.
Ogni profilo di computing ha un ambito: system o user. Puoi utilizzare i profili di calcolo di sistema per tutti gli spazi dei nomi al loro interno. I profili di calcolo dell'utente esistono all'interno di e solo le pipeline in questo spazio dei nomi possono utilizzare i profili di calcolo dell'utente. I profili di calcolo possono essere assegnati a pipeline in modalità batch. Quando un profilo di calcolo viene assegnato a una pipeline, il provisioning specificato nel profilo verrà utilizzato per creare un cluster in cui verrà eseguita la pipeline.
Ad esempio, un amministratore potrebbe decidere di creare account profili di calcolo. ogni profilo viene configurato con le credenziali necessarie per creare ed eliminare i cluster Dataproc l'account Google Cloud della società.
- Il profilo piccolo è configurato per creare un cluster a 5 nodi.
- Il profilo medio è configurato per creare un cluster di 20 nodi.
- Il profilo grande è configurato per creare un cluster di 50 nodi.
L'amministratore assegna il profilo piccolo alle pipeline pianificate per essere eseguite ogni ora su piccole quantità di dati. Assegnano il profilo di grandi dimensioni alle pipeline pianificate per l'esecuzione ogni giorno su una grande quantità di dati.
Profilo di computing predefinito
Per impostazione predefinita, Cloud Data Fusion utilizza Autoscale come profilo di calcolo. La stima del numero appropriato di worker (nodi) del cluster per un carico di lavoro è e una singola dimensione di cluster per un'intera pipeline spesso non è l'ideale. La scalabilità automatica di Dataproc offre un meccanismo per automatizzare la gestione delle risorse del cluster e consente la scalabilità automatica delle VM worker del cluster. Per ulteriori informazioni, consulta la sezione Scalabilità automatica.
Nella pagina Configurazione Compute, dove puoi visualizzare un elenco di profili, è disponibile
una colonna Core totali, che contiene il numero massimo di vCPU che un profilo può scalare
fino a, ad esempio Up to 84
.
Profili di calcolo di sistema e utente
Un profilo di calcolo indica quale provisioning agent utilizzare per creare un cluster e specifica la configurazione del cluster. Specificano inoltre la configurazione del provisioning da utilizzare durante la creazione di un cluster.
- Per creare un profilo di System Compute, vai alla pagina Amministrazione di sistema in in Cloud Data Fusion Studio. In questa pagina sono elencati tutti i profili di calcolo di sistema e consente di creare nuovi profili di calcolo di sistema.
- Per creare un profilo di calcolo utente, vai alla pagina Amministrazione del nome di spazio in Cloud Data Fusion Studio e seleziona il nome di spazio in cui creare il profilo. Poi, puoi creare un profilo che esista solo all'interno di questo spazio dei nomi.
Assegnazione del profilo di calcolo
Puoi assegnare i profili di calcolo alle pipeline batch nei seguenti modi:
- Assegna un profilo predefinito per l'istanza Cloud Data Fusion.
- Assegna un profilo predefinito per uno spazio dei nomi specifico.
- Assegna un profilo a una pipeline batch da utilizzare per le esecuzioni avviate manualmente.
- Assegnare un profilo a una pianificazione della pipeline.
Se nella pianificazione è impostato un profilo che attiva un'esecuzione o se esegui manualmente una pipeline a cui è assegnato un profilo, Cloud Data Fusion utilizza questo profilo di calcolo.
Se non è impostato alcun profilo, Cloud Data Fusion utilizza il profilo predefinito per nello spazio dei nomi. Se non è impostato alcun profilo predefinito per lo spazio dei nomi,
Cloud Data Fusion utilizza il profilo predefinito di sistema. Se non è impostato un valore predefinito per il sistema, viene utilizzato il profilo integrato.
Assegna un profilo di calcolo predefinito
Per assegnare profili predefiniti a un'istanza o a un nome di spazio di Cloud Data Fusion, vai a Cloud Data Fusion Studio e fai clic su Amministrazione sistema > Configurazione > Profili di calcolo del sistema. Per selezionare quello predefinito, fai clic sulla stella accanto al nome del profilo.
(Facoltativo) Utilizza i microservizi delle preferenze per impostare i profili predefiniti
- Per impostare il profilo predefinito, imposta una preferenza in Cloud Data Fusion
con la chiave system.profile.name e valore
system:<profile-name>
. - Per impostare il profilo predefinito per uno spazio dei nomi, imposta una preferenza nella
spazio dei nomi scelto con chiave
system.profile.name
e valore<scope>:<profile-name>
.
Assegna un profilo di computing per le esecuzioni manuali
Per assegnare un profilo da utilizzare per le esecuzioni manuali della pipeline:
- Vai alla pagina dei dettagli della pipeline.
- Fai clic su Configura > Configurazione calcolo.
- Seleziona un profilo e fai clic su Salva. Il profilo selezionato è in uso ogni volta che la pipeline viene eseguita manualmente.
In alternativa, puoi utilizzare i microservizi Preferenze per impostare il profilo per
esecuzioni manuali impostando la preferenza sull'entità DataPipelineWorkflow
con chiave
system.profile.name
e il valore <scope>:<profile-name>
.
Assegna un profilo di computing a una pianificazione
Ogni volta che crei una pianificazione per una pipeline, puoi assegnarle un profilo. Ogni volta che la pianificazione attiva l'esecuzione di una pipeline, utilizzerà quel profilo per vengono eseguiti tutti i test delle unità. Questo vale per le pianificazioni temporali e le pianificazioni attivate da altre pipeline.
Esegui l'override della configurazione di un profilo di computing
Quando viene creato un profilo, ogni impostazione di configurazione può essere resa immutabile bloccandola. Tuttavia, se le impostazioni di configurazione non sono bloccate, possono essere sostituite in fase di esecuzione. Per eseguire l'override della configurazione del profilo:
- Dalla pagina Elenco pipeline, seleziona la pipeline di cui hai eseguito il deployment che vuoi eseguire.
- Nella pagina Dettagli pipeline, fai clic su Configura.
- Scegli un profilo di calcolo e fai clic su Personalizza.
- Modifica le impostazioni desiderate e fai clic su Salva.
Puoi utilizzare gli argomenti di runtime e le proprietà di pianificazione per modificare le dimensioni del cluster e altre impostazioni.
- Per sostituire il profilo utilizzato, imposta un argomento di runtime con la chiave
system.profile.name
e il valore<scope>:<profile-name>
. - Per sostituire una proprietà del profilo, imposta un argomento di runtime con chiave
system.profile.properties.<property-name>
e valore uguale al valore per la proprietà.
Ad esempio, per eseguire l'override di numWorkerssetting
sul valore 10
, imposta un
la preferenza o un argomento di runtime con la chiave
system.profile.properties.numWorkers
e il valore 10
.
Passaggi successivi
- Scopri di più sui provisioner in Cloud Data Fusion.
- Scopri di più sulla configurazione dei cluster Dataproc.