Gestire le risorse Dataproc utilizzando vincoli personalizzati

I criteri dell'organizzazione Google Cloud ti offrono un controllo centralizzato e programmatico sulle risorse della tua organizzazione. In qualità di amministratore dei criteri dell'organizzazione, puoi definire un criterio dell'organizzazione, ovvero un insieme di limitazioni chiamate vincoli che si applicano alle risorse Google Cloud e ai relativi discendenti nella gerarchia delle risorse Google Cloud. Puoi applicare i criteri dell'organizzazione a livello di organizzazione, cartella o progetto.

I criteri dell'organizzazione forniscono vincoli predefiniti per vari servizi Google Cloud. Tuttavia, se vuoi un controllo più granulare e personalizzabile sui campi specifici limitati nelle norme dell'organizzazione, puoi anche creare vincoli personalizzati e utilizzarli in un criterio di organizzazione personalizzato.

Vantaggi

Puoi utilizzare un criterio dell'organizzazione personalizzato per consentire o negare operazioni specifiche sui cluster Dataproc. Ad esempio, se una richiesta di creazione o aggiornamento di un cluster non soddisfa la convalida dei vincoli personalizzati impostata dai criteri dell'organizzazione, la richiesta non andrà a buon fine e verrà restituito un errore all'utente chiamante.

Ereditarietà delle norme

Per impostazione predefinita, i criteri dell'organizzazione vengono ereditati dai discendenti delle risorse su cui applichi il criterio. Ad esempio, se applichi un criterio a una cartella, Google Cloud lo applica a tutti i progetti nella cartella. Per scoprire di più su questo comportamento e su come modificarlo, consulta Regole di valutazione della gerarchia.

Prezzi

Il servizio di criteri dell'organizzazione, inclusi i criteri dell'organizzazione predefiniti e personalizzati, viene fornito senza costi.

Prima di iniziare

  1. Configurare il progetto
    1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
    2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    3. Make sure that billing is enabled for your Google Cloud project.

    4. Enable the Dataproc API.

      Enable the API

    5. Install the Google Cloud CLI.
    6. To initialize the gcloud CLI, run the following command:

      gcloud init
    7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    8. Make sure that billing is enabled for your Google Cloud project.

    9. Enable the Dataproc API.

      Enable the API

    10. Install the Google Cloud CLI.
    11. To initialize the gcloud CLI, run the following command:

      gcloud init
    12. Assicurati di conoscere il ID organizzazione.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per gestire i criteri dell'organizzazione, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Questi ruoli predefiniti contengono le autorizzazioni necessarie per gestire le norme dell'organizzazione. Per visualizzare le autorizzazioni esatte richieste, espandi la sezione Autorizzazioni richieste:

Autorizzazioni obbligatorie

Per gestire le norme dell'organizzazione sono necessarie le seguenti autorizzazioni:

  • orgpolicy.constraints.list
  • orgpolicy.policies.create
  • orgpolicy.policies.delete
  • orgpolicy.policies.list
  • orgpolicy.policies.update
  • orgpolicy.policy.get
  • orgpolicy.policy.set

Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Creare un vincolo personalizzato

Un vincolo personalizzato viene definito in un file YAML dalle risorse, dai metodi, dalle condizioni e dalle azioni a cui viene applicato. Dataproc supporta vincoli personalizzati che vengono applicati ai metodi CREATE e UPDATE della risorsa CLUSTER (consulta Vincoli di Dataproc su risorse e operazioni).

Per creare un file YAML per un vincolo personalizzato Dataproc:

name: organizations/ORGANIZATION_ID/customConstraints/CONSTRAINT_NAME
resourceTypes:
- dataproc.googleapis.com/Cluster
methodTypes: 
- METHOD
condition: "CONDITION"
actionType: ACTION
displayName: DISPLAY_NAME
description: DESCRIPTION

Sostituisci quanto segue:

  • ORGANIZATION_ID: l'ID della tua organizzazione, ad esempio 123456789.

  • CONSTRAINT_NAME: il nome che vuoi assegnare al nuovo vincolo personalizzato. Una limitazione personalizzata deve iniziare con custom. e può includere solo lettere maiuscole, lettere minuscole o numeri, ad esempio custom.dataprocEnableComponentGateway. La lunghezza massima di questo campo è di 70 caratteri, senza contare il prefisso, ad esempioorganizations/123456789/customConstraints/custom.

  • METHOD: quando crei una limitazione per la creazione di cluster, specifica CREATE. Quando crei un vincolo UPDATE del cluster, specifica entrambi come segue:
    methodTypes:
    - CREATE
    - UPDATE
    
  • CONDITION: una condizione CEL scritta in base a una rappresentazione di una risorsa di servizio supportata. Questo campo ha una lunghezza massima di 1000 caratteri. Consulta la sezione Risorse supportate per maggiori informazioni sulle risorse disponibili per scrivere le condizioni. Ad esempio: "resource.config.endpointConfig.enableHttpPortAccess==true".

  • ACTION: l'azione da intraprendere se viene soddisfatto il criterio condition. Può essere ALLOW o DENY.

  • DISPLAY_NAME: un nome leggibile per il vincolo, ad esempio "Applica l'attivazione del gateway dei componenti Dataproc". Questo campo ha una lunghezza massima di 200 caratteri.

  • DESCRIPTION: una descrizione comprensibile del vincolo da visualizzare come messaggio di errore in caso di violazione del criterio, ad esempio "Consenti la creazione di cluster Dataproc solo se il gateway dei componenti è attivato". Questo campo ha una lunghezza massima di 2000 caratteri.

Per saperne di più su come creare un vincolo personalizzato, consulta Definire vincoli personalizzati.

Configurare un vincolo personalizzato

Dopo aver creato il file YAML per un nuovo vincolo personalizzato, devi configurarlo per renderlo disponibile per i criteri dell'organizzazione nella tua organizzazione. Per impostare un vincolo personalizzato, utilizza il comando gcloud org-policies set-custom-constraint:
gcloud org-policies set-custom-constraint CONSTRAINT_PATH
Sostituisci CONSTRAINT_PATH con il percorso completo del file delle limitazioni personalizzate. Ad esempio: /home/user/customconstraint.yaml. Al termine, i vincoli personalizzati sono disponibili come criteri dell'organizzazione nell'elenco dei criteri dell'organizzazione di Google Cloud. Per verificare che la limitazione personalizzata esista, utilizza il comando gcloud org-policies list-custom-constraints:
gcloud org-policies list-custom-constraints --organization=ORGANIZATION_ID
Sostituisci ORGANIZATION_ID con l'ID della risorsa della tua organizzazione. Per ulteriori informazioni, consulta Visualizzare i criteri dell'organizzazione.

Applicare un vincolo personalizzato

Puoi applicare un vincolo booleano creando un criterio dell'organizzazione che lo richiami e poi applicando questo criterio dell'organizzazione a una risorsa Google Cloud.

Console

  1. Nella console Google Cloud, vai alla pagina Norme dell'organizzazione.

    Vai a Criteri dell'organizzazione

  2. Nel selettore di progetti, seleziona il progetto per cui vuoi impostare il criterio dell'organizzazione.
  3. Nell'elenco della pagina Criteri organizzazione, seleziona il vincolo per visualizzare la pagina Dettagli criteri relativa al vincolo in questione.
  4. Per configurare il criterio dell'organizzazione per questa risorsa, fai clic su Gestisci criterio.
  5. Nella pagina Modifica criterio, seleziona Ignora criterio della risorsa padre.
  6. Fai clic su Aggiungi una regola.
  7. Nella sezione Applicazione, seleziona se l'applicazione di questo criterio dell'organizzazione è attivata o disattivata.
  8. (Facoltativo) Per rendere il criterio dell'organizzazione condizionale su un tag, fai clic su Aggiungi condizione. Tieni presente che se aggiungi una regola condizionale a un criterio dell'organizzazione, devi aggiungere almeno una regola non condizionale, altrimenti il criterio non può essere salvato. Per ulteriori informazioni, consulta Impostare un criterio dell'organizzazione con tag.
  9. Se si tratta di un vincolo personalizzato, puoi fare clic su Prova modifiche per simulare l'effetto di questo criterio dell'organizzazione. Per ulteriori informazioni, consulta Testare le modifiche ai criteri dell'organizzazione con Policy Simulator.
  10. Per completare e applicare il criterio dell'organizzazione, fai clic su Imposta criterio. L'applicazione del criterio può richiedere fino a 15 minuti.

gcloud

Per creare un criterio dell'organizzazione che applichi un vincolo booleano, crea un file YAML del criterio che faccia riferimento al vincolo:

      name: projects/PROJECT_ID/policies/CONSTRAINT_NAME
      spec:
        rules:
        - enforce: true
    

Sostituisci quanto segue:

  • PROJECT_ID: il progetto su cui vuoi applicare il vincolo.
  • CONSTRAINT_NAME: il nome definito per il vincolo personalizzato. Ad esempio, custom.dataprocEnableComponentGateway.

Per applicare il criterio dell'organizzazione contenente la limitazione, esegui il seguente comando:

    gcloud org-policies set-policy POLICY_PATH
    

Sostituisci POLICY_PATH con il percorso completo del file YAML del criterio dell'organizzazione. L'applicazione del criterio può richiedere fino a 15 minuti.

Testa il vincolo personalizzato

Il seguente esempio di creazione di cluster presuppone che sia stato creato e applicato un criterio dell'organizzazione personalizzato durante la creazione del cluster per richiedere l'attivazione del Component Gateway (resource.config.endpointConfig.enableHttpPortAccess==true).

gcloud dataproc clusters create example-cluster \
    --project=PROJECT_ID \
    --zone=COMPUTE_ZONE

Esempio di output (per impostazione predefinita, il gateway dei componenti non è abilitato quando viene creato un cluster Dataproc):

Operation denied by custom org policies: ["customConstraints/custom.dataprocEnableComponentGateway": "Only allow Dataproc cluster creation if the Component Gateway is enabled"]

Vincoli di Dataproc su risorse e operazioni

I seguenti campi di vincoli personalizzati di Dataproc sono disponibili per l'utilizzo quando crei o aggiorni un cluster Dataproc. Tieni presente che, quando aggiorni un cluster, sono supportati solo i vincoli relativi ai parametri del cluster modificabili (vedi Aggiornare un cluster).

  • Configurazione di rete di Compute Engine (networkUri, internalIpOnly, serviceAccount e metadata)
    • resource.config.gceClusterConfig.networkUri
    • resource.config.gceClusterConfig.internalIpOnly
    • resource.config.gceClusterConfig.serviceAccount
    • resource.config.gceClusterConfig.metadata
  • Configurazione del gruppo di istanze Compute Engine (imageUri e machineTypeUri)
    • resource.config.masterConfig.imageUri
    • resource.config.masterConfig.machineTypeUri
    • resource.config.workerConfig.imageUri
    • resource.config.workerConfig.machineTypeUri
    • resource.config.secondaryWorkerConfig.imageUri
    • resource.config.secondaryWorkerConfig.machineTypeUri
  • Configurazione del disco del gruppo di istanze Compute Engine (bootDiskType, bootDiskSizeGb, numLocalSsds e localSsdInterface)
    • resource.config.masterConfig.diskConfig.bootDiskType
    • resource.config.workerConfig.diskConfig.bootDiskType
    • resource.config.secondaryWorkerConfig.diskConfig.bootDiskType
    • resource.config.masterConfig.diskConfig.bootDiskSizeGb
    • resource.config.workerConfig.diskConfig.bootDiskSizeGb
    • resource.config.secondaryWorkerConfig.diskConfig.bootDiskSizeGb
    • resource.config.masterConfig.diskConfig.numLocalSsds
    • resource.config.workerConfig.diskConfig.numLocalSsds
    • resource.config.secondaryWorkerConfig.diskConfig.numLocalSsds
    • resource.config.masterConfig.diskConfig.localSsdInterface
    • resource.config.workerConfig.diskConfig.localSsdInterface
    • resource.config.secondaryWorkerConfig.diskConfig.localSsdInterface
  • Azioni di inizializzazione (executableFile)
    • resource.config.initializationActions.executableFile
  • Configurazione del software (imageVersion, properties e optionalComponents)
    • resource.config.softwareConfig.imageVersion
    • resource.config.softwareConfig.properties
    • resource.config.softwareConfig.optionalComponents
  • Configurazione Kerberos (enableKerberos e crossRealmTrustKdc)
    • resource.config.securityConfig.kerberosConfig.enableKerberos
    • resource.config.securityConfig.kerberosConfig.crossRealmTrustKdc
  • Gateway dei componenti (enableHttpPortAccess)
    • resource.config.endpointConfig.enableHttpPortAccess
  • Configurazione del metastore (dataprocMetastoreService)
    • resource.config.metastoreConfig.dataprocMetastoreService
  • CMEK di Persistent Disk (gcePdKmsKeyName)
    • resource.config.encryptionConfig.gcePdKmsKeyName
  • Etichette dei cluster
    • resource.labels
  • Dimensione del cluster
    • resource.config.masterConfig.numInstances
    • resource.config.workerConfig.numInstances
    • resource.config.secondaryWorkerConfig.numInstances
  • Scalabilità automatica
    • resource.config.autoscalingConfig.policyUri

Esempi di vincoli personalizzati per casi d'uso comuni

La tabella seguente fornisce esempi di vincoli personalizzati:

Descrizione Sintassi dei vincoli
Limita il numero di istanze worker Dataproc a 10 o meno quando viene creato o aggiornato un cluster.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocNoMoreThan10Workers
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    - UPDATE
    condition: "resource.config.workerConfig.numInstances + resource.config.secondaryWorkerConfig.numInstances > 10"
    actionType: DENY
    displayName: Total number of worker instances cannot be larger than 10
    description: Cluster cannot have more than 10 workers, including primary and
    secondary workers.
Impedisci l'esecuzione del master dell'applicazione sui worker preemptibili del cluster Dataproc.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocAmPrimaryOnlyEnforced
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition:  "('dataproc:am.primary_only' in resource.config.softwareConfig.properties) && (resource.config.softwareConfig.properties['dataproc:am.primary_only']==true)"
    actionType: ALLOW
    displayName: Application master cannot run on preemptible workers
    description: Property "dataproc:am.primary_only" must be "true".
Non consentire proprietà Hive personalizzate sui cluster Dataproc.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocNoCustomHiveProperties
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition: "resource.config.softwareConfig.properties.all(p, !p.startsWith('hive:'))"
    actionType: ALLOW
    displayName: Cluster cannot have custom Hive properties
    description: Only allow Dataproc cluster creation if no property
    starts with Hive prefix "hive:".
Non consentire l'utilizzo del tipo di macchina n1-standard-2 per le istanze master Dataproc.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocMasterMachineType
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition: "resource.config.masterConfig.machineTypeUri.contains('n1-standard-2')"
    actionType: DENY
    displayName: Master cannot use the n1-standard-2 machine type
    description:  Prevent Dataproc cluster creation if the master machine type is n1-standard-2.
Imposta l'utilizzo di uno script di azione di inizializzazione specificato.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocInitActionScript
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition: "resource.config.initializationActions.exists(action, action.executableFile=='gs://some/init-action.sh')"
    actionType: ALLOW
    displayName: Initialization action script "gs://some/init-action.sh" must be used
    description:  Only allow Dataproc cluster creation if the "gs://some/init-action.sh"
    initialization action script is used.
Imposta l'utilizzo di una chiave di crittografia del disco permanente specificata.
    name: organizations/ORGANIZATION_ID/custom.dataprocPdCmek
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition: "resource.config.encryptionConfig.gcePdKmsKeyName == 'projects/project-id/locations/global/keyRings/key-ring-name/cryptoKeys/key-name'"
    actionType: ALLOW
    displayName: Cluster PD must be encrypted with "key-name" from "key-ring-name" key-ring
    description: Only allow Dataproc cluster creation if the PD is encrypted with "key-name" from "key-ring-name" key-ring.
Applica le limitazioni delle etichette dei cluster.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocEnvLabel
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    - UPDATE
    condition:  "('env' in resource.labels) && (resource.labels.env=='test')"
    actionType: DENY
    displayName: Cluster cannot have the "env=test" label
    description:  Deny Dataproc cluster creation or update if the cluster will be labeled "env=test".
Impostare l'utilizzo di una rete non predefinita.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocNoDefaultNetwork
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition:  "resource.config.gceClusterConfig.networkUri.contains('networks/default')"
    actionType: DENY
    displayName: Cluster cannot be created in the default network
    description:  Deny Dataproc cluster creation if the cluster will be created in the default network.

Passaggi successivi