Gérer les ressources Dataproc à l'aide de contraintes personnalisées

Les règles d'administration Google Cloud vous offrent un contrôle centralisé et automatisé sur les ressources de votre organisation. En tant qu'administrateur des règles d'administration, vous pouvez définir une règle d'administration, c'est-à-dire un ensemble de restrictions appelées Contraintes qui s'appliquent aux ressources Google Cloud et aux descendants de ces ressources dans la Hiérarchie des ressources Google Cloud. Vous pouvez appliquer des règles d'administration au niveau d'une organisation, d'un dossier ou d'un projet.

Les règles d'administration fournissent des contraintes prédéfinies pour divers services Google Cloud. Toutefois, si vous souhaitez exercer un contrôle plus précis et le personnaliser pour des champs spécifiques restreints dans vos règles d'administration, vous pouvez également créer des contraintes personnalisées et les utiliser dans une règle d'administration personnalisée.

Avantages

Vous pouvez utiliser une règle d'administration personnalisée pour autoriser ou refuser des opérations spécifiques sur les clusters Dataproc. Par exemple, si une requête de création ou de mise à jour d'un cluster ne répond pas aux exigences de validation de contrainte personnalisée définie par votre règle d'administration, la requête échoue et une erreur est renvoyée à l'appelant.

Héritage des règles

Par défaut, les règles d'administration sont héritées par les descendants des ressources sur lesquelles vous les appliquez. Par exemple, si vous appliquez une règle au niveau d'un dossier, Google Cloud l'applique à tous les projets du dossier. Pour mieux comprendre ce comportement et savoir comment le modifier, consultez la page Comprendre le processus d'évaluation hiérarchique.

Tarification

Le service de règles d'administration, y compris les règles d'administration prédéfinies et personnalisées, est proposé gratuitement.

Avant de commencer

  1. Configurer votre projet
    1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
    2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

      Accéder au sélecteur de projet

    3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

    4. Activez l'API Dataproc

      Activer l'API

    5. Installez Google Cloud CLI.
    6. Pour initialiser gcloudCLI, exécutez la commande suivante :

      gcloud init
    7. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

      Accéder au sélecteur de projet

    8. Vérifiez que la facturation est activée pour votre projet Google Cloud.

    9. Activez l'API Dataproc

      Activer l'API

    10. Installez Google Cloud CLI.
    11. Pour initialiser gcloudCLI, exécutez la commande suivante :

      gcloud init
    12. Assurez-vous de connaître votre ID d'organisation.

Rôles requis

Pour obtenir les autorisations nécessaires pour gérer les règles d'administration, demandez à votre administrateur de vous attribuer les rôles IAM suivants:

Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Ces rôles prédéfinis contiennent les autorisations requises pour gérer les règles d'administration. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour gérer les règles d'administration:

  • orgpolicy.constraints.list
  • orgpolicy.policies.create
  • orgpolicy.policies.delete
  • orgpolicy.policies.list
  • orgpolicy.policies.update
  • orgpolicy.policy.get
  • orgpolicy.policy.set

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Créer une contrainte personnalisée

Une contrainte personnalisée est définie dans un fichier YAML par les ressources, les méthodes, les conditions et les actions auxquelles elle est appliquée. Dataproc accepte les contraintes personnalisées appliquées aux méthodes CREATE et UPDATE de la ressource CLUSTER (consultez la section Contraintes Dataproc sur les ressources et les opérations).

Pour créer un fichier YAML pour une contrainte personnalisée Dataproc:

name: organizations/ORGANIZATION_ID/customConstraints/CONSTRAINT_NAME
resourceTypes:
- dataproc.googleapis.com/Cluster
methodTypes:
- METHOD
condition: "CONDITION"
actionType: ACTION
displayName: DISPLAY_NAME
description: DESCRIPTION

Remplacez les éléments suivants :

  • ORGANIZATION_ID : ID de votre organisation (par exemple, 123456789).

  • CONSTRAINT_NAME : nom souhaité pour votre nouvelle contrainte personnalisée. Une contrainte personnalisée doit commencer par custom. et ne peut inclure que des lettres majuscules, minuscules ou chiffres (par exemple, custom.dataprocEnableComponentGateway). La longueur maximale de ce champ est de 70 caractères, sans compter le préfixe (par exemple, organizations/123456789/customConstraints/custom).

  • METHOD: lors de la création d'une contrainte de création de cluster, spécifiez CREATE. Lorsque vous créez une contrainte UPDATE de cluster, spécifiez les deux comme suit:
    methodTypes:
    - CREATE
    - UPDATE
    
  • CONDITION : condition CEL écrite pour une représentation d'une ressource de service acceptée. Ce champ ne doit pas comporter plus de 1 000 caractères. Pour en savoir plus sur les ressources disponibles pour l'écriture de conditions, consultez la section Ressources acceptées. Exemple :"resource.config.endpointConfig.enableHttpPortAccess==true"

  • ACTION : action à effectuer si la condition est remplie. L'action peut être définie sur ALLOW ou DENY.

  • DISPLAY_NAME: nom convivial de la contrainte, par exemple "Appliquer l'activation de la passerelle des composants Dataproc". Ce champ ne doit pas comporter plus de 200 caractères.

  • DESCRIPTION: description conviviale de la contrainte à afficher sous forme de message d'erreur en cas de non-respect de la règle, par exemple "Autoriser la création de clusters Dataproc uniquement si la passerelle des composants est activée". Ce champ ne doit pas comporter plus de 2 000 caractères.

Pour en savoir plus sur la création d'une contrainte personnalisée, consultez Définir des contraintes personnalisées.

Configurer une contrainte personnalisée

Après avoir créé une contrainte personnalisée à l'aide de Google Cloud CLI, vous devez la configurer pour la rendre disponible pour les règles d'administration de votre organisation. Pour configurer une contrainte personnalisée, utilisez la commande gcloud org-policies set-custom-constraint :
gcloud org-policies set-custom-constraint CONSTRAINT_PATH
Remplacez CONSTRAINT_PATH par le chemin d'accès complet à votre fichier de contrainte personnalisée. Exemple :/home/user/customconstraint.yaml Une fois terminée, vos contraintes personnalisées seront considérées comme des règles d'administration disponibles dans votre liste de règles d'administration Google Cloud. Pour vérifier que la contrainte personnalisée existe, utilisez la commande gcloud org-policies list-custom-constraints :
gcloud org-policies list-custom-constraints --organization=ORGANIZATION_ID
Remplacez ORGANIZATION_ID par l'ID de votre ressource d'organisation. Pour en savoir plus, consultez la page Afficher les règles d'administration.

Appliquer une contrainte personnalisée

Vous pouvez appliquer une contrainte booléenne en créant une règle d'administration qui la référence et en appliquant cette règle d'administration à une ressource Google Cloud.

Console

Pour appliquer une contrainte booléenne, procédez comme suit :

  1. Dans la console Google Cloud, accédez à la page Règles d'administration.

    Accéder à la page Règles d'administration

  2. Cliquez sur le sélecteur de projets en haut de la page.
  3. Dans le sélecteur de projets, choisissez le projet pour lequel vous souhaitez définir la règle d'administration.
  4. Sélectionnez votre contrainte dans la liste sur la page Règles d'administration. La page Détails de la règle associée à cette contrainte doit s'afficher.
  5. Pour configurer la règle d'administration pour cette ressource, cliquez sur Gérer la règle.
  6. Sur la page Modifier la stratégie, sélectionnez Remplacer la stratégie parente.
  7. Cliquez sur Ajouter une règle.
  8. Sous Application, indiquez si l'application de cette règle d'administration doit être activée ou désactivée.
  9. Pour rendre la règle d'administration conditionnelle sur un tag, cliquez sur Ajouter une condition. Notez que si vous ajoutez une règle conditionnelle à une règle d'administration, vous devez ajouter au moins une règle non conditionnelle, sinon la règle ne pourra pas être enregistrée. Pour en savoir plus, consultez Définir une règle d'administration avec des tags.
  10. S'il s'agit d'une contrainte personnalisée, vous pouvez cliquer sur Tester les modifications pour simuler l'effet de cette règle d'administration. Pour en savoir plus, consultez la section Tester les modifications apportées aux règles d'administration à l'aide de Policy Simulator.
  11. Pour finaliser et appliquer la règle d'administration, cliquez sur Définir la règle. La prise en compte de la règle peut prendre jusqu'à 15 minutes.

gcloud

Pour créer une règle d'administration qui applique une contrainte booléenne, créez un fichier YAML de règle qui référence la contrainte :

      name: projects/PROJECT_ID/policies/CONSTRAINT_NAME
      spec:
        rules:
        - enforce: true
    

Remplacez les éléments suivants :

  • PROJECT_ID : projet sur lequel vous souhaitez appliquer votre contrainte.
  • CONSTRAINT_NAME : nom que vous avez défini pour la contrainte personnalisée. Exemple : custom.dataprocEnableComponentGateway.

Pour appliquer la règle d'administration contenant la contrainte, exécutez la commande suivante :

    gcloud org-policies set-policy POLICY_PATH
    

Remplacez POLICY_PATH par le chemin d'accès complet au fichier YAML de votre règle d'administration. La prise en compte de la règle peut prendre jusqu'à 15 minutes.

Tester la contrainte personnalisée

L'exemple de création de cluster suivant suppose qu'une règle d'administration personnalisée a été créée et appliquée lors de la création du cluster pour exiger l'activation de la passerelle des composants (resource.config.endpointConfig.enableHttpPortAccess==true).

gcloud dataproc clusters create example-cluster \
    --project=PROJECT_ID \
    --zone=COMPUTE_ZONE

Exemple de résultat (par défaut, la passerelle des composants n'est pas activée lorsqu'un cluster Dataproc est créé):

Operation denied by custom org policies: ["customConstraints/custom.dataprocEnableComponentGateway": "Only allow Dataproc cluster creation if the Component Gateway is enabled"]

Contraintes Dataproc concernant les ressources et les opérations

Les champs de contrainte personnalisée Dataproc suivants sont disponibles lorsque vous créez ou mettez à jour un cluster Dataproc. Notez que lors de la mise à jour d'un cluster, seules les contraintes liées aux paramètres modifiables sont prises en charge (consultez la section Mettre à jour un cluster).

  • Configuration du réseau Compute Engine (networkUri, internalIpOnly, serviceAccount et métadonnées)
    • resource.config.gceClusterConfig.networkUri
    • resource.config.gceClusterConfig.internalIpOnly
    • resource.config.gceClusterConfig.serviceAccount
    • resource.config.gceClusterConfig.metadata
  • Configuration du groupe d'instances Compute Engine (imageUri et machineTypeUri)
    • resource.config.masterConfig.imageUri
    • resource.config.masterConfig.machineTypeUri
    • resource.config.workerConfig.imageUri
    • resource.config.workerConfig.machineTypeUri
    • resource.config.secondaryWorkerConfig.imageUri
    • resource.config.secondaryWorkerConfig.machineTypeUri
  • Actions d'initialisation (executableFile)
    • resource.config.initializationActions.executableFile
  • Configuration logicielle (imageVersion, properties et optionalComponents)
    • resource.config.softwareConfig.imageVersion
    • resource.config.softwareConfig.properties
    • resource.config.softwareConfig.optionalComponents
  • Configuration Kerberos (enableKerberos et crossRealmTrustKdc)
    • resource.config.securityConfig.kerberosConfig.enableKerberos
    • resource.config.securityConfig.kerberosConfig.crossRealmTrustKdc
  • Passerelle des composants (enableHttpPortAccess)
    • resource.config.endpointConfig.enableHttpPortAccess
  • Configuration Metastore (dataprocMetastoreService)
    • resource.config.metastoreConfig.dataprocMetastoreService
  • Clé CMEK Persistent Disk (gcePdKmsKeyName)
    • resource.config.encryptionConfig.gcePdKmsKeyName
  • Étiquettes de cluster
    • resource.labels
  • Taille du cluster
    • resource.config.masterConfig.numInstances
    • resource.config.workerConfig.numInstances
    • resource.config.secondaryWorkerConfig.numInstances
  • Autoscaling
    • resource.config.autoscalingConfig.policyUri

Exemples de contraintes personnalisées pour des cas d'utilisation courants

Le tableau suivant fournit des exemples de contraintes personnalisées:

Description Syntaxe de la contrainte
Limitez le nombre d'instances de nœuds de calcul Dataproc à 10 ou moins lors de la création ou de la mise à jour d'un cluster.

    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocNoMoreThan10Workers
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    - UPDATE
    condition: "resource.config.workerConfig.numInstances + resource.config.secondaryWorkerConfig.numInstances > 10"
    actionType: DENY
    displayName: Total number of worker instances cannot be larger than 10
    description: Cluster cannot have more than 10 workers, including primary and
    secondary workers.
Empêchez l'application maître de s'exécuter sur les nœuds de calcul préemptifs du cluster Dataproc.

    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocAmPrimaryOnlyEnforced
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition:  "('dataproc:am.primary_only' in resource.config.softwareConfig.properties) && (resource.config.softwareConfig.properties['dataproc:am.primary_only']==true)"
    actionType: ALLOW
    displayName: Application master cannot run on preemptible workers
    description: Property "dataproc:am.primary_only" must be "true".
Interdire les propriétés Hive personnalisées sur les clusters Dataproc.

    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocNoCustomHiveProperties
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition: "resource.config.softwareConfig.properties.all(p, !p.startsWith('hive:'))"
    actionType: ALLOW
    displayName: Cluster cannot have custom Hive properties
    description: Only allow Dataproc cluster creation if no property
    starts with Hive prefix "hive:".
Interdisez l'utilisation du type de machine n1-standard-2 pour les instances maîtres Dataproc.

    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocMasterMachineType
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition: "resource.config.masterConfig.machineTypeUri.contains('n1-standard-2')"
    actionType: DENY
    displayName: Master cannot use the n1-standard-2 machine type
    description:  Prevent Dataproc cluster creation if the master machine type is n1-standard-2.
Exigez l'utilisation d'un script d'action d'initialisation spécifié.

    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocInitActionScript
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition: "resource.config.initializationActions.exists(action, action.executableFile=='gs://some/init-action.sh')"
    actionType: ALLOW
    displayName: Initialization action script "gs://some/init-action.sh" must be used
    description:  Only allow Dataproc cluster creation if the "gs://some/init-action.sh".
    initialization action script is used.
Exigez l'utilisation d'une clé de chiffrement de disque persistant spécifiée.

    name: organizations/ORGANIZATION_ID/custom.dataprocPdCmek
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition: "resource.config.encryptionConfig.gcePdKmsKeyName == 'projects/project-id/locations/global/keyRings/key-ring-name/cryptoKeys/key-name'"
    actionType: ALLOW
    displayName: Cluster PD must be encrypted with "key-name" from "key-ring-name" key-ring
    description: Only allow Dataproc cluster creation if the PD is encrypted with "key-name" from "key-ring-name" key-ring.
Appliquez des restrictions d'étiquettes de cluster.

    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocEnvLabel
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    - UPDATE
    condition:  "('env' in resource.labels) && (resource.labels.env=='test')"
    actionType: DENY
    displayName: Cluster cannot have the "env=test" label
    description:  Deny Dataproc cluster creation or update if the cluster will be labeled "env=test".
Exigez l'utilisation d'un réseau autre que celui par défaut.

    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocNoDefaultNetwork
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition:  "resource.config.gceClusterConfig.networkUri.contains('networks/default')"
    actionType: DENY
    displayName: Cluster cannot be created in the default network
    description:  Deny Dataproc cluster creation if the cluster will be created in the default network.

Étapes suivantes