Ce document explique comment créer un cluster Dataproc à échelle nulle.
Les clusters Dataproc à échelle nulle constituent un moyen économique d'utiliser les clusters Dataproc. Contrairement aux clusters Dataproc standards qui nécessitent au moins deux nœuds de calcul principaux, les clusters Dataproc à échelle nulle n'utilisent que des nœuds de calcul secondaires pouvant être réduits à zéro.
Les clusters Dataproc à échelle 0 sont idéaux pour les clusters de longue durée qui connaissent des périodes d'inactivité, comme un cluster qui héberge un notebook Jupiter. Ils améliorent l'utilisation des ressources grâce à l'utilisation de stratégies d'autoscaling à échelle nulle.
Caractéristiques et limites
Un cluster Dataproc à échelle 0 présente des similitudes avec un cluster standard, mais présente les caractéristiques et les limites uniques suivantes:
- Nécessite la version d'image
2.2.53
ou ultérieure. - N'est compatible qu'avec les nœuds de calcul secondaires, et non avec les nœuds de calcul principaux.
Inclut des services tels que YARN, mais n'est pas compatible avec le système de fichiers HDFS.
- Pour utiliser Cloud Storage comme système de fichiers par défaut, définissez la propriété de cluster
core:fs.defaultFS
sur un emplacement de bucket Cloud Storage (gs://BUCKET_NAME
). - Si vous désactivez un composant lors de la création du cluster, désactivez également HDFS.
- Pour utiliser Cloud Storage comme système de fichiers par défaut, définissez la propriété de cluster
Vous ne pouvez pas les convertir en cluster standard ni en convertir un à partir d'un cluster standard.
Nécessite une règle d'autoscaling pour les types de clusters
ZERO_SCALE
.Vous devez sélectionner VM flexibles comme type de machine.
Incompatible avec le composant Oozie.
Vous ne pouvez pas les créer à partir de la console Google Cloud .
Facultatif: Configurer une stratégie d'autoscaling
Vous pouvez configurer une règle d'autoscaling pour définir l'évolution des nœuds de calcul secondaires pour un cluster à échelle nulle. Tenez compte des points suivants:
- Définissez le type de cluster sur
ZERO_SCALE
. - Configurez une règle d'autoscaling uniquement pour la configuration des nœuds de calcul secondaires.
Pour en savoir plus, consultez la section Créer une règle d'autoscaling.
Créer un cluster Dataproc à échelle nulle
Créez un cluster à échelle nulle à l'aide de gcloud CLI ou de l'API Dataproc.
gcloud
Exécutez la commande gcloud dataproc clusters create
en local dans une fenêtre de terminal ou dans Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \
--region=REGION \
--cluster-type=zero-scale \
--autoscaling-policy=AUTOSCALING_POLICY \
--properties=core:fs.defaultFS=gs://BUCKET_NAME \
--secondary-worker-machine-types="type=MACHINE_TYPE1[,type=MACHINE_TYPE2...][,rank=RANK]"
...other args
Remplacez les éléments suivants :
- CLUSTER_NAME: nom du cluster Dataproc à échelle 0.
- REGION: région Compute Engine disponible.
- AUTOSCALING_POLICY: ID ou URI de la ressource de la règle d'autoscaling.
- BUCKET_NAME: nom de votre bucket Cloud Storage.
- MACHINE_TYPE: type de machine Compute Engine spécifique, tel que
n1-standard-4
,e2-standard-8
. - RANK: définit la priorité d'une liste de types de machines.
REST
Créez un cluster à échelle nulle à l'aide d'une requête cluster.create de l'API REST Dataproc:
- Définissez
ClusterConfig.ClusterType
poursecondaryWorkerConfig
surZERO_SCALE
. - Définissez
AutoscalingConfig.policyUri
avec l'ID de la règle d'autoscalingZERO_SCALE
. - Ajoutez la propriété
core:fs.defaultFS:gs://BUCKET_NAME
SoftwareConfig.property. Remplacez BUCKET_NAME par le nom de votre bucket Cloud Storage.
Étapes suivantes
- En savoir plus sur l'autoscaling Dataproc