Créer un cluster Dataproc
Conditions requises :
Nom:le nom du cluster doit commencer par une lettre minuscule suivie de 1 à 51 caractères (lettres minuscules, chiffres et traits d'union), et ne peut pas se terminer par un trait d'union.
Région du cluster:vous devez spécifier une région Compute Engine pour le cluster, telle que
us-east1
oueurope-west1
, afin d'isoler les ressources du cluster, telles que les instances de VM et les métadonnées de cluster stockées dans Cloud Storage, dans la région.- Pour en savoir plus sur les points de terminaison régionaux, consultez la page Points de terminaison régionaux.
- Consultez la page Régions et zones disponibles pour plus d'informations sur la sélection d'une région. Vous pouvez également exécuter la commande
gcloud compute regions list
pour afficher la liste des régions disponibles.
Connectivité:les instances de machines virtuelles Compute Engine dans un cluster Dataproc, composé de VM maîtres et de VM de nœud de calcul, nécessitent une connectivité croisée complète du réseau IP interne. Le réseau VPC
default
fournit cette connectivité (voir la section Configuration du réseau du cluster Dataproc).
gcloud
Pour créer un cluster Dataproc sur la ligne de commande, exécutez la commande gcloud dataproc clusters create en local dans une fenêtre de terminal ou dans Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
La commande crée un cluster avec les paramètres de service par défaut Dataproc pour les instances de VM maîtres et de calcul, les tailles et types de disques, le type de réseau, la région et la zone où votre cluster est déployé, ainsi que d'autres paramètres de cluster. Consultez la commande gcloud dataproc clusters create pour en savoir plus sur l'utilisation des indicateurs de ligne de commande pour personnaliser les paramètres de cluster.
Créer un cluster avec un fichier YAML
- Exécutez la commande
gcloud
suivante pour exporter la configuration d'un cluster Dataproc existant vers un fichiercluster.yaml
.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Créez un cluster en important la configuration du fichier YAML.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
Remarque:Au cours de l'opération d'exportation, les champs spécifiques au cluster, tels que son nom, les champs de sortie uniquement et les libellés appliqués automatiquement sont filtrés. Ces champs ne sont pas autorisés dans le fichier YAML importé utilisé pour créer un cluster.
REST
Cette section explique comment créer un cluster avec les valeurs requises et la configuration par défaut (un maître, deux nœuds de calcul).
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- CLUSTER_NAME : nom du cluster
- PROJECT : ID de projet Google Cloud
- REGION: région Compute Engine disponible dans laquelle le cluster sera créé.
- ZONE: zone facultative dans la région sélectionnée dans laquelle le cluster sera créé.
Méthode HTTP et URL :
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
Corps JSON de la requête :
{ "project_id":"PROJECT", "cluster_name":"CLUSTER_NAME", "config":{ "master_config":{ "num_instances":1, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "softwareConfig": { "imageVersion": "", "properties": {}, "optionalComponents": [] }, "worker_config":{ "num_instances":2, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "gce_cluster_config":{ "zone_uri":"ZONE" } } }
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir une réponse JSON de ce type :
{ "name": "projects/PROJECT/regions/REGION/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "CLUSTER_NAME", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
Console
Ouvrez la page Dataproc Créer un cluster dans la console Google Cloud de votre navigateur, puis cliquez sur Créer dans le cluster sur la ligne Compute Engine de la page Créer un cluster Dataproc sur Compute Engine. Le panneau "Configurer le cluster" est sélectionné avec des champs remplis de valeurs par défaut. Vous pouvez sélectionner chaque panneau, et confirmer ou modifier les valeurs par défaut afin de personnaliser votre cluster.
Cliquez sur Créer pour créer le cluster. Le nom du cluster apparaît sur la page Clusters, et le cluster passe à l'état "Running" (En cours d'exécution) une fois qu'il est provisionné. Cliquez sur le nom du cluster pour ouvrir la page des détails. Vous pouvez y examiner les tâches, les instances et les paramètres de configuration de votre cluster, et vous connecter aux interfaces Web exécutées sur ce cluster.