Créer un cluster Dataproc
Conditions requises :
Nom : le nom du cluster doit commencer par une lettre minuscule suivie de 1 à 51 caractères (lettres minuscules, chiffres et traits d'union), et ne peut pas se terminer par un trait d'union.
Région du cluster:vous devez spécifier une région Compute Engine pour le cluster, comme
us-east1
oueurope-west1
, pour isoler les ressources du cluster, telles que les instances de VM et les métadonnées de cluster stockées Cloud Storage dans cette région.- Pour en savoir plus, consultez la page Points de terminaison régionaux. sur les points de terminaison régionaux.
- Consultez la page Régions et zones disponibles pour plus d'informations sur la sélection d'une région. Vous pouvez également exécuter la commande
gcloud compute regions list
pour afficher la liste des régions disponibles.
Connectivité:instances de machine virtuelle Compute Engine (VM) d'un cluster Dataproc, composé de VM maîtres et de nœuds de calcul, nécessitent une connectivité croisée entre les réseaux IP internes. Le réseau VPC
default
fournit cette connectivité (voir la section Configuration du réseau du cluster Dataproc).
gcloud
Pour créer un cluster Dataproc sur la ligne de commande, exécutez la commande gcloud dataproc clusters create en local dans une fenêtre de terminal ou dans Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
La commande crée un cluster avec les paramètres de service Dataproc par défaut. pour vos instances de machines virtuelles maîtres et de calcul, tailles et types de disque, le type de réseau, la région et la zone dans lesquelles votre cluster est déployé, ainsi que les autres clusters paramètres. Consultez la commande gcloud dataproc clusters create pour en savoir plus sur l'utilisation des indicateurs de ligne de commande pour personnaliser les paramètres de cluster.
Créer un cluster avec un fichier YAML
- Exécutez la commande
gcloud
suivante pour exporter la configuration d'un cluster Dataproc existant vers un fichiercluster.yaml
.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Créez un cluster en important la configuration du fichier YAML.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
Remarque:Pendant l'opération d'exportation, les champs spécifiques au cluster, tels que le nom du cluster, les champs de sortie uniquement et les étiquettes appliquées automatiquement filtrée. Ces champs ne sont pas autorisés dans le fichier YAML importé utilisé pour créer un cluster.
REST
Cette section explique comment créer un cluster avec les valeurs requises et la configuration par défaut (un maître, deux nœuds de calcul).
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- CLUSTER_NAME : nom du cluster
- PROJECT : ID de projet Google Cloud
- REGION: instance Compute Engine disponible région dans laquelle le cluster sera créé.
- ZONE: zone facultative dans la région sélectionnée dans laquelle le cluster sera créé.
Méthode HTTP et URL :
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
Corps JSON de la requête :
{ "project_id":"PROJECT", "cluster_name":"CLUSTER_NAME", "config":{ "master_config":{ "num_instances":1, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "softwareConfig": { "imageVersion": "", "properties": {}, "optionalComponents": [] }, "worker_config":{ "num_instances":2, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "gce_cluster_config":{ "zone_uri":"ZONE" } } }
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir une réponse JSON de ce type :
{ "name": "projects/PROJECT/regions/REGION/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "CLUSTER_NAME", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
Console
Ouvrez la page Dataproc Créer un cluster dans la console Google Cloud de votre navigateur, puis cliquez sur Créer dans le cluster sur la ligne Compute Engine de la page Créer un cluster Dataproc sur Compute Engine. Le panneau "Configurer le cluster" est sélectionné avec des champs remplis de valeurs par défaut. Toi vous pouvez sélectionner chaque panneau et confirmer ou modifier les valeurs par défaut pour personnaliser votre cluster.
Cliquez sur Créer pour créer le cluster. Le nom du cluster apparaît dans Clusters, et son état passe à "En cours d'exécution" le cluster est provisionné. Cliquez sur le nom du cluster pour ouvrir la page des détails. Vous pouvez y examiner les tâches, les instances et les paramètres de configuration de votre cluster, et vous connecter aux interfaces Web exécutées sur ce cluster.