Cómo crear un clúster de Dataproc
Requisitos:
Nombre: El nombre del clúster debe comenzar con una letra minúscula seguida del signo de arriba. a 51 letras minúsculas, números y guiones, y no puede terminar con un guion.
Región del clúster: Debes especificar una región de Compute Engine para el clúster, como
us-east1
oeurope-west1
, para aislar recursos del clúster, como instancias de VM y metadatos del clúster almacenados en Cloud Storage dentro de la región.- Consulta Extremos regionales para obtener más información. información sobre los extremos regionales.
- Consulta Regiones y zonas disponibles para obtener información sobre cómo seleccionar una región. También puedes ejecutar
Comando
gcloud compute regions list
para mostrar una lista de las regiones disponibles.
Conectividad: Instancias de máquina virtual de Compute Engine (VMs) en un clúster de Dataproc, que consta de VMs principales y de trabajador, conectividad cruzada de red con IP interna completa. El La red de VPC de
default
proporciona esto conectividad (consulta Configuración de la red de un clúster de Dataproc).
gcloud
Para crear un clúster de Dataproc en la línea de comandos, ejecuta el comando gcloud dataproc clusters create de forma local en una ventana de terminal o en Cloud Shell.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION
El comando crea un clúster con la configuración predeterminada del servicio de Dataproc. para las instancias de máquina virtual principales y de trabajador, tamaños y tipos de discos, el tipo de red, la región y la zona en la que se implementa el clúster configuración. Consulta el comando gcloud dataproc clusters create si deseas obtener información sobre el uso de marcas de línea de comandos para personalizar la configuración de los clústeres.
Crea un clúster con un archivo YAML
- Ejecuta el siguiente comando de
gcloud
para exportar la configuración de un clúster de Dataproc existente a un archivocluster.yaml
.gcloud dataproc clusters export EXISTING_CLUSTER_NAME \ --region=REGION \ --destination=cluster.yaml
- Importa la configuración del archivo YAML para crear un clúster nuevo.
gcloud dataproc clusters import NEW_CLUSTER_NAME \ --region=REGION \ --source=cluster.yaml
Nota: Durante la operación de exportación, se filtran los campos específicos del clúster, como el nombre del clúster, las etiquetas aplicadas de forma automática y los campos de solo salida. Estos campos no están permitidos en el archivo YAML importado que se usa para crear un clúster.
REST
En esta sección, se muestra cómo crear un clúster con los valores requeridos y la configuración predeterminada (1 principal, 2 trabajadores).
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- CLUSTER_NAME: nombre del clúster
- PROJECT: ID del proyecto de Google Cloud
- REGION: una instancia de Compute Engine disponible región donde se creará el clúster.
- ZONE: Una zona opcional dentro de la región seleccionada donde se creará el clúster.
Método HTTP y URL:
POST https://dataproc.googleapis.com/v1/projects/PROJECT/regions/REGION/clusters
Cuerpo JSON de la solicitud:
{ "project_id":"PROJECT", "cluster_name":"CLUSTER_NAME", "config":{ "master_config":{ "num_instances":1, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "softwareConfig": { "imageVersion": "", "properties": {}, "optionalComponents": [] }, "worker_config":{ "num_instances":2, "machine_type_uri":"n1-standard-2", "image_uri":"" }, "gce_cluster_config":{ "zone_uri":"ZONE" } } }
Para enviar tu solicitud, expande una de estas opciones:
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
{ "name": "projects/PROJECT/regions/REGION/operations/b5706e31......", "metadata": { "@type": "type.googleapis.com/google.cloud.dataproc.v1.ClusterOperationMetadata", "clusterName": "CLUSTER_NAME", "clusterUuid": "5fe882b2-...", "status": { "state": "PENDING", "innerState": "PENDING", "stateStartTime": "2019-11-21T00:37:56.220Z" }, "operationType": "CREATE", "description": "Create cluster with 2 workers", "warnings": [ "For PD-Standard without local SSDs, we strongly recommend provisioning 1TB ..."" ] } }
Console
Abre el panel de Dataproc. Crea un clúster en la consola de Google Cloud en tu navegador y, luego, Haz clic en Crear en el clúster, en la fila Compute Engine. En la página Crea un clúster de Dataproc en Compute Engine. El panel Configura el clúster se selecciona con campos completados con valores predeterminados. Tú puedes seleccionar cada panel y confirmar o cambiar los valores predeterminados para personalizar tu clúster.
Haz clic en Crear para generar el clúster. El nombre del clúster aparece en la página Clústeres y su estado se actualizará a En ejecución después de se aprovisiona el clúster. Haz clic en el nombre del clúster para abrir su página de detalles, en la que podrás examinar los trabajos, las instancias y los ajustes de configuración de tu clúster, y conectarte a las interfaces web que se ejecutan en él.