Crea un clúster

Puedes crear un clúster de Cloud Dataproc mediante una solicitud HTTP o programática clusters.create de la API de Cloud Dataproc, mediante la herramienta de línea de comandos de gcloud del SDK de Cloud en una ventana de terminal local o en Cloud Shell, o bien desde Google Cloud Platform Console en un navegador local.

La región predeterminada es global. Este es un extremo multirregión especial capaz de implementar instancias en cualquier zona de Compute Engine que especifique el usuario. Además, puedes especificar distintas regiones, como us-east1 o europe-west1, para aislar los recursos (lo que incluye las instancias de VM y Cloud Storage) y las ubicaciones de almacenamiento de metadatos que Cloud Dataproc usa en la región que especifica el usuario. Consulta Extremos regionales para obtener más información sobre la diferencia entre los extremos globales y regionales. Consulta Regiones y zonas disponibles para obtener información sobre cómo seleccionar una región. También puedes ejecutar el comando gcloud compute regions list para ver una lista de las regiones disponibles.

Las instancias de máquina virtual de Compute Engine (VM) en un clúster de Cloud Dataproc, que consta de VM principales y de trabajador, requieren acceso total a las redes de IP interna para conectarse entre sí. La red default disponible (y más usada) para crear un clúster ayuda a garantizar este acceso. Si deseas crear tu propia red para tu clúster de Cloud Dataproc, consulta Configuración de red de clústeres de Cloud Dataproc.

Crea un clúster de Cloud Dataproc

Comando de gcloud

Para crear un clúster de Cloud Dataproc en la línea de comandos, ejecuta el comando gcloud dataproc clusters create del SDK de Cloud de forma local en una ventana de terminal o en Cloud Shell.
gcloud dataproc clusters create cluster-name
El comando anterior crea un clúster con la configuración de servicio predeterminada de Cloud Dataproc para las instancias de máquina virtual principales y de trabajador; los tipos y tamaños de disco; el tipo de red; la región y la zona donde se implementa tu clúster; y alguna otra configuración adicional del clúster. Consulta el comando gcloud dataproc clusters create si deseas obtener información sobre el uso de marcas de línea de comandos para personalizar la configuración de los clústeres.

Crea un clúster con un archivo YAMLBeta

  1. Ejecuta el siguiente comando de gcloud para exportar la configuración de un clúster de Cloud Dataproc existente a un archivo YAML.
    gcloud beta dataproc clusters export my-existing-cluster --destination cluster.yaml
    
  2. Importa la configuración del archivo YAML para crear un clúster nuevo.
    gcloud beta dataproc clusters import my-new-cluster --source cluster.yaml
    

Nota: Durante la operación de exportación, se filtran los campos específicos del clúster (como el nombre del clúster), las etiquetas aplicadas de forma automática y los campos de solo salida. Estos campos no están permitidos en el archivo YAML importado que se usa para crear un clúster.

API de REST

Usa la API clusters.create de Cloud Dataproc para crear un clúster. A continuación, se muestra una solicitud POST simple para crear un clúster:
POST /v1/projects/my-project/regions/global/clusters/
{
  "projectId": "my-project",
  "clusterName": "cluster-1",
  "config": {
    "configBucket": "",
    "gceClusterConfig": {
      "subnetworkUri": "default",
      "zoneUri": "us-central1-b"
    },
    "masterConfig": {
      "numInstances": 1,
      "machineTypeUri": "n1-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    },
    "workerConfig": {
      "numInstances": 2,
      "machineTypeUri": "n1-standard-4",
      "diskConfig": {
        "bootDiskSizeGb": 500,
        "numLocalSsds": 0
      }
    }
  }
}

Console

En tu navegador, abre la página Create a cluster (Crear un clúster) de Cloud Dataproc en GCP Console.

La captura de pantalla anterior muestra la página Create a cluster con los campos predeterminados rellenados de forma automática para un clúster nuevo llamado “cluster-1”. Puedes expandir el panel de Preemptible workers, bucket, network, version, initialization, & access options (opciones de trabajadores interrumpibles, depósito, red, versión, inicialización y acceso) para especificar uno o más nodos trabajadores interrumpibles, un depósito de staging, una red, una versión de imagen de Cloud Dataproc, las acciones de inicialización y el acceso a nivel de proyecto para tu clúster. Proporcionar estos valores es opcional.

Si no configuras estas opciones, el clúster predeterminado se crea sin nodos trabajadores interrumpibles, un depósito de staging de creación automática (consulta Depósito de staging de creación automática), una red predeterminada y la versión más reciente de la imagen de Cloud Dataproc.

Una vez que estés satisfecho con el contenido de todos los campos de la página, haz clic en Create (Crear) para crear el clúster. El nombre del clúster aparece en la página Clusters (Clústeres) y su estado se actualiza a “En ejecución” después de la creación.

Haz clic en el nombre del clúster para abrir su página de detalles. Esta página se abre con la pestaña de Información general y el grafo de uso de CPU seleccionados. También puedes elegir mostrar los grafos de red y de disco para el clúster.
Puedes examinar los trabajos, las instancias y los ajustes de configuración de tu clúster desde las otras pestañas. Por ejemplo, puedes usar la pestaña de Instancias de VM para establecer una conexión SSH al nodo principal de tu clúster. Puedes hacer clic en Edit (Editar) en la pestaña de Opciones de configuración a fin de editar la configuración de tu clúster; por ejemplo, para aumentar o reducir la escala de tu clúster mediante un cambio en la cantidad de nodos trabajadores estándar o interrumpibles.

Depósito de staging de creación automática

Cuando creas un clúster, Cloud Dataproc crea un depósito de staging de Cloud Storage en tu proyecto o vuelve a usar un depósito existente que creó Cloud Dataproc con una solicitud de creación de clúster anterior. Se usa un depósito distinto en cada región geográfica, según lo que determina la zona de Compute Engine del clúster (un depósito de staging que crea Cloud Dataproc se comparte entre los clústeres de la misma región). Los depósitos de staging se usan para probar varios archivos de configuración y de control que tu clúster necesita. Los depósitos de staging también reciben resultados del comando gcloud dataproc clusters diagnose del SDK de Cloud. Para enumerar el nombre del depósito de staging que creó Cloud Dataproc, ejecuta el comando gcloud dataproc clusters describe de forma local en una ventana de terminal o en Cloud Shell. El depósito asociado a tu clúster se muestra en el resultado junto a configurationBucket:

gcloud dataproc clusters describe cluster-name
clusterName: cluster-name
clusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...
config:
    configBucket: dataproc-edc9d85f-12f9-4905-...
    ...
¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

Documentación de Cloud Dataproc
¿Necesitas ayuda? Visita nuestra página de asistencia.