En esta página, se muestra cómo usar Google Cloud Console para crear un clúster de Dataproc, ejecutar un trabajo simple de Apache Spark en el clúster y, luego, modificar la cantidad de trabajadores en el clúster.
Puedes descubrir cómo realizar las mismas tareas con Guías de inicio rápido sobre cómo usar el Explorador de API y Guías de inicio rápido sobre cómo usar la herramienta de línea de comandos de gcloud.
Antes de comenzar
- Accede a tu Cuenta de Google.
Si todavía no tienes una cuenta, regístrate para obtener una nueva.
-
En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.
-
Comprueba que la facturación esté habilitada en tu proyecto.
- Habilita la API Dataproc.
Cree un clúster
- Ve a la página de Cloud Console Clústeres de Cloud Dataproc.
- Haz clic en Crear clúster.
- Ingresa
example-cluster
en el campo Nombre. - Selecciona una región y zona para el clúster en los menús desplegables Region (Región) y Zone (Zona). Puedes seleccionar una región distinta, como
us-east1
oeurope-west1
, para aislar recursos (incluidas las instancias de VM y Cloud Storage) y las ubicaciones de almacenamiento de metadatos que Dataproc usa en la región especificada. para crear el adjunto de VLAN de supervisión. Si seleccionas una región distinta, puedes seleccionar "Sin preferencia" para la zona si deseas que Dataproc elija una zona dentro de la región seleccionada para tu clúster (consulta Ubicación de zona automática de Dataproc). También puedes seleccionar una regiónglobal
, que es un extremo multirregión especial capaz de implementar instancias en cualquier zona de Compute Engine especificada por el usuario (cuando seleccionas una región global, debes{101) }seleccione una zona). Consulta Extremos regionales para obtener más información sobre la diferencia entre los extremos globales y regionales. Consulta Regiones y zonas disponibles para obtener información sobre cómo seleccionar una región y zona. También puedes ejecutar el comandogcloud compute regions list
para ver una lista de las regiones disponibles. - Usa los valores predeterminados para todas las demás opciones.
- Haz clic en Create (Crear) para generar el clúster.
El clúster nuevo debe aparecer en la lista de clústeres. El estado del clúster aparece como "Provisioning" (Aprovisionándose) hasta que esté listo para usarse y después cambia a "Running" (En ejecución).
Envía un trabajo
Haz lo siguiente para ejecutar un trabajo de Spark de muestra:
- Selecciona Jobs (Trabajos) en el menú de navegación izquierdo para cambiar a la vista de trabajos de Dataproc.
- Haga clic en Enviar trabajo.
- Puedes aceptar el ID de trabajo o proporcionar el tuyo, que debe ser único dentro del proyecto.
- Selecciona la Región de tu nuevo example-cluster.
- Seleccione example-cluster en el menú desplegable Clúster.
- Selecciona Spark del menú desplegable Job type (Tipo de trabajo).
- Ingresa
org.apache.spark.examples.SparkPi
en el campo Clase principal o jar. - Ingresa
file:///usr/lib/spark/examples/jars/spark-examples.jar
en el campo Archivos .jar. - Ingresa
1000
en el campo Arguments (Argumentos) para configurar el número de tareas.
- Haga clic en Enviar.
Tu trabajo debería aparecer en la lista de Jobs (Trabajos), que muestra los trabajos de su proyecto con el clúster, el tipo y el estado actual. El estado del trabajo aparece como "Running" (En ejecución) y cambia a "Succeeded" (Finalizado con éxito) cuando se completa. Realiza lo siguiente para ver el resultado del trabajo finalizado:
- Haz clic en el ID de trabajo, en la lista de Jobs (Trabajos).
- Selecciona Line Wrapping (Ajuste de línea) para evitar el desplazamiento.
Debes ver que tu trabajo calculó un valor aproximado de pi correctamente.
Actualiza un clúster
Haz lo siguiente para cambiar la cantidad de instancias de nodos trabajadores de su clúster:
- En el panel de navegación izquierdo, seleccione Clusters (Clústeres) para regresar a la vista de clústeres de Cloud Dataproc.
- Haz clic en example-cluster en la lista de Clusters (Clústeres). De forma predeterminada, la página muestra una descripción general del uso de CPU del clúster.
- Haz clic en Configuration (Configuración) para mostrar la configuración actual de tu clúster.
- Haga clic en Editar. Ahora, puedes editar la cantidad de nodos trabajadores.
- Ingrese
5
en el campo Nodos trabajadores. - Haga clic en Save.
Tu clúster ya se actualizó. Sigue el mismo procedimiento para disminuir la cantidad de nodos trabajadores al valor original.
Limpia
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta guía de inicio rápido.
- En la página Clúster de example-cluster, haz clic en Borrar para borrar el clúster. Se te solicitará que confirmes si deseas borrar el clúster. Haz clic en Aceptar.
- También debes quitar cualquier depósito de Cloud Storage que creó el clúster mediante la ejecución del siguiente comando:
gsutil rm gs://bucket/subdir/**
Pasos siguientes
- Obtén información sobre cómo escribir y ejecutar un trabajo de Scala.
- Obtén información sobre cómo instalar y ejecutar un notebook de Jupyter.