Crear un clúster de Dataproc mediante Cloud Console
En esta página, se muestra cómo usar Google Cloud Console para crear un clúster de Dataproc, ejecutar un trabajo básico de Apache Spark en el clúster y, luego, modificar la cantidad de trabajadores en él.
Antes de comenzar
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Comprueba que la facturación esté habilitada en tu proyecto.
-
Habilita la API de Dataproc.
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Comprueba que la facturación esté habilitada en tu proyecto.
-
Habilita la API de Dataproc.
Cree un clúster
En Cloud Console, ve a la página de Clústeres de Dataproc.
Haga clic en Crear clúster.
En el campo Nombre del clúster, ingresa
example-cluster
.En las listas Región y Zona, selecciona una región y una zona.
Puedes seleccionar una región específica (por ejemplo,
us-east1
oeurope-west1
) para aislar recursos como las instancias de máquina virtual (VM) y las ubicaciones de almacenamiento de metadatos y Cloud Storage que usa Dataproc en la región especificada. También puedes seleccionarglobal
, que es un extremo multirregión especial que puede implementar instancias en cualquier zona de Compute Engine especificada por el usuario. Para obtener más información, consulta Regiones y zonas disponibles y Extremos regionales.Para todas las demás opciones, usa la configuración predeterminada.
Para crear el clúster, haz clic en Crear.
Tu clúster nuevo aparecerá en una lista en la página Clústeres. El estado es Aprovisionando hasta que el clúster esté listo para usarse y, luego, el estado cambia a En ejecución. El aprovisionamiento del clúster puede llevar unos minutos.
Enviar un trabajo de Spark
Envíe un trabajo de Spark que calcule un valor aproximado de pi:
- En el menú de navegación de Dataproc, haz clic en Trabajos.
En la página Trabajos, haz clic en
Enviar trabajo y, luego, haz lo siguiente:- En el campo Clúster, haz clic en Explorar.
- En la fila de
example-cluster
, haga clic en Seleccionar. - En el campo ID de trabajo, usa la configuración predeterminada o proporciona un ID único para tu proyecto de Google Cloud.
- En Tipo de trabajo, selecciona Spark.
- En el campo Main class or jar, ingresa
org.apache.spark.examples.SparkPi
. - En el campo Jar files (Archivos JAR), ingresa
file:///usr/lib/spark/examples/jars/spark-examples.jar
. En el campo Arguments (Argumentos), ingresa
1000
para configurar la cantidad de tareas.Haga clic en Submit.
Tu trabajo se muestra en la página Detalles del trabajo. El estado del trabajo es Running o Running, y luego cambia a Succeeded después de que se envió.
Para evitar el desplazamiento en el resultado, haz clic en Ajuste de línea: desactivado. El resultado es similar al siguiente:
Pi is roughly 3.1416759514167594
Para ver los detalles del trabajo, haz clic en la pestaña Configuración.
Actualice un clúster
Para actualizar tu clúster, cambia la cantidad de instancias de trabajador:
- En el menú de navegación, haz clic en Clústeres.
- En la lista de clústeres, haz clic en
example-cluster
. En la página Detalles del clúster, haz clic en la pestaña Configuración.
Se muestra la configuración de tu clúster.
Haz clic en
Editar.En el campo Nodos trabajadores, ingresa
5
.Haz clic en Guardar.
Su clúster ya se actualizó. Para disminuir la cantidad de nodos trabajadores al valor original, sigue el mismo procedimiento.
Limpia
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.
- En la página Detalles del clúster de
example-cluster
, haz clic en Borrar para borrar el clúster. - Para confirmar que deseas borrar el clúster, haz clic en Borrar.
¿Qué sigue?
- Prueba esta guía de inicio rápido con otras herramientas:
- Obtén información sobre cómo crear reglas de firewall sólidas cuando crees un proyecto.
- Obtén información sobre cómo escribir y ejecutar un trabajo de Scala.
- Aprende a usar Dataproc Hub para ejecutar un notebook de Jupyter en Dataproc.