En esta página, se muestra cómo crear sesiones interactivas y plantillas de sesiones de Dataproc Serverless. Se puede usar una plantilla de sesión para crear varias sesiones interactivas según la configuración de la plantilla de sesión.
Crea una sesión de Dataproc Serverless
Puedes usar la consola de Google Cloud, Google Cloud CLI o la API de Dataproc para crear una sesión interactiva sin servidores de Dataproc.
Console
Para crear una sesión de Dataproc Serverless con la consola de Google Cloud, completa los siguientes pasos:
En la consola de Google Cloud, ve a la página Sesiones interactivas.
- Haz clic en Crear.
En la página Agregar una sesión interactiva (versión preliminar), ingresa o confirma la configuración de la sesión. Ten en cuenta lo siguiente:
- Nombre de la sesión interactiva: Obligatorio. Acepta el nombre predeterminado o especifica un nombre de sesión.
- Región: Obligatorio. Acepta la región predeterminada o especifica una región disponible para tu sesión.
- Configuración del entorno de ejecución: Opcional. Los entornos de ejecución de sesión que se pueden seleccionar corresponden a las versiones del entorno de ejecución de Dataproc Serverless para Spark disponibles. Puedes especificar una imagen de contenedor personalizada para usar en tu sesión.
- Propiedades: Opcional. Haz clic en Agregar elemento para cada propiedad que desees configurar para tu sesión. Para obtener más información, consulta Propiedades de Spark.
- IU de Spark (versión preliminar): Opcional. Puedes usar la IU de Spark para recopilar y supervisar los detalles de la ejecución de la sesión.
- Cuenta de servicio: Opcional. La cuenta de servicio que se usará para la sesión. Si no se especifica, se usa la cuenta de servicio predeterminada de Compute Engine.
- Configuración de red: Es obligatoria. La subred de la sesión debe tener habilitado el Acceso privado a Google (PGA) y permitir la comunicación de subredes en todos los puertos. En esta sección, solo se enumeran las redes con subredes en la región de sesión especificada con PGA habilitado. Para obtener más información, consulta Configuración de la red de Dataproc sin servidores para Spark.
Haz clic en Enviar para crear la sesión.
gcloud
Puedes usar gcloud beta dataproc sessions create command SESSION_NAME
para crear una sesión interactiva de Dataproc Serverless.
Notas sobre las marcas de comandos:
--region
: Obligatorio. Una región disponible para tu sesión.--version
: Opcional. Una versión del entorno de ejecución de Spark compatible Si no usas esta marca para especificar una versión, se usa la versión predeterminada actual del entorno de ejecución de Spark.--container-image
: Opcional. Una imagen de contenedor personalizado para usar en tu sesión--property
: Opcional. Una o más propiedades de Spark separadas por comas para tu sesión.--service-account
: Opcional. La cuenta de servicio que usarás para tu sesión Si no se especifica, se usa la cuenta de servicio predeterminada de Compute Engine.--subnet
: Opcional. Una subred de VPC con el siguiente formato:projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME
- REGION: Es el
--region
que seleccionaste para tu sesión. - SUBNET_NAME: La subred debe tener habilitado el Acceso privado a Google (PGA) y permitir la comunicación de subredes en todos los puertos. Para obtener más información, consulta Configuración de la red de Dataproc Serverless para Spark.
- REGION: Es el
REST
Puedes usar la API de sessions.create
de Dataproc para crear una sesión interactiva de Dataproc Serverless.
Notas:
name
: Obligatorio. Es el nombre de la sesión.version
: Opcional. Cualquiera de las versiones del entorno de ejecución de Spark compatibles para tu sesión Si no especificas una versión, se usa la versión predeterminada actual.containerImage
: Opcional. Una imagen de contenedor personalizado para usar en tu sesiónproperties
: Opcional. Es una asignación de nombres de propiedades de sesión a valores. Consulta Propiedades de Spark.serviceAccount
: Opcional. La cuenta de servicio que usarás para ejecutar la sesión Si no se especifica, se usa la cuenta de servicio predeterminada de Compute Engine.subnetworkUri
: Opcional. Una subred de VPC para tu sesión en el siguiente formato: La subred debe tener habilitado Acceso privado a Google (PGA) y permitir la comunicación de subredes en todos los puertos. Para obtener más información, consulta Configuración de la red de Dataproc Serverless para Spark.projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME
Crea una plantilla de sesión de Dataproc Serverless
Una plantilla de sesión de Dataproc Serverless define la configuración para crear una o más sesiones interactivas de Dataproc Serverless.
Puedes usar la consola de Google Cloud, gcloud CLI o la API de Dataproc para crear una plantilla de sesión sin servidores de Dataproc.
Console
Para crear una plantilla de sesión de Dataproc sin servidor con la consola de Google Cloud, completa los siguientes pasos:
En la consola de Google Cloud, ve a la página Plantillas de sesión interactiva.
Ir a Plantillas de sesiones interactivas
- Haz clic en Crear.
En la página Crear plantilla de sesión, ingresa o confirma la configuración de la plantilla. Ten en cuenta lo siguiente:
- ID de entorno de ejecución de la plantilla: Es obligatorio. Acepta el ID (nombre) predeterminado o especifica un nombre de entorno de ejecución de plantilla.
- Región: Obligatorio. Acepta la región predeterminada o especifica una región disponible para las sesiones de plantillas.
- Versión del entorno de ejecución: Opcional. Los entornos de ejecución de sesión seleccionables corresponden a las versiones del entorno de ejecución de Dataproc Serverless para Spark.
- Tipo de configuración de la plantilla: Obligatorio. Selecciona un tipo. Si seleccionas
Jupyter
, especifica el Nombre visible y selecciona el Tipo de kernel de Jupyter. Para obtener más información, consulta Cómo iniciar un notebook de Jupyter en Dataproc sin servidores. - Cuenta de servicio: Opcional. La cuenta de servicio que se usará para ejecutar sesiones con plantillas Si no se especifica, se usa la cuenta de servicio predeterminada de Compute Engine.
- Imagen de contenedor personalizada: Opcional. Una imagen de contenedor personalizado para usar en tus sesiones con plantillas
- Propiedades: Opcional. Haz clic en Agregar elemento para cada propiedad que quieras configurar para tus sesiones de plantillas. Para obtener más información, consulta Propiedades de Spark.
- Configuración de red: * Obligatorio. La subred de la sesión debe tener habilitado el Acceso privado a Google (PGA) y permitir la comunicación de subredes en todos los puertos. En esta sección, solo se enumeran las redes con subredes en la región de la sesión con PGA habilitada. Para obtener más información, consulta Configuración de la red de Dataproc sin servidores para Spark.
Haz clic en Enviar para crear la plantilla de sesión.
gcloud
No puedes crear directamente una plantilla de sesión de Dataproc sin servidor con la
gcloud CLI, pero puedes usar el comando gcloud beta dataproc session-templates import
para importar una plantilla de sesión existente. Puedes editar la plantilla importada y, luego, exportarla con el comando gcloud beta dataproc session-templates export
.
REST
Puedes usar la API de sessionTemplates.create
de Dataproc para crear una plantilla de sesión de Dataproc Serverless.
Notas:
name
: Obligatorio. Es el nombre de la plantilla de sesión.version
: Opcional. Cualquiera de las versiones del entorno de ejecución de Spark compatibles para tus sesiones con plantillas Si no especificas una versión, se usa la versión predeterminada.containerImage
: Opcional. Una imagen de contenedor personalizado para usar en tus sesiones con plantillasproperties
: Opcional. Es una asignación de nombres de propiedades de sesión a valores. Consulta Propiedades de Spark.serviceAccount
: Opcional. Una cuenta de servicio para ejecutar tus sesiones con plantillas. Si no se especifica, se usa la cuenta de servicio predeterminada de Compute Engine.subnetworkUri
: Opcional. Una subred de VPC para tus sesiones de plantillas en el siguiente formato: La subred debe tener habilitado Acceso privado a Google (PGA) y permitir la comunicación de subredes en todos los puertos. Para obtener más información, consulta Configuración de la red de Dataproc Serverless para Spark.projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME