Découvrez comment utiliser Dataproc sans serveur pour envoyer une charge de travail par lot sur un Infrastructure de calcul gérée par Dataproc qui fait évoluer les ressources en fonction des besoins
Avant de commencer
- Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Enable the Dataproc API.
Envoyer une charge de travail par lot Spark
Console
Dans la console Google Cloud, accédez à Dataproc Batchs. Cliquez sur Créer. pour ouvrir la page Créer un lot.
Sélectionnez et remplissez les champs suivants sur la page pour envoyer un lot Spark charge de travail qui calcule la valeur approximative de pi:
- Informations sur le lot:
- ID de lot: spécifiez un ID pour votre charge de travail par lot. Cette valeur doit être comprise entre 4 et 63
en minuscules. Les caractères valides sont
/[a-z][0-9]-/
. - Région: sélectionnez une région. où votre charge de travail sera exécutée.
- ID de lot: spécifiez un ID pour votre charge de travail par lot. Cette valeur doit être comprise entre 4 et 63
en minuscules. Les caractères valides sont
- Conteneur:
- Type de lot: Spark.
- Version d'exécution: la version d'exécution par défaut est sélectionnée. Vous pouvez éventuellement spécifier un Version d'exécution sans serveur de Dataproc autre que celle par défaut.
- Classe principale:
org.apache.spark.examples.SparkPi
- Fichiers JAR (ce fichier est préinstallé dans l'environnement d'exécution Spark sans serveur de Dataproc)
file:///usr/lib/spark/examples/jars/spark-examples.jar
- Arguments: 1000.
- Configuration de l'exécution:vous pouvez spécifier un compte de service à utiliser pour exécuter votre charge de travail. Si vous ne spécifiez pas de compte de service, la charge de travail s'exécute sous Compte de service Compute Engine par défaut.
- Configuration réseau : le sous-réseau VPC qui exécute les charges de travail Dataproc sans serveur pour Spark doit être activé pour l'accès privé à Google et répondre aux autres exigences listées dans la section Configuration du réseau Dataproc sans serveur pour Spark. La liste des sous-réseaux affiche les sous-réseaux du réseau sélectionné pour lesquels l'accès privé à Google est activé.
- Propriétés:saisissez le
Key
(nom de la propriété) et laValue
de propriétés Spark prises en charge à définir sur votre charge de travail par lot Spark. Remarque : Contrairement aux propriétés de cluster Dataproc sur Compute Engine, les propriétés de charge de travail Dataproc sans serveur pour Spark n'incluent pas de préfixespark:
. - Autres options :
- Vous pouvez configurer la charge de travail par lot pour qu'elle utilise un métastore Hive externe géré par l'utilisateur.
- Vous pouvez utiliser un serveur d'historique persistant (PHS). Le PHS doit être situé dans la région où vous exécutez des charges de travail par lot.
- Informations sur le lot:
Cliquez sur ENVOYER pour exécuter la charge de travail par lot Spark.
gcloud
Pour envoyer une charge de travail par lot Spark afin de calculer la valeur approximative
de pi
, exécutez la gcloud CLI suivante :
gcloud dataproc batches submit spark
en local dans une fenêtre de terminal ou dans
Cloud Shell :
gcloud dataproc batches submit spark \ --region=REGION \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --class=org.apache.spark.examples.SparkPi \ -- 1000
Remarques :
- REGION: Spécifiez la région dans laquelle votre charge de travail s'exécutera.
- Sous-réseau:
Le sous-réseau VPC qui exécute Dataproc sans serveur pour les charges de travail Spark doit
être activé pour l'accès privé à Google.
et de satisfaire aux autres exigences indiquées dans
Configuration de réseau Dataproc sans serveur pour Spark
Si le sous-réseau du réseau
default
pour la région spécifiée dans la commandegcloud dataproc batches submit
n'est pas activé pour l'accès privé à Google, vous devez effectuer l'une des opérations suivantes :- activer le sous-réseau du réseau par défaut pour la région pour l'accès privé à Google ; ou
- Utilisez l'option
--subnet=[SUBNET_URI]
dans la commande pour spécifier un sous-réseau sur lequel l'accès privé à Google est activé. Vous pouvez exécutergcloud compute networks describe [NETWORK_NAME]
pour répertorier les URI des sous-réseaux d'un réseau.
--jars
:l'exemple de fichier JAR est préinstallé dans l'environnement d'exécution Spark. L'argument de commande1000
transmis à la charge de travail SparkPi spécifie 1 000 des itérations de la logique d'estimation pi (les arguments d'entrée de la charge de travail inclus après "--").--properties
:vous pouvez ajouter le--properties
indicateur pour entrer propriétés Spark compatibles que votre charge de travail par lot Spark doit utiliser.--deps-bucket
: vous pouvez ajouter cet indicateur pour spécifier un bucket Cloud Storage dans lequel Dataproc Serverless importera les dépendances de la charge de travail. Le préfixe d'URIgs://
du bucket n'est pas obligatoire. vous pouvez spécifier le chemin ou le nom du bucket, exemple : "nomdemonbucket". Dataproc sans serveur pour Spark importe l'instance dans un dossier/dependencies
du bucket avant d'exécuter la charge de travail par lot. Remarque:Cet indicateur est obligatoire si votre traitement par lot de référence de charge de travail sur votre ordinateur local.--ttl
:vous pouvez ajouter le--ttl
pour spécifier la durée de vie du lot. Lorsque la charge de travail dépasse cette durée, elle est arrêtée sans condition, sans attendre la fin du travail en cours. Spécifiez la durée à l'aide d'uns
,m
,h
oud
(secondes, minutes, heures ou jours). La valeur minimale est de 10 minutes (10m
). et la valeur maximale est de 14 jours (14d
).- Lots d'exécution 1.1 ou 2.0:si
--ttl
n'est pas spécifié pour une charge de travail par lot d'exécution 1.1 ou 2.0, la charge de travail est autorisée à s'exécuter jusqu'à sa fermeture naturellement (ou s'exécuter indéfiniment si elle ne se ferme pas). - Lots d'exécution : 2.1 et versions ultérieures : si
--ttl
n'est pas spécifié Pour une charge de travail par lot d'exécution 2.1 ou version ultérieure, la valeur par défaut est4h
.
- Lots d'exécution 1.1 ou 2.0:si
- Autres options:vous pouvez ajouter
gcloud dataproc batches submit
pour spécifier d'autres options de charge de travail et les propriétés Spark.- Hive Metastore: la commande suivante configure une charge de travail par lot pour utiliser un
Métastore Hive autogéré
à l'aide d'une configuration Spark standard.
gcloud dataproc batches submit \ --properties=spark.sql.catalogImplementation=hive,spark.hive.metastore.uris=METASTORE_URI,spark.hive.metastore.warehouse.dir=WAREHOUSE_DIR> \ other args ...
- Serveur d'historique persistant:
- La commande suivante crée un PHS sur un cluster Dataproc à nœud unique. Le PHS doit être situé dans la région où vous exécutez les charges de travail par lot.
et le bucket-name Cloud Storage doit
existent.
gcloud dataproc clusters create PHS_CLUSTER_NAME \ --region=REGION \ --single-node \ --enable-component-gateway \ --properties=spark:spark.history.fs.logDirectory=gs://bucket-name/phs/*/spark-job-history
- Envoyez une charge de travail par lot, en spécifiant votre serveur d'historique persistant en cours d'exécution.
gcloud dataproc batches submit spark \ --region=REGION \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --class=org.apache.spark.examples.SparkPi \ --history-server-cluster=projects/project-id/regions/region/clusters/PHS-cluster-name \ -- 1000
- La commande suivante crée un PHS sur un cluster Dataproc à nœud unique. Le PHS doit être situé dans la région où vous exécutez les charges de travail par lot.
et le bucket-name Cloud Storage doit
existent.
- Version d'exécution:
Utilisez l'option
--version
pour spécifier le Dataproc sans serveur. version d'exécution de la charge de travail.gcloud dataproc batches submit spark \ --region=REGION \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --class=org.apache.spark.examples.SparkPi \ --version=VERSION -- 1000
- Hive Metastore: la commande suivante configure une charge de travail par lot pour utiliser un
Métastore Hive autogéré
à l'aide d'une configuration Spark standard.
API
Cette section explique comment créer une charge de travail par lot
pour calculer la valeur approximative
de pi
en utilisant Dataproc sans serveur pour Spark
batches.create
`
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- project-id: ID de projet Google Cloud.
- region: région de Compute Engine où Dataproc sans serveur exécutera la charge de travail. Remarques:
- Custom-container-image::spécifiez l'image de conteneur personnalisé à l'aide de la méthode
Format de nommage des images Docker:
{hostname}/{project-id}/{image}:{tag}
, par exemple, "gcr.io/my-project-id/my-image:1.0.1". Remarque : Vous devez héberger votre conteneur personnalisé sur Container Registry. - Sous-réseau:
Le sous-réseau VPC qui exécute Dataproc sans serveur pour les charges de travail Spark doit
Accès privé à Google
et de satisfaire aux autres exigences indiquées dans
Configuration du réseau Dataproc sans serveur pour Spark.
Si le
default
le sous-réseau du réseau pour la région spécifiée n'est pas activé pour l'accès privé à Google, vous devez effectuer l'une des opérations suivantes:- Activez le sous-réseau du réseau par défaut pour la région pour l'accès privé à Google.
- Utilisez le
ExecutionConfig.subnetworkUri
pour spécifier un sous-réseau sur lequel l'accès privé à Google est activé. Vous pouvez exécutergcloud compute networks describe [NETWORK_NAME]
pour répertorier les URI des sous-réseaux d'un réseau.
sparkBatch.jarFileUris
:l'exemple de fichier JAR est préinstallé dans l'environnement d'exécution Spark. La valeur "1000"sparkBatch.args
est transmise à la charge de travail SparkPi et spécifie 1 000 itérations de la logique d'estimation de pi.Spark properties
:vous pouvez utiliser le RuntimeConfig.properties champ pour saisir propriétés Spark compatibles que votre charge de travail par lot Spark doit utiliser.--ttl
:vous pouvez utiliser leEnvironmentConfig.ttl
pour spécifier la durée de vie du lot. Lorsque la charge de travail dépasse sans condition, il est résilié sans condition travail en cours à terminer. Spécifiez la durée sous la forme de représentation JSON pour Durée. La valeur minimale est de 10 minutes et la valeur maximale de 14 jours.- Lots d'exécution 1.1 ou 2.0:si
--ttl
n'est pas spécifié pour une charge de travail par lot d'exécution 1.1 ou 2.0, la charge de travail est autorisée à s'exécuter jusqu'à sa fermeture naturellement (ou s'exécuter indéfiniment si elle ne se ferme pas). - Lots d'exécution : 2.1 et versions ultérieures : si
--ttl
n'est pas spécifié pour une charge de travail par lot d'exécution de la version 2.1 ou ultérieure, la valeur par défaut est de 4 heures.
- Lots d'exécution 1.1 ou 2.0:si
- Autres options:
- Configurez la charge de travail par lot pour utiliser un Hive Metastore externe autogéré.
- Utilisez un serveur d'historique persistant (PHS). Le PHS doit être situé dans la région où vous exécutez des charges de travail par lot.
- Utilisez le
RuntimeConfig.version
dans la requêtebatches.create
pour spécifier un Version d'exécution sans serveur de Dataproc autre que celle par défaut pour en savoir plus.
Méthode HTTP et URL :
POST https://dataproc.googleapis.com/v1/projects/project-id/locations/region/batches
Corps JSON de la requête :
{ "sparkBatch":{ "args":[ "1000" ], "jarFileUris":[ "file:///usr/lib/spark/examples/jars/spark-examples.jar" ], "mainClass":"org.apache.spark.examples.SparkPi" } }
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir une réponse JSON de ce type :
{ "name":"projects/project-id/locations/region/batches/batch-id", "uuid":",uuid", "createTime":"2021-07-22T17:03:46.393957Z", "sparkBatch":{ "mainClass":"org.apache.spark.examples.SparkPi", "args":[ "1000" ], "jarFileUris":[ "file:///usr/lib/spark/examples/jars/spark-examples.jar" ] }, "runtimeInfo":{ "outputUri":"gs://dataproc-.../driveroutput" }, "state":"SUCCEEDED", "stateTime":"2021-07-22T17:06:30.301789Z", "creator":"account-email-address", "runtimeConfig":{ "properties":{ "spark:spark.executor.instances":"2", "spark:spark.driver.cores":"2", "spark:spark.executor.cores":"2", "spark:spark.app.name":"projects/project-id/locations/region/batches/batch-id" } }, "environmentConfig":{ "peripheralsConfig":{ "sparkHistoryServerConfig":{ } } }, "operation":"projects/project-id/regions/region/operation-id" }
Estimer les coûts des charges de travail
Dataproc Serverless pour les charges de travail Spark consomme des ressources de stockage et d'unité de calcul de données (DCU). Pour une exemple générant des métriques Dataproc UsageMetrics pour estimer la consommation des ressources et les coûts des charges de travail, consultez la page Tarifs de Dataproc sans serveur .
Étape suivante
Apprenez-en davantage sur les points suivants :