Une fois que vous avez connecté l'un de ces services, il utilise votre
Service Dataproc Metastore utilisé comme métastore Hive lors de la requête
l'exécution.
Pour obtenir l'autorisation nécessaire
pour créer un Dataproc Metastore,
demandez à votre administrateur de vous accorder le
les rôles IAM suivants sur votre projet, selon le principe du moindre privilège:
Pour en savoir plus sur les autorisations et les rôles Dataproc Metastore spécifiques, consultez Gérer l'accès avec IAM.
Créer Dataproc Metastore à l'aide des paramètres par défaut
Créer un Dataproc Metastore à l'aide des paramètres par défaut
configure votre service avec un niveau Enterprise, une taille d'instance moyenne,
la dernière version du métastore Hive, un point de terminaison Thrift et un emplacement de données ;
sur us-central.
Dataproc Metastore 2
Les instructions suivantes vous expliquent comment créer un Dataproc Metastore
2 à l'aide d'un point de terminaison Thrift et d'autres paramètres par défaut fournis.
Console
Dans la console Google Cloud, accédez à Dataproc Metastore.
.
Pour les autres options de configuration de service, utilisez les valeurs par défaut fournies.
Pour créer et démarrer le service, cliquez sur Envoyer.
Votre nouveau service de métastore s'affiche sur Dataproc Metastore.
. L'état indique Creating (Création en cours) jusqu'à ce que le service soit prêt à être utilisé.
Lorsqu'elle est prête, son état passe à Actif.
Le provisionnement du service peut prendre quelques minutes.
CLI gcloud
Pour créer un service de métastore Dataproc Metastore 2 à l'aide de la
par défaut, exécutez la commande gcloud metastore services create suivante
:
INSTANCE_SIZE: taille de l'instance
de votre Dataproc Metastore multirégional. Par exemple, small,
medium ou large. Si vous spécifiez une valeur pour INSTANCE_SIZE,
spécifiez une valeur pour SCALING_FACTOR.
SCALING_FACTOR: facteur de scaling
de votre service Dataproc Metastore. Exemple : 0.1.
Si vous spécifiez une valeur pour SCALING_FACTOR, n'indiquez aucune valeur pour
INSTANCE_SIZE
REST
Suivez les instructions de l'API pour créer un service à l'aide d'APIs Explorer.
Dataproc Metastore 1
Les instructions suivantes vous expliquent comment créer un Dataproc Metastore
1 à l'aide d'un point de terminaison Thrift et d'autres paramètres par défaut fournis.
Console
Dans la console Google Cloud, accédez à Dataproc Metastore.
.
Pour les autres options de configuration de service, utilisez les valeurs par défaut fournies.
Pour créer et démarrer le service, cliquez sur Envoyer.
Votre nouveau service de métastore s'affiche sur Dataproc Metastore.
. L'état indique Creating (Création en cours) jusqu'à ce que le service soit prêt à être utilisé.
Lorsqu'elle est prête, son état passe à Actif.
Le provisionnement du service peut prendre quelques minutes.
CLI gcloud
Pour créer un service de métastore de base
à l'aide des valeurs par défaut fournies,
exécutez la commande gcloud metastore services create suivante
:
gcloud metastore services create SERVICE \
--location=LOCATION
Remplacez les éléments suivants :
SERVICE: nom de votre nouveau
Service Dataproc Metastore.
LOCATION: région Google Cloud souhaitée
pour créer votre Dataproc Metastore. Vous pouvez également définir un emplacement par défaut.
Suivez les instructions de l'API pour créer un service à l'aide de l'explorateur d'API.
Créer Dataproc Metastore à l'aide des paramètres avancés
Créer un service Dataproc Metastore à l'aide des paramètres avancés
vous devez modifier des configurations :
configurations réseau, scaling, etc.
paramètres des points de terminaison, paramètres de sécurité et fonctionnalités facultatives.
Dataproc Metastore 2 ou 1
Les instructions suivantes vous expliquent comment créer un Dataproc Metastore
2 ou un service Dataproc Metastore 1 utilisant
paramètres.
Console
Commencer
Dans la console Google Cloud, ouvrez la page Dataproc Metastore:
Si cette valeur n'est pas modifiée, votre métastore utilise la valeur Stable.
Pour en savoir plus, consultez Version disponible.
Indiquez le port TCP.
Port TCP auquel se connecte votre point de terminaison Thrift. Si cette valeur est
non modifié, le numéro de port 9083 est utilisé. Si vous modifiez votre
vers gRPC, cette valeur passe automatiquement à 443 et ne peut pas
être modifié.
(Facultatif) Pour Dataproc Metastore 1. Sélectionnez le niveau de service.
Le niveau de service influence la capacité de votre service.
Pour en savoir plus, consultez la page Niveau de service.
Protocole du point de terminaison
Facultatif: choisissez un protocole de point de terminaison.
L'option sélectionnée par défaut est Apache Thrift. Pour en savoir plus,
sur les différents points de terminaison, consultez la section Choisir le protocole du point de terminaison.
Configuration du réseau
Sélectionnez une configuration réseau.
Par défaut, votre service n'est exposé que dans un seul réseau VPC et utilise
le réseau default. Le réseau default n'autorise que votre service
pour se connecter à d'autres services dans le même projet.
Modifiez vos paramètres des réseaux en remplaçant les paramètres par défaut pour terminer la
actions suivantes:
Connecter votre service Dataproc Metastore à Dataproc Metastore
dans d'autres projets.
Utiliser votre service Dataproc Metastore avec d'autres
aux services Google Cloud, tels que le cluster Dataproc.
(Facultatif) Cliquez sur Utiliser un réseau VPC partagé et saisissez le paramètre
ID du projet et Nom du réseau VPC.
Facultatif: Cliquez sur Rendre les services accessibles dans plusieurs sous-réseaux VPC.
et sélectionnez les sous-réseaux. Vous pouvez spécifier jusqu'à cinq sous-réseaux.
Cliquez sur OK.
Intégration des métadonnées
Facultatif: Activez la synchronisation avec Data Catalog.
Facultatif: choisissez un type de base de données.
Dans le champ Type de base de données, sélectionnez MySQL ou Spanner. MySQL est la
type de base de données par défaut.
Pour en savoir plus sur le choix
d'un type de base de données spécifique,
consultez la page Types de bases de données.
Libellés
Facultatif: Pour ajouter ou supprimer des étiquettes facultatives décrivant vos métadonnées,
Cliquez sur + Ajouter des étiquettes.
Démarrer le service
Pour créer et démarrer le service, cliquez sur Envoyer.
Votre nouveau service de métastore s'affiche sur Dataproc Metastore.
. L'état indique Creating (Création en cours) jusqu'à ce que le service soit prêt à être utilisé.
Lorsqu'elle est prête, son état passe à Actif.
Le provisionnement du service peut prendre quelques minutes.
SERVICE: nom de votre nouveau
Service Dataproc Metastore.
de votre service Dataproc Metastore. Exemple :0.1
Si vous spécifiez une valeur pour SCALING_FACTOR, ne spécifiez pas de valeur pour INSTANCE_SIZE.
LOCATION: région Google Cloud souhaitée
pour créer votre Dataproc Metastore. Vous pouvez également définir un emplacement par défaut.
PORT : (facultatif) port TCP sur lequel votre
Utilisations du point de terminaison Thrift. Si cette règle n'est pas configurée, le port 9083 est utilisé.
Si vous choisissez d'utiliser un point de terminaison gRPC, votre numéro de port
devient 443.
TIER: facultatif pour Dataproc Metastore 1:
le niveau de service de votre nouveau
Google Cloud. Si cette règle n'est pas configurée, la valeur Developer est utilisée.
DATABASE_TYPE:
Facultatif: Choisissez le type de base de données de votre service.
Pour en savoir plus sur le choix d'un type de base de données spécifique, consultez la page Types de bases de données.
HIVE_METASTORE_VERSION : ruche (facultatif)
métastore à utiliser avec votre service. Exemple : 3.1.2. Si cette règle n'est pas configurée, la dernière version de Hive est utilisée.
RELEASE_CHANNEL: facultatif: version disponible
du service. Si cette règle n'est pas configurée, la valeur Stable est utilisée.
METADATA_OVERRIDE : métastore Hive (facultatif)
que vous souhaitez appliquer à votre service. Utiliser une liste d'éléments séparés par une virgule
au format k1=v1,k2=v2,k3=v3.
LABELS : paires clé-valeur à ajouter (facultatives).
des métadonnées supplémentaires à votre service. Utiliser une liste d'éléments séparés par une virgule
au format k1=v1,k2=v2,k3=v3. Dataproc Metastore
AUXILIARY_VERSION: facultatif: activer l'instance auxiliaire
versions. Pour en savoir plus, consultez Versions auxiliaires.
Paramètres de scaling:
INSTANCE_SIZE: facultatif pour Dataproc Metastore 2:
la taille de l'instance
de votre Dataproc Metastore multirégional. Par exemple :
small, medium ou large.
Si vous spécifiez une valeur pour INSTANCE_SIZE, n'indiquez aucune valeur pour
SCALING_FACTOR
SCALING_FACTOR: facultatif pour
Dataproc Metastore 2: le facteur de scaling
de votre service Dataproc Metastore. Exemple : 0.1. Si vous
spécifiez une valeur pour SCALING_FACTOR, ne spécifiez pas de valeur pour
INSTANCE_SIZE
Paramètres des réseaux:
NETWORK: nom du réseau VPC
lorsque vous vous connectez à votre service. Si cette règle n'est pas configurée, la valeur default est utilisée.
Si vous utilisez un réseau VPC appartenant à
un projet différent de celui de votre service, vous devez fournir l'intégralité
un nom de ressource relatif doit être fourni. Par exemple, projects/HOST_PROJECT/global/networks/NETWORK_ID.
SUBNET1, SUBNET2:
Facultatif: liste des sous-réseaux qui peuvent accéder à votre service. Vous pouvez
utilisez l'ID, l'URL complète ou le nom relatif du sous-réseau.
Vous pouvez spécifier jusqu'à cinq sous-réseaux.
Paramètres Kerberos:
KERBEROS_PRINCIPAL : (facultatif) principal Kerberos existant dans le fichier keytab et le KDC. Un principal se présente généralement sous la forme "primary/instance@REALM", mais il n'existe pas de format strictement défini.
KRB5_CONFIG : (facultatif) le fichier krb5.config spécifie les informations du KDC et du domaine Kerberos, qui incluent les emplacements des KDC et les valeurs par défaut du domaine et des applications Kerberos.
CLOUD_SECRET : ressource relative (facultatif)
nom d'un Secret Manager
la version du secret.
KMS_KEY : (facultatif) fait référence à la ressource de clé
ID.
Vérifiez que la création a réussi.
REST
Suivez les instructions de l'API pour créer un service à l'aide de l'explorateur d'API.
Définir un remplacement de configuration de métastore Hive pour Dataproc Metastore
Si votre répertoire d'entrepôt Apache Hive se trouve sur Cloud Storage, vous devez définir un
de configuration de métastore. Ce remplacement définit votre entrepôt de données personnalisé comme
d'entrepôt par défaut pour votre service Dataproc Metastore.
Avant de définir ce forçage, assurez-vous que votre Dataproc Metastore
dispose d’autorisations de lecture et d’écriture
d’objets pour accéder au répertoire de l’entrepôt.
Pour en savoir plus, consultez la section Répertoire d'entrepôt Hive.
Les instructions suivantes vous expliquent comment définir un remplacement de configuration de métastore Hive
pour un nouveau service Dataproc Metastore.
Console
Dans la console Google Cloud, ouvrez la page Dataproc Metastore:
Dans Remplacements de configuration Metastore, saisissez les valeurs suivantes:
Clé: hive.metastore.warehouse.dir.
Valeur: emplacement Cloud Storage de votre répertoire d'entrepôt.
Exemple : gs://my-bucket/path/to/location.
Configurez les options de service restantes si nécessaire ou utilisez le
par défaut.
Cliquez sur Envoyer.
Revenez à la page Dataproc Metastore.
vérifier que votre service a bien été créé.
CLI gcloud
Pour créer un service Dataproc Metastore avec un remplacement Hive,
exécutez la commande gcloud metastore services create suivante
:
gcloud metastore services create SERVICE \
--location=LOCATION \
--hive-metastore-configs="hive.metastore.warehouse.dir=CUSTOMER_DIR"
Remplacez les éléments suivants :
SERVICE: nom de votre nouveau
Service Dataproc Metastore.
LOCATION: région Google Cloud souhaitée
pour créer votre Dataproc Metastore. Vous pouvez également définir
emplacement par défaut.
CUSTOMER_DIR: emplacement Cloud Storage de
votre répertoire d'entrepôt. Exemple : gs://my-bucket/path/to/location.
Vérifiez que la création a réussi.
Créer Dataproc Metastore avec autoscaling
Dataproc Metastore 2 est compatible avec l'autoscaling. Si vous activez l'autoscaling,
vous pouvez définir un facteur de scaling minimal et un facteur de scaling maximal. Après cela,
votre service augmente ou diminue automatiquement le facteur de scaling
nécessaires à l'exécution de vos charges de travail.
Considérations relatives à l'autoscaling
L'autoscaling et les facteurs de scaling sont des options qui s'excluent mutuellement. Par exemple :
si vous activez l'autoscaling, vous ne pouvez pas définir manuellement un facteur de scaling ou une taille.
L'autoscaling n'est disponible que pour Dataproc Metastore dans une seule région
Compute Engine.
Lorsque l'autoscaling est activé, les paramètres des facteurs de scaling existants sont effacés.
Lorsque l'autoscaling est désactivé:
<ph type="x-smartling-placeholder">
</ph>
Les paramètres d'autoscaling existants sont effacés.
Le facteur de scaling est défini sur le dernier autoscaling_factor configuré
sur le service.
Les facteurs d'autoscaling minimal et maximal sont facultatifs. S'il n'est pas défini,
les valeurs par défaut sont respectivement 0.1 et 6.
Choisissez l'un des onglets suivants pour apprendre à créer un Dataproc Metastore
service 2 avec l'autoscaling activé.
Console
Dans la console Google Cloud, accédez à Dataproc Metastore.
.
La boîte de dialogue Créer un service Metastore s'ouvre.
Sélectionnez Dataproc Metastore 2.
Dans la section Tarifs et capacité, sélectionnez Entreprise – Région unique.
Sous Taille de l'instance, cliquez sur Activer l'autoscaling.
Sous Taille de l'instance, sélectionnez une valeur minimale et maximale d'instance à l'aide du curseur.
la taille de l'image.
Pour créer et démarrer le service, cliquez sur Envoyer.
Votre nouveau service de métastore s'affiche sur Dataproc Metastore.
. L'état indique Creating (Création en cours) jusqu'à ce que le service soit prêt à être utilisé.
Lorsqu'elle est prête, son état passe à Actif.
Le provisionnement du service peut prendre quelques minutes.
MIN_INSTANCES (facultatif) : nombre minimal d'instances
à utiliser dans votre configuration d'autoscaling. Si ces valeurs ne sont pas spécifiées,
une valeur par défaut de 0.1 est utilisée.
MAX_INSTANCESFacultatif: nombre maximal d'instances
à utiliser dans votre configuration d'autoscaling. Si ces valeurs ne sont pas spécifiées,
une valeur par défaut de 6 est utilisée.
Les réseaux VPC ne sont pas pertinents pour les services Dataproc Metastore
configurés avec le protocole de point de terminaison gRPC.
Pour les services Dataproc Metastore configurés avec le point de terminaison Thrift
standard, assurez-vous que votre service Dataproc Metastore et le
Le cluster Dataproc auquel il est associé utilisent le même VPC partagé
réseau.
Pour les services Dataproc Metastore configurés avec le point de terminaison Thrift
et Private Service Connect, veillez à utiliser des sous-réseaux
à partir du réseau VPC partagé.
Rôles IAM requis pour les réseaux VPC partagés
Créer un service Dataproc Metastore avec un VPC accessible
sur un réseau appartenant à un autre projet,
vous devez attribuer roles/metastore.serviceAgent au rôle d'administrateur
Agent de service Dataproc Metastore
(service-SERVICE_PROJECT_NUMBER@gcp-sa-metastore.iam.gserviceaccount.com)
dans la stratégie IAM du projet réseau.
Restreindre l'appairage de VPC. Avant de créer un métastore, ne définissez pas
une contrainte de règle d'administration pour restreindre l'appairage de VPC ou, dans le cas contraire, la création de métastores.
est défaillant. Pour en savoir plus sur la définition
des bonnes configurations VPC,
Voir Échec de la création du service en raison d'une contrainte de restriction de VPC
d'appairage.
Problèmes liés aux réseaux VPC. Lors de la création d'un métastore, le réseau VPC que vous
utilisent peut-être à court d’adresses RFC 1918 disponibles requises par
Services Dataproc Metastore. Pour en savoir plus sur
pour résoudre ce problème, consultez la section La plage d'adresses IP allouée
épuisés.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2024/07/19 (UTC).
[{
"type": "thumb-down",
"id": "hardToUnderstand",
"label":"Hard to understand"
},{
"type": "thumb-down",
"id": "incorrectInformationOrSampleCode",
"label":"Incorrect information or sample code"
},{
"type": "thumb-down",
"id": "missingTheInformationSamplesINeed",
"label":"Missing the information/samples I need"
},{
"type": "thumb-down",
"id": "translationIssue",
"label":"Problème de traduction"
},{
"type": "thumb-down",
"id": "otherDown",
"label":"Autre"
}]
[{
"type": "thumb-up",
"id": "easyToUnderstand",
"label":"Facile à comprendre"
},{
"type": "thumb-up",
"id": "solvedMyProblem",
"label":"J'ai pu résoudre mon problème"
},{
"type": "thumb-up",
"id": "otherUp",
"label":"Autre"
}]