Sauvegarder un service Dataproc Metastore

Cette page explique comment créer une sauvegarde d'un Dataproc Metastore Google Cloud.

Une sauvegarde prend un instantané de votre service, enregistre ses paramètres de configuration actuels et toutes les métadonnées stockées.

Après avoir créé une sauvegarde, vous pouvez utiliser la fonctionnalité Restore from a backup (Restaurer à partir d'une sauvegarde) pour renseigner un nouveau service Dataproc Metastore avec les données enregistrées dans l'instantané.

Avant de commencer

Rôles requis

Pour obtenir les autorisations nécessaires pour sauvegarder un service Dataproc Metastore, demandez à votre administrateur de vous accorder le rôles IAM suivants:

  • Pour accorder un contrôle complet des ressources Dataproc Metastore afin d'effectuer une sauvegarde, l'un des éléments suivants doit être défini :
  • Pour accorder l'accès en lecture et en modification à des métadonnées spécifiques de bases de données et de tables : Opérateur de métadonnées Dataproc Metastore (roles/metastore.metadataOperator) sur le service de métadonnées
  • Pour utiliser l'objet Cloud Storage qui stocke les sauvegardes planifiées, procédez comme suit: Utilisateur d'objets Cloud Storage (roles/storage.objectUser) sur l'agent de service Dataproc Metastore

Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour sauvegarder un service Metastore Dataproc. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour sauvegarder un service Dataproc Metastore :

  • Pour sauvegarder un service de métadonnées: metastore.backups.create
  • Pour utiliser l'objet Cloud Storage :
    • orgpolicy.policy.get
    • resourcemanager.projects.get
    • resourcemanager.projects.list
    • storage.managedFolders.create
    • storage.managedFolders.delete
    • storage.managedFolders.get
    • storage.managedFolders.list
    • storage.multipartUploads.*
    • storage.objects.create
    • storage.objects.delete
    • storage.objects.get
    • storage.objects.list
    • storage.objects.restore
    • storage.objects.update

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus sur les rôles et les autorisations spécifiques à Dataproc Metastore, consultez la page Présentation d'IAM de Dataproc Metastore.

Considérations concernant la sauvegarde

Avant d'exécuter une opération de sauvegarde, tenez compte des points suivants :

  • Pour chaque service Dataproc Metastore, vous pouvez créer et stocker jusqu'à sept sauvegardes à la fois. Si vous essayez de dépasser sept sauvegardes, le processus échoue. Si vous souhaitez créer une autre sauvegarde, vous devez d'abord supprimer manuellement l'un de vos fichiers de sauvegarde stockés.
  • Lorsqu'une opération de sauvegarde est en cours, vous ne pouvez pas mettre à jour votre service Dataproc Metastore. Par exemple, vous ne pouvez pas modifier les paramètres de configuration. Cependant, vous pouvez toujours utiliser vos services telles que l'accès aux métadonnées à partir des ressources Dataproc associées des clusters autogérés.
  • Vous pouvez créer des sauvegardes planifiées qui s'exécutent à différents intervalles cron, par exemple tous les jours.

Créer une sauvegarde

Pour sauvegarder un service Dataproc Metastore, suivez la procédure décrite dans l'un des onglets suivants:

Console

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore :

    Ouvrir Dataproc Metastore

  2. Sur la page Dataproc Metastore, cliquez sur le nom du service. que vous souhaitez sauvegarder.

    La page Détails du service s'ouvre.

    Page d'information sur le service
    Figure 1 Page d'informations sur le service Dataproc Metastore
  3. En haut de la page, cliquez sur Sauvegarder.

    La page Sauvegarde s'affiche.

  4. Saisissez le nom de la sauvegarde.

  5. (Facultatif) Saisissez une Description de la sauvegarde.

  6. Pour lancer l'opération de sauvegarde, cliquez sur Sauvegarde.

    Revenez sur la page Dataproc Metastore et vérifiez que votre service a bien été sauvegardé.

    Une fois la sauvegarde terminée, Dataproc Metastore revient automatiquement à l'état actif, que la sauvegarde ait réussi ou non.

CLI gcloud

  1. Pour sauvegarder un service Dataproc Metastore, exécutez la commande gcloud metastore services backups create suivante :

    gcloud metastore services backups create BACKUP \
        --location=LOCATION \
        --service=SERVICE \
        --description=DESCRIPTION
    

    Remplacez les éléments suivants :

    • BACKUP : ID ou identifiant complet de la sauvegarde.
    • LOCATION: région Google Cloud dans laquelle votre service Dataproc Metastore.
    • SERVICE: nom de votre Service Dataproc Metastore.
    • DESCRIPTION : description de votre sauvegarde.
  2. Vérifiez que votre service a bien été sauvegardé.

    Une fois la sauvegarde terminée, Dataproc Metastore revient automatiquement à l'état actif, que la sauvegarde ait réussi ou non.

REST

Suivez les instructions de l'API pour sauvegarder les métadonnées à partir d'un service. à l'aide d'APIs Explorer.

Une fois la sauvegarde terminée, Dataproc Metastore revient automatiquement à l'état actif, que la sauvegarde ait réussi ou non.

Afficher l'historique des sauvegardes

Pour afficher l'historique des sauvegardes d'un service Dataproc Metastore dans la console Google Cloud, procédez comme suit :

  1. Dans la console Google Cloud, ouvrez Dataproc Metastore. .
  2. Dans la barre de navigation, cliquez sur Sauvegarder/Restaurer.

    L'historique des sauvegardes s'affiche dans un tableau sous Sauvegardes.

    L'historique affiche les sept dernières sauvegardes.

    La suppression d'un service Dataproc Metastore l'historique des sauvegardes associé.

Supprimer une sauvegarde

Pour supprimer une sauvegarde Dataproc Metastore dans la console Google Cloud, procédez comme suit:

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore.
  2. Dans la barre de navigation, cliquez sur Sauvegarder/Restaurer.
  3. Recherchez la sauvegarde que vous souhaitez supprimer, puis cliquez sur le bouton des paramètres.
  4. Cliquez sur Supprimer.

Programmer une sauvegarde

Les sauvegardes peuvent être planifiées pour s'exécuter sur une tâche Cron spécifiée par l'utilisateur intervalles, y compris la course tous les jours, toutes les semaines ou tous les mois. Un calendrier Cron utilise le format de chaîne unix-cron (* * * * *) qui est un ensemble de cinq champs sur une ligne, indiquant quand la tâche doit être exécutée.

Par exemple, vous pouvez définir un intervalle personnalisé pour créer une sauvegarde chaque semaine, par exemple en créant une sauvegarde tous les mercredis à 14h PST.

Considérations concernant les sauvegardes planifiées

  • Les sauvegardes planifiées doivent spécifier un emplacement de sauvegarde, qui doit être un Chemin d'accès Cloud Storage.
  • Les sauvegardes planifiées sont toujours créées au format de fichier Avro.
  • Les sauvegardes planifiées sont configurées par défaut dans le fuseau horaire UTC. Vous pouvez modifier le fuseau horaire lorsque vous créez la sauvegarde pour la première fois.
  • Les sauvegardes planifiées peuvent être définies pour s'exécuter toutes les heures, tous les jours, toutes les semaines ou tous les mois. L'intervalle horaire minimal que vous pouvez définir est de quatre heures.

Créer une sauvegarde planifiée

Vous pouvez définir des planifications de sauvegarde lorsque vous créez votre service pour la première fois ou les ajouter ultérieurement lorsque vous mettez à jour votre service.

Pour créer un service Dataproc Metastore 2 avec une sauvegarde planifiée, suivez la procédure décrite dans l'un des onglets suivants :

Console

  1. Dans la console Google Cloud, ouvrez Dataproc Metastore. .

  2. En haut de la page Dataproc Metastore, cliquez sur le bouton Créer.

    La page Créer un service s'ouvre.

  3. Sélectionnez Dataproc Metastore 2.

  4. Sous Sauvegardes planifiées, placez l'option sur Activer.

  5. Sous Emplacement, sélectionnez l'emplacement Cloud Storage dans lequel vous souhaitez stocker votre sauvegarde planifiée.

  6. Facultatif: sous "Planification", sélectionnez les options suivantes:

    1. Pour Récurrence, sélectionnez la récurrence (par exemple, Tous les jours). ou Hebdomadaire.
    2. Dans Heure, sélectionnez l'heure de la récurrence, par exemple 00:00.
    3. Pour Fuseau horaire, sélectionnez le fuseau horaire approprié, par exemple UTC-8.
  7. Pour les autres options de configuration du service, utilisez les valeurs par défaut fournies.

  8. Cliquez sur Envoyer.

CLI gcloud

  1. Pour planifier une sauvegarde d'un service Dataproc Metastore, exécutez la commande gcloud metastore services backups create suivante :

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION
    

    Remplacez les éléments suivants :

    • SERVICE: ID ou identifiant complet pour la sauvegarde.
    • LOCATION: région Google Cloud dans laquelle votre service Dataproc Metastore.
    • SCHEDULED_BACKUP_CRON: la fréquence de vos sauvegarde, spécifiée au format de l'heure Cron. Par exemple, une valeur Cron de 0 0 * * * programme un événement sauvegarde.
    • SCHEDULED_BACKUP_LOCATION: le Emplacement Cloud Storage de votre sauvegarde. Exemple : gs://my-bucket/path/to/location.

    ou

    Vous pouvez également planifier une sauvegarde en stockant les valeurs précédentes dans un configuration Terraform:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Remplacez les éléments suivants :

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE : chemin d'accès à un fichier JSON contenant les valeurs de configuration de sauvegarde enabled, cront_schedule, time_zone et backup_location.

    L'exemple suivant montre un fichier de configuration de sauvegarde active les sauvegardes planifiées, définit le calendrier des sauvegardes toutes les heures, spécifie le fuseau horaire sur "PST" et définit en tant que bucket Cloud Storage. Vous pouvez choisir des fuseaux horaires dans la liste des fuseaux horaires courants de la base de données tz.

    {
    "enabled": true,
    "cron_schedule": "0 0 * * *",
    "time_zone": "PST",
    "backup_location": "gs://my-bucket/path/to/location"
    }
    

REST

Suivez les instructions de l'API pour créer une sauvegarde planifiée. à l'aide d'APIs Explorer.

Mettre à jour une sauvegarde planifiée

Pour mettre à jour un service Dataproc Metastore 2 configuré avec une sauvegarde planifiée, procédez comme suit dans l'un des onglets suivants :

Console

  1. Dans la console Google Cloud, ouvrez Dataproc Metastore. .

  2. Sur la page Dataproc Metastore, cliquez sur le nom du service pour lequel vous souhaitez planifier une sauvegarde.

  3. Sous Scheduled Backups (Sauvegardes planifiées), définissez le bouton sur Enabled (Activé).

  4. Sous Emplacement, sélectionnez l'emplacement Cloud Storage dans lequel vous souhaitez stocker votre sauvegarde planifiée.

  5. Facultatif: Sous Planning, sélectionnez des valeurs pour les champs suivants:

    1. Pour Repeats (Répéter), sélectionnez la fréquence, par exemple Daily (Quotidienne) ou Weekly (Hebdomadaire).
    2. Dans Heure, sélectionnez l'heure de la récurrence, par exemple 00:00.
    3. Dans le champ Fuseau horaire, sélectionnez le fuseau horaire approprié, par exemple UTC-8

CLI gcloud

  1. Pour planifier une sauvegarde d'un service Dataproc Metastore, exécutez la commande gcloud metastore services backups update suivante :

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION \
    

    Remplacez les éléments suivants :

    • SERVICE : ID ou identifiant complet de la sauvegarde planifiée.
    • LOCATION: région Google Cloud dans laquelle votre service Dataproc Metastore.
    • SCHEDULED_BACKUP_CRON : fréquence de votre sauvegarde, spécifiée au format cron. Par exemple, une valeur cron de 0 0 * * * planifie une sauvegarde quotidienne.
    • SCHEDULED_BACKUP_LOCATION : emplacement Cloud Storage de votre sauvegarde planifiée. Exemple : gs://my-bucket/path/to/location.

    Vous pouvez également mettre à jour une sauvegarde planifiée en utilisant les valeurs précédemment stockées dans un fichier de configuration:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Remplacez les éléments suivants :

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: chemin d'accès à un fichier JSON contenant la configuration de sauvegarde.

    L'exemple suivant présente un fichier de configuration de sauvegarde qui désactive un la sauvegarde planifiée.

    {
    "enabled": false,
    }
    

REST

Suivez les instructions de l'API pour mettre à jour une sauvegarde planifiée à l'aide de l'explorateur d'API.

Afficher une sauvegarde planifiée

Pour afficher un service Dataproc Metastore 2 configuré avec une sauvegarde planifiée, procédez comme suit dans l'un des onglets suivants :

Console

  1. Dans la console Google Cloud, ouvrez Dataproc Metastore. .

  2. En haut de la page, cliquez sur Sauvegarder.

    La page Sauvegarde s'ouvre et affiche vos sauvegardes planifiées. Notez que les sauvegardes sont en fait stockées dans le bucket Cloud Storage que vous avez fourni dans la configuration de la sauvegarde planifiée.

CLI gcloud

  1. Exécutez la commande gcloud storage ls suivante :

    gcloud storage ls gs://BUCKET_NAME/SERVICE/LOCATION
    

    Remplacez les éléments suivants :

    • BUCKET_NAME: chemin d'accès à Cloud Storage qui stocke la sauvegarde planifiée que vous souhaitez afficher.
    • SERVICE : ID ou identifiant complet de la sauvegarde planifiée.
    • LOCATION: région Google Cloud dans laquelle votre le service Dataproc Metastore réside.

REST

Suivez les instructions de l'API pour afficher une sauvegarde planifiée. à l'aide d'APIs Explorer.

Résoudre les problèmes courants

Étape suivante