Sauvegarder un service Dataproc Metastore

Cette page explique comment créer une sauvegarde d'un service Dataproc Metastore.

Une sauvegarde prend un instantané de votre service qui enregistre ses paramètres de configuration actuels et toutes les métadonnées stockées.

Après avoir créé une sauvegarde, vous pouvez utiliser la fonctionnalité Restaurer à partir d'une sauvegarde pour renseigner un nouveau service Dataproc Metastore avec les données enregistrées dans l'instantané.

Avant de commencer

Rôles requis

Pour obtenir les autorisations nécessaires à la sauvegarde d'un service Dataproc Metastore, demandez à votre administrateur de vous attribuer les rôles IAM suivants:

Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Ces rôles prédéfinis contiennent les autorisations requises pour sauvegarder un service Dataproc Metastore. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour sauvegarder un service Dataproc Metastore:

  • Pour sauvegarder un service de métadonnées : metastore.backups.create
  • Pour utiliser l'objet Cloud Storage :
    • orgpolicy.policy.get
    • resourcemanager.projects.get
    • resourcemanager.projects.list
    • storage.managedFolders.create
    • storage.managedFolders.delete
    • storage.managedFolders.get
    • storage.managedFolders.list
    • storage.multipartUploads.*
    • storage.objects.create
    • storage.objects.delete
    • storage.objects.get
    • storage.objects.list
    • storage.objects.restore
    • storage.objects.update

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Pour en savoir plus sur des rôles et des autorisations spécifiques à Dataproc Metastore, consultez la page Présentation du service IAM de Dataproc Metastore.

Remarques concernant la sauvegarde

Avant d'exécuter une opération de sauvegarde, tenez compte des points suivants:

  • Pour chaque service Dataproc Metastore, vous pouvez créer et stocker jusqu'à sept sauvegardes à la fois. Si vous essayez de dépasser sept sauvegardes, le processus de sauvegarde échoue. Si vous souhaitez créer une autre sauvegarde, vous devez d'abord supprimer manuellement l'un de vos fichiers de sauvegarde stockés.
  • Lorsqu'une opération de sauvegarde est en cours d'exécution, vous ne pouvez pas mettre à jour votre service Dataproc Metastore. Par exemple, vous ne pouvez pas modifier les paramètres de configuration. Toutefois, vous pouvez toujours utiliser votre service pour des opérations normales, telles que l'accès aux métadonnées à partir des clusters Dataproc associés ou autogérés.
  • Vous pouvez créer des sauvegardes planifiées qui s'exécutent à différents intervalles Cron, par exemple tous les jours.

Créer une sauvegarde

Pour sauvegarder un service Dataproc Metastore, procédez comme suit dans l'un des onglets suivants:

Console

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore:

    Ouvrir Dataproc Metastore

  2. Sur la page Dataproc Metastore, cliquez sur le nom du service que vous souhaitez sauvegarder.

    La page Détails du service s'ouvre.

    Page d'information sur le service
    Figure 1. Page d'informations sur le service Dataproc Metastore
  3. En haut de la page, cliquez sur Sauvegarder.

    La page Sauvegarde s'ouvre.

  4. Saisissez le nom de la sauvegarde.

  5. (Facultatif) Saisissez une Description de la sauvegarde.

  6. Pour lancer l'opération de sauvegarde, cliquez sur Sauvegarder.

    Revenez à la page Dataproc Metastore et vérifiez que votre service a bien été sauvegardé.

    Une fois la sauvegarde terminée, Dataproc Metastore revient automatiquement à l'état actif, que la sauvegarde ait réussi ou non.

gcloud CLI

  1. Pour sauvegarder un service Dataproc Metastore, exécutez la commande gcloud metastore services backups create suivante:

    gcloud metastore services backups create BACKUP \
        --location=LOCATION \
        --service=SERVICE \
        --description=DESCRIPTION
    

    Remplacez les éléments suivants :

    • BACKUP: ID ou identifiant complet de la sauvegarde.
    • LOCATION: région Google Cloud dans laquelle se trouve votre service Dataproc Metastore.
    • SERVICE: nom de votre service Dataproc Metastore.
    • DESCRIPTION: description de la sauvegarde.
  2. Vérifiez que votre service a bien été sauvegardé.

    Une fois la sauvegarde terminée, Dataproc Metastore revient automatiquement à l'état actif, que la sauvegarde ait réussi ou non.

REST

Suivez les instructions de l'API pour sauvegarder les métadonnées d'un service à l'aide d'APIs Explorer.

Une fois la sauvegarde terminée, Dataproc Metastore revient automatiquement à l'état actif, que la sauvegarde ait abouti ou non.

Afficher l'historique des sauvegardes

Pour afficher l'historique des sauvegardes d'un service Dataproc Metastore dans la console Google Cloud, procédez comme suit:

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore.
  2. Dans la barre de navigation, cliquez sur Sauvegarder/Restaurer.

    L'historique de sauvegarde s'affiche dans un tableau sous Sauvegardes.

    L'historique affiche les sept dernières sauvegardes.

    La suppression d'un service Dataproc Metastore entraîne également la suppression de tout l'historique des sauvegardes associé.

Supprimer une sauvegarde

Pour supprimer une sauvegarde Dataproc Metastore dans la console Google Cloud, procédez comme suit:

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore.
  2. Dans la barre de navigation, cliquez sur Sauvegarder/Restaurer.
  3. Recherchez la sauvegarde que vous souhaitez supprimer, puis cliquez sur le bouton des paramètres.
  4. Cliquez sur Supprimer.

Planifier une sauvegarde

Les sauvegardes peuvent être planifiées pour s'exécuter à des intervalles de tâches Cron spécifiés par l'utilisateur, y compris sur une base quotidienne, hebdomadaire ou mensuelle. Une planification Cron utilise le format de chaîne unix-cron (* * * * *), qui est un ensemble de cinq champs sur une ligne indiquant le moment où la tâche doit être exécutée.

Par exemple, vous pouvez définir un intervalle personnalisé pour créer une sauvegarde chaque semaine, comme créer une sauvegarde tous les mercredis à 14h PST.

Remarques concernant la sauvegarde planifiée

  • Les sauvegardes planifiées doivent spécifier un emplacement de sauvegarde, qui doit être un chemin d'accès Cloud Storage.
  • Les sauvegardes planifiées sont toujours créées au format de fichier Avro.
  • Les sauvegardes planifiées sont configurées par défaut dans le fuseau horaire UTC. Vous pouvez modifier le fuseau horaire lorsque vous créez la sauvegarde pour la première fois.
  • Les sauvegardes planifiées peuvent être configurées pour s'exécuter à des intervalles quotidiens, hebdomadaires ou mensuels.

Créer une sauvegarde planifiée

Les planifications de sauvegardes peuvent être définies lorsque vous créez votre service pour la première fois ou ajoutées ultérieurement lorsque vous le mettez à jour.

Pour créer un service Dataproc Metastore 2 avec une sauvegarde planifiée, procédez comme suit dans l'un des onglets suivants:

Console

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore.

  2. En haut de la page Dataproc Metastore, cliquez sur le bouton Créer.

    La page Créer un service s'ouvre.

  3. Sélectionnez Dataproc Metastore 2.

  4. Sous Sauvegardes planifiées, définissez l'option sur Activer.

  5. Sous Emplacement, sélectionnez l'emplacement Cloud Storage dans lequel vous souhaitez stocker votre sauvegarde planifiée.

  6. Facultatif: sous "Planification", sélectionnez les options suivantes:

    1. Pour le champ Repeats (Périodicité), sélectionnez la récurrence, telle que Daily (Quotidienne) ou Weekly (Toutes les semaines).
    2. Dans le champ Heure, sélectionnez l'heure de la récurrence (par exemple, 00:00).
    3. Pour le champ Fuseau horaire, sélectionnez le fuseau horaire approprié, par exemple UTC-8.
  7. Pour les autres options de configuration de service, utilisez les valeurs par défaut fournies.

  8. Cliquez sur Envoyer.

gcloud CLI

  1. Pour planifier la sauvegarde d'un service Dataproc Metastore, exécutez la commande gcloud metastore services backups create suivante:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION
    

    Remplacez les éléments suivants :

    • SERVICE: ID ou identifiant complet de la sauvegarde.
    • LOCATION: région Google Cloud dans laquelle réside votre service Dataproc Metastore.
    • SCHEDULED_BACKUP_CRON: fréquence de votre sauvegarde, spécifiée dans le format d'heure Cron. Par exemple, une valeur Cron de 0 0 * * * planifie une sauvegarde quotidienne.
    • SCHEDULED_BACKUP_LOCATION: emplacement Cloud Storage de votre sauvegarde. Exemple : gs://my-bucket/path/to/location.

    ou

    Vous pouvez également planifier une sauvegarde en stockant les valeurs précédentes dans un fichier de configuration:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Remplacez les éléments suivants :

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: chemin d'accès à un fichier JSON contenant les valeurs de configuration de sauvegarde enabled, cront_schedule, time_zone et backup_location.

    L'exemple suivant montre un fichier de configuration de sauvegarde qui active les sauvegardes planifiées, définit le planning des sauvegardes sur "toutes les heures", spécifie le fuseau horaire sur PST et définit l'emplacement de sauvegarde en tant que bucket Cloud Storage. Vous pouvez choisir des fuseaux horaires dans la liste des fuseaux horaires de la base de données tz courants.

    {
    "enabled": true,
    "cron_schedule": "0 0 * * *",
    "time_zone": "PST",
    "backup_location": "gs://my-bucket/path/to/location"
    }
    

REST

Suivez les instructions de l'API pour créer une sauvegarde planifiée à l'aide d'APIs Explorer.

Mettre à jour une sauvegarde planifiée

Pour mettre à jour un service Dataproc Metastore 2 configuré avec une sauvegarde planifiée, procédez comme suit dans l'un des onglets suivants:

Console

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore.

  2. Sur la page Dataproc Metastore, cliquez sur le nom du service pour lequel vous souhaitez planifier une sauvegarde.

  3. Sous Sauvegardes planifiées, définissez l'option sur Activée.

  4. Sous Emplacement, sélectionnez l'emplacement Cloud Storage dans lequel vous souhaitez stocker votre sauvegarde planifiée.

  5. Facultatif: Sous Planification, sélectionnez les valeurs des champs suivants:

    1. Pour le champ Repeats (Périodicité), sélectionnez la récurrence, telle que Daily (Quotidienne) ou Weekly (Toutes les semaines).
    2. Dans le champ Heure, sélectionnez l'heure de la récurrence (par exemple, 00:00).
    3. Pour le champ Fuseau horaire, sélectionnez le fuseau horaire approprié, par exemple UTC-8.

gcloud CLI

  1. Pour planifier la sauvegarde d'un service Dataproc Metastore, exécutez la commande gcloud metastore services backups update suivante:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION \
    

    Remplacez les éléments suivants :

    • SERVICE: ID ou identifiant complet de la sauvegarde planifiée.
    • LOCATION: région Google Cloud dans laquelle se trouve votre service Dataproc Metastore.
    • SCHEDULED_BACKUP_CRON: fréquence de votre sauvegarde, spécifiée dans le format d'heure Cron. Par exemple, une valeur Cron de 0 0 * * * planifie une sauvegarde quotidienne.
    • SCHEDULED_BACKUP_LOCATION: emplacement Cloud Storage de votre sauvegarde planifiée. Exemple : gs://my-bucket/path/to/location.

    Vous pouvez également mettre à jour une sauvegarde planifiée à l'aide des valeurs précédentes stockées dans un fichier de configuration:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Remplacez les éléments suivants :

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: chemin d'accès à un fichier JSON contenant la configuration de sauvegarde.

    L'exemple suivant montre un fichier de configuration de sauvegarde qui désactive une sauvegarde planifiée.

    {
    "enabled": false,
    }
    

REST

Suivez les instructions de l'API pour mettre à jour une sauvegarde planifiée à l'aide d'APIs Explorer.

Afficher une sauvegarde planifiée

Pour afficher un service Dataproc Metastore 2 configuré avec une sauvegarde planifiée, procédez comme suit dans l'un des onglets suivants:

Console

  1. Dans la console Google Cloud, ouvrez la page Dataproc Metastore.

  2. En haut de la page, cliquez sur Sauvegarder.

    La page Sauvegarde s'ouvre et affiche vos sauvegardes planifiées. Notez que les sauvegardes sont en fait stockées dans le bucket Cloud Storage que vous avez indiqué dans la configuration de sauvegarde planifiée.

gcloud CLI

  1. Exécutez la commande gsutil ls suivante :

    gsutil ls gs://BUCKET_NAME/SERVICE/LOCATION
    

    Remplacez les éléments suivants :

    • BUCKET_NAME: chemin d'accès au bucket Cloud Storage qui stocke la sauvegarde planifiée que vous souhaitez afficher.
    • SERVICE: ID ou identifiant complet de la sauvegarde planifiée.
    • LOCATION: région Google Cloud dans laquelle réside votre service Dataproc Metastore.

REST

Suivez les instructions de l'API pour afficher une sauvegarde planifiée à l'aide d'APIs Explorer.

Résoudre les problèmes courants

Étapes suivantes