Fazer backup de um serviço do Dataproc Metastore

Nesta página, explicamos como criar um backup de um serviço do Dataproc Metastore.

Um backup tira um snapshot do seu serviço e salva as configurações atuais e todos os metadados armazenados.

Depois de criar um backup, use o recurso Restaurar de um backup para preencher um novo serviço do Metastore do Dataproc com os dados salvos no snapshot.

Antes de começar

Funções exigidas

Para ter as permissões necessárias para fazer backup de um serviço Metastore do Dataproc, peça ao administrador para conceder a você os seguintes papéis de IAM:

Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Esses papéis predefinidos contêm as permissões necessárias para fazer backup de um serviço Metastore do Dataproc. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para fazer backup de um serviço do metastore do Dataproc:

  • Para fazer backup de um serviço de metadados: metastore.backups.create
  • Para usar o objeto do Cloud Storage:
    • orgpolicy.policy.get
    • resourcemanager.projects.get
    • resourcemanager.projects.list
    • storage.managedFolders.create
    • storage.managedFolders.delete
    • storage.managedFolders.get
    • storage.managedFolders.list
    • storage.multipartUploads.*
    • storage.objects.create
    • storage.objects.delete
    • storage.objects.get
    • storage.objects.list
    • storage.objects.restore
    • storage.objects.update

Talvez você também consiga receber essas permissões com papéis personalizados ou outros papéis predefinidos.

Para mais informações sobre permissões e papéis específicos do metastore do Dataproc, consulte Visão geral do IAM do metastore do Dataproc.

Considerações sobre backup

Antes de executar uma operação de backup, observe as seguintes considerações:

  • Para cada serviço Metastore do Dataproc, é possível criar e armazenar até sete backups por vez. Se você tentar exceder sete backups, o processo de backup falhará. Se quiser criar outro backup, exclua manualmente um dos arquivos de backup armazenados.
  • Enquanto uma operação de backup estiver em execução, não será possível atualizar o serviço Metastore do Dataproc. Por exemplo, não é possível alterar as configurações. No entanto, ainda é possível usar o serviço para operações normais, como o acesso a metadados do Dataproc anexado ou de clusters autogerenciados.
  • É possível criar backups programados que são executados em vários intervalos de cron, como todos os dias.

Criar backup

Para fazer backup de um serviço Metastore do Dataproc, conclua as etapas em uma das seguintes guias:

Console

  1. No console do Google Cloud, abra a página Metastore do Dataproc:

    Abrir o metastore do Dataproc

  2. Na página Metastore do Dataproc, clique no nome do serviço que você quer armazenar em backup.

    A página Detalhes do serviço é aberta.

    Página de detalhes do serviço
    Figura 1. Página de detalhes do serviço do metastore do Dataproc
  3. Na parte superior da página, clique em Backup.

    A página Backup é aberta.

  4. Digite o Nome do backup.

  5. Opcional: digite uma descrição para o caso.

  6. Para iniciar a operação de backup, clique em Backup.

    Volte para a página Metastore do Dataproc e verifique se o backup do serviço foi concluído.

    Quando o backup é concluído, o metastore do Dataproc retorna automaticamente ao estado ativo, independentemente de o backup ter sido bem-sucedido ou não.

CLI da gcloud

  1. Para fazer backup de um serviço Metastore do Dataproc, execute o seguinte comando gcloud metastore services backups create:

    gcloud metastore services backups create BACKUP \
        --location=LOCATION \
        --service=SERVICE \
        --description=DESCRIPTION
    

    Substitua:

    • BACKUP: o ID ou o identificador totalmente qualificado do backup.
    • LOCATION: a região do Google Cloud em que o serviço Metastore do Dataproc reside.
    • SERVICE: o nome do serviço Metastore do Dataproc.
    • DESCRIPTION: uma descrição do backup.
  2. Verifique se o backup do serviço foi feito.

    Quando o backup é concluído, o metastore do Dataproc retorna automaticamente ao estado ativo, independentemente de o backup ter sido bem-sucedido ou não.

REST

Siga as instruções da API para fazer backup de metadados de um serviço usando o APIs Explorer.

Quando o backup é concluído, o metastore do Dataproc retorna automaticamente ao estado ativo, independentemente do backup ter sido ou não bem-sucedido.

Ver histórico de backup

Para ver o histórico de backup de um serviço Metastore do Dataproc no console do Google Cloud, siga estas etapas:

  1. No console do Console do Google Cloud, abra a página Metastore do Dataproc.
  2. Na barra de navegação, clique em Backup/restauração.

    O histórico de backups aparece em uma tabela em Backups.

    O histórico mostra até os últimos sete backups.

    A exclusão de um serviço do Dataproc Metastore também exclui todo o histórico de backup associado.

Excluir um backup

Para excluir um backup do metastore do Dataproc no console do Google Cloud, siga as seguintes etapas:

  1. No console do Google Cloud, abra a página Metastore do Dataproc.
  2. Na barra de navegação, clique em Backup/restauração.
  3. Encontre o backup que você quer excluir e clique no botão de configurações.
  4. Clique em Excluir.

Programar um backup

Os backups podem ser programados para execução em intervalos de cron jobs especificados pelo usuário, incluindo execução diária, semanal ou mensal. Uma programação cron usa o formato de string unix-cron (* * * * *), que é um conjunto de cinco campos em uma linha, indicando quando o job precisa ser executado.

Por exemplo, é possível definir um intervalo personalizado para criar um backup a cada semana, como toda quarta-feira às 14h (PST).

Considerações sobre o backup programado

  • Os backups programados precisam especificar um local de backup, que precisa ser um caminho do Cloud Storage.
  • Os backups programados são sempre criados no formato de arquivo Avro.
  • Por padrão, os backups programados são configurados no fuso horário UTC. É possível alterar o fuso horário ao criar o backup pela primeira vez.
  • É possível definir backups programados para intervalos diários, semanais ou mensais.

Criar um backup programado

As programações de backups podem ser definidas ao criar o serviço pela primeira vez ou adicionadas mais tarde quando você atualizar o serviço.

Para criar um serviço 2 do metastore do Dataproc com um backup programado, conclua as etapas em uma das seguintes guias:

Console

  1. No console do Google Cloud, abra a página Metastore do Dataproc.

  2. Na parte superior da página Metastore do Dataproc, clique no botão Criar.

    A página Criar serviço é aberta.

  3. Selecione Dataproc Metastore 2.

  4. Em Backups programados, alterne o botão para Ativar.

  5. Em Local, selecione o local do Cloud Storage em que você quer armazenar o backup programado.

  6. Opcional: de acordo com a programação, selecione o seguinte:

    1. Em Repetições, selecione a recorrência, como Diariamente ou Semanalmente.
    2. Em No horário, selecione o horário de recorrência, por exemplo, 0h.
    3. Em Fuso horário, selecione o fuso horário apropriado, como UTC-8.
  7. Para as opções de configuração de serviço restantes, use os padrões fornecidos.

  8. Clique em Enviar.

CLI da gcloud

  1. Para programar um backup de um serviço Metastore do Dataproc, execute o seguinte comando gcloud metastore services backups create:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION
    

    Substitua:

    • SERVICE: o ID ou identificador totalmente qualificado para o backup.
    • LOCATION: a região do Google Cloud em que o serviço Metastore do Dataproc reside.
    • SCHEDULED_BACKUP_CRON: a frequência do backup, especificada no formato de hora cron. Por exemplo, um valor cron de 0 0 * * * programa um backup diário.
    • SCHEDULED_BACKUP_LOCATION: o local do Cloud Storage do backup. Por exemplo, gs://my-bucket/path/to/location.

    ou

    Também é possível programar um backup armazenando os valores anteriores em um arquivo de configuração:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Substitua:

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: um caminho para um arquivo JSON que contém os valores de configuração de backup enabled, cront_schedule, time_zone e backup_location.

    O exemplo a seguir mostra um arquivo de configuração de backup que ativa backups programados, define a programação de backup como a cada hora, especifica o fuso horário como PST e define o local de backup como um bucket do Cloud Storage. É possível escolher fusos horários na lista de fusos horários comuns do banco de dados tz.

    {
    "enabled": true,
    "cron_schedule": "0 0 * * *",
    "time_zone": "PST",
    "backup_location": "gs://my-bucket/path/to/location"
    }
    

REST

Siga as instruções da API para criar um backup programado usando o APIs Explorer.

Atualizar um backup programado

Para atualizar um serviço 2 do metastore do Dataproc configurado com um backup programado, conclua as etapas em uma das seguintes guias:

Console

  1. No console do Google Cloud, abra a página Metastore do Dataproc.

  2. Na página Metastore do Dataproc, clique no nome do serviço para o qual você quer programar um backup.

  3. Em Backups programados, alterne o botão para Ativado.

  4. Em local, selecione o local do Cloud Storage em que você quer armazenar o backup programado.

  5. Opcional: em Programação, selecione valores para os seguintes campos:

    1. Em Repetições, selecione a recorrência, como Diariamente ou Semanalmente.
    2. Em No horário, selecione o horário de recorrência, por exemplo, 0h.
    3. Em Fuso horário, selecione o fuso horário apropriado, como UTC-8.

CLI da gcloud

  1. Para programar um backup de um serviço Metastore do Dataproc, execute o seguinte comando gcloud metastore services backups update:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION \
    

    Substitua:

    • SERVICE: o ID ou identificador totalmente qualificado do backup programado.
    • LOCATION: a região do Google Cloud em que o serviço Metastore do Dataproc reside.
    • SCHEDULED_BACKUP_CRON: a frequência do backup, especificada no formato de hora cron. Por exemplo, um valor cron de 0 0 * * * programa um backup diário.
    • SCHEDULED_BACKUP_LOCATION: o local do Cloud Storage do backup programado. Por exemplo, gs://my-bucket/path/to/location.

    Também é possível atualizar um backup programado usando os valores anteriores armazenados em um arquivo de configuração:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Substitua:

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: um caminho para um arquivo JSON que contém a configuração de backup.

    O exemplo a seguir mostra um arquivo de configuração de backup que desativa um backup programado.

    {
    "enabled": false,
    }
    

REST

Siga as instruções da API para atualizar um backup programado usando o APIs Explorer.

Conferir um backup programado

Para visualizar um serviço 2 do Metastore do Dataproc configurado com um backup programado, conclua as etapas em uma das seguintes guias:

Console

  1. No console do Google Cloud, abra a página Metastore do Dataproc.

  2. Na parte superior da página, clique em Backup.

    A página Backup é aberta e exibe seus backups programados. Observe que os backups são armazenados no bucket do Cloud Storage fornecido na configuração do backup programado.

CLI da gcloud

  1. Execute o seguinte comando gsutil ls:

    gsutil ls gs://BUCKET_NAME/SERVICE/LOCATION
    

    Substitua:

    • BUCKET_NAME: o caminho para o bucket do Cloud Storage que armazena o backup programado que você quer visualizar.
    • SERVICE: o ID ou identificador totalmente qualificado do backup programado.
    • LOCATION: a região do Google Cloud em que o serviço Metastore do Dataproc reside.

REST

Siga as instruções da API para visualizar um backup programado usando o APIs Explorer.

Resolver problemas comuns

A seguir