Esta página explica como criar um backup de um serviço do metastore do Dataproc.
Um backup tira um snapshot do seu serviço e salva as configurações atuais e todos os metadados armazenados.
Depois de criar um backup, use o recurso Restore from a backup para preencher um novo serviço do Metastore do Dataproc com os dados salvos no snapshot.
Antes de começar
- Ative o Dataproc Metastore no seu projeto.
- Crie um serviço Metastore do Dataproc.
- Opcional: importar metadados para o Dataproc Metastore.
Funções exigidas
Para receber as permissões necessárias para fazer backup de um serviço do Dataproc Metastore, peça ao administrador para conceder a você os seguintes papéis do IAM:
-
Para conceder controle total dos recursos do metastore do Dataproc para concluir um backup, faça o seguinte:
-
Editor do metastore do Dataproc (
roles/metastore.editor
) no serviço de metadados. -
Administrador do metastore do Dataproc (
roles/metastore.admin
) no projeto.
-
Editor do metastore do Dataproc (
-
Para conceder acesso de leitura e modificação a metadados específicos de bancos de dados e tabelas:
Operador de metadados do metastore do Dataproc (
roles/metastore.metadataOperator
) no serviço de metadados -
Para usar o objeto do Cloud Storage que armazena backups programados:
Usuário de objetos do Cloud Storage (
roles/storage.objectUser
) no agente de serviço do metastore do Dataproc
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esses papéis predefinidos contêm as permissões necessárias para fazer backup de um serviço do Dataproc Metastore. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:
Permissões necessárias
As permissões a seguir são necessárias para fazer backup de um serviço do Dataproc Metastore:
-
Para fazer backup de um serviço de metadados:
metastore.backups.create
-
Para usar o objeto do Cloud Storage:
-
orgpolicy.policy.get
-
resourcemanager.projects.get
-
resourcemanager.projects.list
-
storage.managedFolders.create
-
storage.managedFolders.delete
-
storage.managedFolders.get
-
storage.managedFolders.list
-
storage.multipartUploads.*
-
storage.objects.create
-
storage.objects.delete
-
storage.objects.get
-
storage.objects.list
-
storage.objects.restore
-
storage.objects.update
-
Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.
Para mais informações sobre papéis e permissões específicos do Dataproc Metastore, consulte Visão geral do IAM do Dataproc Metastore.Considerações sobre backup
Antes de executar uma operação de backup, observe as seguintes considerações:
- Para cada serviço do metastore do Dataproc, é possível criar e armazenar até sete backups por vez. Se você tentar exceder sete backups, o processo de backup vai falhar. Se você quiser criar outro backup, primeiro exclua manualmente um dos arquivos de backup armazenados.
- Enquanto uma operação de backup estiver em execução, não será possível atualizar o serviço do Metastore do Dataproc. Por exemplo, não será possível mudar as configurações. No entanto, ainda é possível usar o serviço para operações normais, como acessar metadados de clusters autogerenciados ou do Dataproc anexados.
- É possível criar backups programados que são executados em vários intervalos de cron, como todos os dias.
Criar backup
Para fazer backup de um serviço do metastore do Dataproc, siga as etapas em uma das seguintes guias:
Console
No console do Google Cloud, abra a página Metastore do Dataproc:
Na página Metastore do Dataproc, clique no nome do serviço que você quer fazer backup.
A página Detalhes do serviço é aberta.
Na parte superior da página, clique em Backup.
A página Backup é aberta.
Digite o Nome do backup.
Opcional: digite uma descrição para o caso.
Para iniciar a operação de backup, clique em Backup.
Volte para a página Metastore do Dataproc e verifique se o serviço foi feito backup.
Quando o backup é concluído, o Dataproc Metastore retorna automaticamente ao estado ativo, independentemente de o backup ter sido bem-sucedido ou não.
CLI da gcloud
Para fazer backup de um serviço do metastore do Dataproc, execute o seguinte comando
gcloud metastore services backups create
:gcloud metastore services backups create BACKUP \ --location=LOCATION \ --service=SERVICE \ --description=DESCRIPTION
Substitua:
BACKUP
: o ID ou identificador totalmente qualificado do backup.LOCATION
: a região do Google Cloud em que o serviço do Dataproc Metastore está localizado.SERVICE
: o nome do serviço do metastore do Dataproc.DESCRIPTION
: uma descrição do backup.
Verifique se o serviço foi salvo em backup.
Quando o backup é concluído, o Metastore do Dataproc retorna automaticamente ao estado ativo, independentemente de o backup ter sido bem-sucedido ou não.
REST
Siga as instruções da API para fazer backup dos metadados de um serviço usando o APIs Explorer.
Quando o backup é concluído, o metastore do Dataproc retorna automaticamente ao estado ativo, independentemente de o backup ter sido bem-sucedido ou não.
Conferir o histórico de backup
Para conferir o histórico de backup de um serviço do metastore do Dataproc no console do Google Cloud, siga estas etapas:
- No console do Google Cloud, abra a página Metastore do Dataproc.
Na barra de navegação, clique em Backup/Restauração.
O histórico de backup aparece em uma tabela em Backups.
O histórico mostra até os 7 backups mais recentes.
A exclusão de um serviço do metastore do Dataproc também exclui todo o histórico de backup associado.
Excluir um backup
Para excluir um backup do Dataproc Metastore no console do Google Cloud, conclua as etapas a seguir:
- No console do Google Cloud, abra a página Metastore do Dataproc.
- Na barra de navegação, clique em Backup/Restauração.
- Encontre o backup que você quer excluir e clique no botão de configurações.
- Clique em Excluir.
Programar um backup
Os backups podem ser programados para execução em intervalos de jobs cron especificados pelo usuário, incluindo execução diária, semanal ou mensal. Uma programação cron usa o formato de string unix-cron (* * * * *) que é um conjunto de cinco campos em uma linha, indicando quando o job precisa ser executado.
Por exemplo, é possível definir um intervalo personalizado para criar um backup toda semana, como um backup toda quarta-feira às 14h (PST).
Considerações sobre backups programados
- Os backups programados precisam especificar um local de backup, que precisa ser um caminho do Cloud Storage.
- Os backups programados são sempre criados no formato de arquivo Avro.
- Por padrão, os backups programados são configurados no fuso horário UTC. É possível mudar o fuso horário ao criar o backup pela primeira vez.
- Os backups programados podem ser configurados para execução em intervalos de hora, dia, semana ou mês. O intervalo mínimo por hora que você pode definir é de 4 horas.
Criar um backup programado
Os backups programados podem ser definidos quando você cria o serviço pela primeira vez ou adicionados mais tarde quando você atualiza o serviço.
Para criar um serviço do metastore do Dataproc 2 com um backup programado, conclua as etapas em uma das guias a seguir:
Console
No console do Google Cloud, abra a página Metastore do Dataproc.
Na parte superior da página Metastore do Dataproc, clique no botão Criar.
A página Criar serviço é aberta.
Selecione Dataproc Metastore 2.
Em Backups programados, defina a chave como Ativar.
Em Local, selecione o local do Cloud Storage em que você quer armazenar o backup programado.
Opcional: em "Programação", selecione o seguinte:
- Em Repetições, selecione a repetição, como Diária ou Semanal.
- Em Às, selecione o horário da recorrência, por exemplo, 12h.
- Em Fuso horário, selecione o fuso horário apropriado, como UTC-8.
Para as outras opções de configuração do serviço, use os padrões fornecidos.
Clique em Enviar.
CLI da gcloud
Para programar um backup de um serviço do metastore do Dataproc, execute o seguinte comando
gcloud metastore services backups create
:gcloud metastore services create SERVICE \ --location=LOCATION \ --enable-scheduled-backup \ --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \ --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION
Substitua:
SERVICE
: o ID ou identificador totalmente qualificado do backup.LOCATION
: a região do Google Cloud em que o serviço do Dataproc Metastore está localizado.SCHEDULED_BACKUP_CRON
: a frequência do backup, especificada no formato de horário cron. Por exemplo, um valor de cron de0 0 * * *
programa um backup diário.SCHEDULED_BACKUP_LOCATION
: o local do Cloud Storage do seu backup. Por exemplo,gs://my-bucket/path/to/location
.
ou
Também é possível programar um backup armazenando os valores anteriores em um arquivo de configuração:
gcloud metastore services create SERVICE \ --location=LOCATION \ --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
Substitua:
SCHEDULED_BACKUP_CONFIGS_FROM_FILE
: um caminho para um arquivo JSON contendo os valores de configuração de backupenabled
,cront_schedule
,time_zone
ebackup_location
.
O exemplo a seguir mostra um arquivo de configuração de backup que ativa backups programados, define a programação de backup para a cada hora, especifica o fuso horário como PST e define o local de backup como um bucket do Cloud Storage. Você pode escolher fusos horários na lista de fusos horários comuns do banco de dados tz.
{ "enabled": true, "cron_schedule": "0 0 * * *", "time_zone": "PST", "backup_location": "gs://my-bucket/path/to/location" }
REST
Siga as instruções da API para criar um backup programado usando o APIs Explorer.
Atualizar um backup programado
Para atualizar um serviço do metastore do Dataproc 2 configurado com um backup programado, siga as etapas em uma das guias a seguir:
Console
No console do Google Cloud, abra a página Metastore do Dataproc.
Na página Metastore do Dataproc, clique no nome do serviço para o qual você quer programar um backup.
Em Backups programados, defina a chave como Ativado.
Em local, selecione o local do Cloud Storage em que você quer armazenar o backup programado.
Opcional: em Programação, selecione valores para os seguintes campos:
- Em Repetições, selecione a repetição, como Diária ou Semanal.
- Em Às, selecione o horário da recorrência, por exemplo, 12h.
- Em Fuso horário, selecione o fuso horário apropriado, como UTC-8.
CLI da gcloud
Para programar um backup de um serviço do metastore do Dataproc, execute o seguinte comando
gcloud metastore services backups update
:gcloud metastore services update SERVICE \ --location=LOCATION \ --enable-scheduled-backup \ --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \ --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION \
Substitua:
SERVICE
: o ID ou identificador totalmente qualificado do backup programado.LOCATION
: a região do Google Cloud em que o serviço do Dataproc Metastore está localizado.SCHEDULED_BACKUP_CRON
: a frequência do backup, especificada no formato de horário cron. Por exemplo, um valor de cron de0 0 * * *
programa um backup diário.SCHEDULED_BACKUP_LOCATION
: o local do Cloud Storage do backup programado. Por exemplo,gs://my-bucket/path/to/location
.
Também é possível atualizar um backup programado usando os valores anteriores armazenados em um arquivo de configuração:
gcloud metastore services update SERVICE \ --location=LOCATION \ --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
Substitua:
SCHEDULED_BACKUP_CONFIGS_FROM_FILE
: um caminho para um arquivo JSON que contém a configuração de backup.
O exemplo a seguir mostra um arquivo de configuração de backup que desativa um backup programado.
{ "enabled": false, }
REST
Siga as instruções da API para atualizar um backup programado usando o APIs Explorer.
Conferir um backup programado
Para conferir um serviço do metastore do Dataproc 2 configurado com um backup programado, siga as etapas em uma das seguintes guias:
Console
No console do Google Cloud, abra a página Metastore do Dataproc.
Na parte superior da página, clique em Backup.
A página Backup é aberta e mostra os backups programados. Os backups são armazenados no bucket do Cloud Storage que você forneceu na configuração de backup programado.
CLI da gcloud
Execute o seguinte comando
gcloud storage ls
:gcloud storage ls gs://BUCKET_NAME/SERVICE/LOCATION
Substitua:
BUCKET_NAME
: o caminho para o bucket do Cloud Storage que armazena o backup programado que você quer visualizar.SERVICE
: o ID ou identificador totalmente qualificado do backup programado.LOCATION
: a região do Google Cloud em que o serviço do Dataproc Metastore está localizado.
REST
Siga as instruções da API para acessar um backup programado usando o APIs Explorer.
Resolver problemas comuns
- A conta de usuário ou de agente de serviço não tem as permissões necessárias.
- Para mais ajuda na solução de problemas comuns, consulte Cenários de erro de backup e restauração.
A seguir
- Restaurar um serviço do Metastore do Dataproc de um backup
- Atualizar e excluir um serviço do metastore do Dataproc