Fazer backup de um serviço do Dataproc Metastore

Nesta página, explicamos como criar um backup de um metastore do Dataproc serviço.

Um backup captura um snapshot dos salva as configurações atuais e todos os metadados armazenados.

Depois de criar um backup, use o recurso Restaurar de um backup para preencher um novo serviço do metastore do Dataproc com os dados salvos no snapshot.

Antes de começar

Funções exigidas

Para ter as permissões necessárias para fazer backup de um serviço do metastore do Dataproc, peça ao administrador para conceder a você os seguintes papéis do IAM:

Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.

Esses papéis predefinidos têm as permissões necessárias para fazer backup de um serviço do metastore do Dataproc. Para conferir as permissões exatas necessárias, expanda a seção Permissões necessárias:

Permissões necessárias

As seguintes permissões são necessárias para fazer backup de um serviço do metastore do Dataproc:

  • Para fazer backup de um serviço de metadados: metastore.backups.create
  • Para usar o objeto do Cloud Storage:
    • orgpolicy.policy.get
    • resourcemanager.projects.get
    • resourcemanager.projects.list
    • storage.managedFolders.create
    • storage.managedFolders.delete
    • storage.managedFolders.get
    • storage.managedFolders.list
    • storage.multipartUploads.*
    • storage.objects.create
    • storage.objects.delete
    • storage.objects.get
    • storage.objects.list
    • storage.objects.restore
    • storage.objects.update

Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.

Para mais informações sobre papéis e permissões específicos do metastore do Dataproc, consulte Visão geral do IAM do metastore do Dataproc.

Considerações sobre o backup

Antes de executar uma operação de backup, observe as seguintes considerações:

  • Para cada serviço do Dataproc Metastore, é possível criar e armazenar até sete backups por vez. Se você tentar exceder sete backups, o backup falha no processo. Se você quiser criar outro backup, primeiro deverá manualmente excluir um dos arquivos de backup armazenados.
  • Enquanto uma operação de backup está em execução, não é possível atualizar seu serviço Metastore do Dataproc. Por exemplo, não é possível alterar definições de configuração. No entanto, você ainda pode usar o serviço para operações, como acessar metadados do Dataproc anexado ou e autogerenciados.
  • É possível criar backups programados que são executados em vários intervalos do cron, como todos os dias.

Criar backup

Para fazer backup de um serviço do Dataproc Metastore, siga as etapas em uma das seguintes guias:

Console

  1. No console do Google Cloud, abra a página Metastore do Dataproc:

    Abra o metastore do Dataproc

  2. Na página Metastore do Dataproc, clique no nome do serviço. que serão armazenados em backup.

    A página Detalhes do serviço é aberta.

    Página de detalhes do serviço
    Figura 1. Metastore do Dataproc página de detalhes do serviço
    .
  3. Na parte superior da página, clique em Backup.

    A página Backup será aberta.

  4. Digite o Nome do backup.

  5. Opcional: digite uma descrição para o caso.

  6. Para iniciar a operação de backup, clique em Backup.

    Volte para a página Metastore do Dataproc e Verifique se o backup do serviço foi concluído.

    Quando o backup for concluído, o metastore do Dataproc retorna automaticamente ao estado ativo, independentemente de o backup não foi concluído.

CLI da gcloud

  1. Para fazer backup de um serviço do Dataproc Metastore, execute o seguinte Comando gcloud metastore services backups create:

    gcloud metastore services backups create BACKUP \
        --location=LOCATION \
        --service=SERVICE \
        --description=DESCRIPTION
    

    Substitua:

    • BACKUP: o ID ou totalmente qualificado identificador para o backup.
    • LOCATION: a região do Google Cloud em que seu serviço do Dataproc Metastore reside.
    • SERVICE: o nome do serviço Metastore do Dataproc.
    • DESCRIPTION: uma descrição do backup.
  2. Verifique se o backup do serviço foi feito.

    Quando o backup for concluído, o metastore do Dataproc retorna automaticamente ao estado ativo, independentemente de o backup tenha sido bem-sucedido.

REST

Siga as instruções da API para fazer backup de metadados de um serviço. usando a ferramenta APIs Explorer.

Quando o backup for concluído, o metastore do Dataproc automaticamente retorna ao estado ativo, independentemente de o backup bem-sucedido.

Ver histórico de backups

Para acessar o histórico de backups de um serviço do metastore do Dataproc no console do Google Cloud, siga estas etapas:

  1. No console do Google Cloud, abra o Metastore do Dataproc. página.
  2. Na barra de navegação, clique em Fazer backup/Restaurar.

    Seu histórico de backups aparece em uma tabela em Backups.

    O histórico mostra até os sete backups mais recentes.

    A exclusão de um serviço do Dataproc Metastore também exclui todos histórico de backup associado.

Excluir um backup

Para excluir um backup do Dataproc Metastore no console do Google Cloud: siga estas etapas:

  1. No console do Google Cloud, abra o Metastore do Dataproc. página.
  2. Na barra de navegação, clique em Fazer backup/Restaurar.
  3. Encontre o backup que você quer excluir e clique no botão de configurações.
  4. Clique em Excluir.

Programar um backup

Os backups podem ser programados para execução em um cron job especificado pelo usuário em intervalos de tempo, incluindo diária, semanal ou mensal. Uma programação cron usa o formato de string unix-cron (* * * * *), que é um conjunto de cinco campos em uma linha, indicando quando o trabalho deve ser executado.

Por exemplo, é possível definir um intervalo personalizado para criar um backup todas as semanas, como criar um backup todas as quartas-feiras às 14h PST.

Considerações sobre o backup programado

  • Backups programados precisam especificar um local de backup, que deve ser um Caminho do Cloud Storage.
  • Os backups programados são sempre criados no formato de arquivo Avro.
  • Por padrão, os backups programados são configurados no fuso horário UTC. Você pode alterar o fuso horário ao criar o backup pela primeira vez.
  • Os backups programados podem ser definidos para execução a cada hora, dia, semana ou mês. em intervalos de tempo real. O intervalo mínimo por hora que você pode definir é de quatro horas.

Criar um backup programado

É possível definir as programações de backup ao criar o serviço pela primeira vez ou adicionados mais tarde ao atualizar o serviço.

Para criar um serviço Metastore do Dataproc 2 com um backup programado, conclua as etapas em uma das seguintes guias:

Console

  1. No console do Google Cloud, abra o Metastore do Dataproc página.

  2. Na parte superior da página Metastore do Dataproc, clique no botão Criar.

    A página Criar serviço é aberta.

  3. Selecione Metastore do Dataproc 2.

  4. Em Backups programados, defina o botão de alternância como Ativar.

  5. Em Local, selecione o local do Cloud Storage em que você quer para armazenar o backup programado.

  6. Opcional: de acordo com a programação, selecione o seguinte:

    1. Para Repetições, selecione a recorrência, como Diariamente. ou Semanal.
    2. Em Às, selecione o horário de recorrência, como 0h.
    3. Em Fuso horário, selecione o fuso horário apropriado, como UTC-8
  7. Para as demais opções de configuração de serviço, use o padrão.

  8. Clique em Enviar.

CLI da gcloud

  1. Para programar um backup de um serviço do Dataproc Metastore, execute o seguinte gcloud metastore services backups create comando:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION
    

    Substitua:

    • SERVICE: o ID ou identificador totalmente qualificado para o backup.
    • LOCATION: a região do Google Cloud em que seu serviço do Dataproc Metastore.
    • SCHEDULED_BACKUP_CRON: a frequência especificado no formato de hora cron. Por exemplo, um valor cron de 0 0 * * * programa uma backup.
    • SCHEDULED_BACKUP_LOCATION: o Local do backup no Cloud Storage. Por exemplo, gs://my-bucket/path/to/location.

    ou

    Também é possível agendar um backup armazenando os valores anteriores em um arquivo de configuração:

    gcloud metastore services create SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Substitua:

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: um caminho para um arquivo JSON contendo os valores de configuração de backup enabled, cront_schedule, time_zone e backup_location.

    O exemplo a seguir mostra um arquivo de configuração de backup que ativa backups agendados, define a programação de backup como a cada hora, especifica o fuso horário como PST e define o backup local como um bucket do Cloud Storage. É possível escolher fusos horários de a lista de fusos horários comuns do banco de dados tz.

    {
    "enabled": true,
    "cron_schedule": "0 0 * * *",
    "time_zone": "PST",
    "backup_location": "gs://my-bucket/path/to/location"
    }
    

REST

Siga as instruções da API para criar um backup programado. usando a ferramenta APIs Explorer.

Atualizar um backup programado

Para atualizar um serviço 2 do metastore do Dataproc configurado com um backup programado, siga as etapas em uma das seguintes guias:

Console

  1. No console do Google Cloud, abra o Metastore do Dataproc página.

  2. Na página Metastore do Dataproc, clique no nome do serviço. você quer agendar um backup.

  3. Em Backups programados, defina o botão de alternância como Ativado.

  4. Em local, selecione o local do Cloud Storage em que você quer para armazenar o backup programado.

  5. Opcional: em Programação, selecione os valores para os seguintes campos:

    1. Para Repetições, selecione a recorrência, como Diariamente. ou Semanal.
    2. Em Às, selecione o horário de recorrência, como 0h.
    3. Em Fuso horário, selecione o fuso horário apropriado, como UTC-8

CLI da gcloud

  1. Para programar um backup de um serviço do Dataproc Metastore, execute o seguinte gcloud metastore services backups update comando:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --enable-scheduled-backup \
       --scheduled-backup-cron=SCHEDULED_BACKUP_CRON \
       --scheduled-backup-location=SCHEDULED_BACKUP_LOCATION \
    

    Substitua:

    • SERVICE: o ID ou identificador totalmente qualificado para o backup programado.
    • LOCATION: a região do Google Cloud em que seu serviço do Dataproc Metastore reside.
    • SCHEDULED_BACKUP_CRON: a frequência especificado no formato de hora cron. Por exemplo, um valor cron de 0 0 * * * programa uma backup.
    • SCHEDULED_BACKUP_LOCATION: o Cloud Storage local do backup programado. Por exemplo, gs://my-bucket/path/to/location.

    Também é possível atualizar um backup programado usando os valores armazenados acima em um arquivo de configuração:

    gcloud metastore services update SERVICE \
       --location=LOCATION \
       --scheduled-backup-configs-from-file=SCHEDULED_BACKUP_CONFIGS_FROM_FILE
    

    Substitua:

    • SCHEDULED_BACKUP_CONFIGS_FROM_FILE: um caminho para um arquivo JSON com a configuração de backup.

    O exemplo a seguir mostra um arquivo de configuração de backup que desativa backup programado.

    {
    "enabled": false,
    }
    

REST

Siga as instruções da API para atualizar um backup programado. usando a ferramenta APIs Explorer.

Ver um backup programado

Para ver um serviço 2 do metastore do Dataproc configurado com um backup programado, siga as etapas em uma das seguintes guias:

Console

  1. No console do Google Cloud, abra o Metastore do Dataproc página.

  2. Na parte superior da página, clique em Backup.

    A página Backup é aberta e mostra os backups programados. Observe que os backups são realmente armazenados no bucket do Cloud Storage que você forneceu na configuração do backup programado.

CLI da gcloud

  1. Execute o seguinte comando gsutil ls:

    gsutil ls gs://BUCKET_NAME/SERVICE/LOCATION
    

    Substitua:

    • BUCKET_NAME: o caminho para o Cloud Storage. que armazena o backup programado que você quer visualizar.
    • SERVICE: o ID ou identificador totalmente qualificado para o backup programado.
    • LOCATION: a região do Google Cloud em que serviço do Dataproc Metastore.

REST

Siga as instruções da API para ver um backup programado. usando a ferramenta APIs Explorer.

Resolver problemas comuns

A seguir