Guia de início rápido de migração para o metastore do Dataproc

A preparação de um metastore autogerenciado pode ser simplificada usando o metastore do Dataproc. Veja nesta página como migrar seu metastore externo do MySQL para o metastore do Dataproc. Isso é feito por meio da criação de um arquivo dump MySQL e da importação dos metadados para um serviço metastore do Dataproc.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  4. Ative a API Dataproc Metastore.

    Ative a API

Controle de acesso

  • Para criar um serviço, você precisa receber um papel do IAM que contenha a permissão do IAM metastore.services.create. Para importar metadados, você precisa receber um papel do IAM que contenha a permissão do IAM metastore.imports.create. Os papéis específicos do Metastore do Dataproc roles/metastore.admin e roles/metastore.editor podem ser usados para conceder permissões de criação e importação.

  • Também é possível conceder permissões de criação e importação a usuários ou grupos usando os papéis legados roles/owner e roles/editor.

  • O agente de serviço do metastore do Dataproc (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-metastore.iam.gserviceaccount.com) e o usuário que importa os metadados precisam ter a permissão storage.objects.get no objeto do Cloud Storage (arquivo dump SQL) usado para a importação

  • Se você estiver usando o VPC Service Controls, só poderá importar dados de um bucket do Cloud Storage que esteja no mesmo perímetro de serviço que o serviço Metastore do Dataproc.

Para mais informações, consulte IAM e Dataproc de controle de acesso.

Como criar um serviço do metastore do Dataproc

Antes de iniciar a migração, você precisa ter um serviço metastore do Dataproc para migração.

As instruções a seguir demonstram como criar um serviço Metastore do Dataproc usando o Console do Google Cloud, a ferramenta gcloud ou a API do metastore do Dataproc.

Console

  1. No Console do Cloud, abra a página Criar serviço:

    Abra a página "Criar serviço" no Console do Cloud

    Criar página de serviço
  2. No campo Nome da conta de serviço, insira example-service.

  3. Selecione o Local dos dados. Para informações sobre como selecionar uma região, consulte Regiões disponíveis.

  4. Para outras opções de configuração do ambiente, use os padrões fornecidos.

  5. Para criar e iniciar o serviço, clique no botão Enviar.

Seu novo serviço aparecerá na lista Service.

gcloud

Use o seguinte comando gcloud metastore services create para criar um serviço:

 gcloud metastore services create example-service \
     --location=LOCATION
 

Substitua LOCATION pela região do Compute Engine em que o serviço será criado. Verifique se o local especificado é aquele em que o Dataproc do Dataproc está disponível.

REST

Siga as instruções da API para criar um serviço usando o APIs Explorer.

Como se preparar para a migração

Agora você precisa preparar os metadados armazenados no banco de dados do metastore do Hive para importação. Para fazer isso, crie um arquivo dump MySQL e coloque-o em um bucket do Cloud Storage.

Veja as etapas para se preparar para a migração em Como preparar a importação.

Como importar os metadados

Agora que você preparou o despejo, importe-o para o serviço metastore do Dataproc usando o Console do Google Cloud, a ferramenta gcloud ou a API metastore do Dataproc.

Consulte Como realizar a importação para ver as etapas de importação de metadados para example-service.

Depois de importar os metadados para o metastore do Dataproc

Depois de importar os metadados para o serviço example-service metastore do Dataproc, você pode criar e anexar um cluster do Dataproc que use o serviço como metastore do Hive.

Limpeza

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste guia de início rápido, siga estas etapas:

  1. No Console do Cloud, acesse a página Gerenciar recursos:

    Acessar "Gerenciar recursos"

  2. Se o projeto que você planeja excluir estiver anexado a uma organização, expanda a lista Organização na coluna Nome.
  3. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  4. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Como alternativa, é possível excluir os recursos usados neste tutorial:

  1. Exclua o serviço Metastore do Dataproc.

    Console

    1. No Console do Cloud, abra a página do metastore do Dataproc:

      Abra o metastore do Dataproc no Console do Cloud

    2. left esquerda do nome do serviço, selecione example-service para marcar a caixa.

    3. Na parte superior da página Metastore do Dataproc, clique em Excluir para excluir o serviço.

    4. Na caixa de diálogo, clique em Excluir para confirmar a remoção.

    Seu serviço não aparece mais na lista de serviços.

    gcloud

    Use o seguinte comando gcloud metastore services delete para excluir um serviço:

     gcloud metastore services delete example-service \
         --location=LOCATION
     

    Substitua LOCATION pela região do Compute Engine em que o serviço foi criado.

    REST

    Siga as instruções da API para excluir um serviço usando o APIs Explorer.

    Todas as exclusões foram feitas imediatamente.

  2. Exclua o bucket do Cloud Storage para o serviço Metastore do Dataproc.

A seguir