Guia de início rápido sobre como migrar para o metastore do Dataproc

Para preparar um metastore autogerenciado, basta usar o metastore do Dataproc.

Nesta página, você aprenderá como migrar seu metastore MySQL autogerenciado externo para o metastore do Dataproc. Para isso, crie um arquivo dump MySQL e importe os metadados para um serviço existente do metastore do Dataproc.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  4. Ative a API Dataproc Metastore.

    Ative a API

Controle de acesso

  • Para criar um serviço, você precisa receber um papel do IAM que contenha a permissão do IAM metastore.services.create. Para importar metadados, você precisa receber um papel do IAM que contenha a permissão do IAM metastore.imports.create. Os papéis específicos roles/metastore.admin e roles/metastore.editor do metastore do Dataproc incluem permissões de criação e importação.

  • É possível conceder permissões de criação e importação para usuários ou grupos usando os papéis legados roles/owner e roles/editor.

  • O agente de serviço do metastore do Dataproc (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-metastore.iam.gserviceaccount.com) e o usuário que importa os metadados precisam ter a permissão storage.objects.get no objeto do Cloud Storage (arquivo dump SQL) usado para a importação.

  • Se você estiver usando o VPC Service Controls, só poderá importar dados de um bucket do Cloud Storage que esteja no mesmo perímetro de serviço que o serviço Metastore do Dataproc.

Para mais informações, consulte IAM e Dataproc de controle de acesso.

Criar um serviço do metastore do Dataproc

Nas instruções a seguir, demonstramos como criar um serviço do metastore do Dataproc que você pode migrar para:

Console

  1. No Console do Cloud, abra a página Criar serviço:

    Abra a página "Criar serviço" no Console do Cloud

    Criar página de serviço
  2. No campo Nome da conta de serviço, insira example-service.

  3. Selecione o Local dos dados. Para informações sobre como selecionar uma região, consulte Regiões disponíveis.

  4. Para outras opções de configuração do ambiente, use os padrões fornecidos.

  5. Para criar e iniciar o serviço, clique no botão Enviar.

Seu novo serviço aparecerá na lista Service.

gcloud

Execute o seguinte comando gcloud metastore services create para criar um serviço:

 gcloud metastore services create example-service \
     --location=LOCATION
 

Substitua LOCATION pela região do Compute Engine em que você planeja criar o serviço. Verifique se o Metastore do Dataproc está disponível na região.

REST

Siga as instruções da API para criar um serviço usando o APIs Explorer.

Preparar para a migração

Prepare os metadados armazenados no banco de dados do metastore do Hive para importação. Para isso, crie um arquivo dump MySQL e coloque-o em um bucket do Cloud Storage.

Consulte Como preparar a importação para ver as etapas de preparação para a migração.

Como importar os metadados

Agora que você preparou o arquivo dump, importe-o para o serviço Metastore do Dataproc.

Consulte Como realizar a importação para ver as etapas de importação de metadados para seu serviço example-service.

Depois de importar seus metadados para o metastore do Dataproc

Depois de importar os metadados para o serviço example-service do metastore do Dataproc, crie e anexe um cluster do Dataproc que use o serviço como o metastore Hive.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.

  1. No Console do Cloud, acesse a página Gerenciar recursos:

    Acessar "Gerenciar recursos"

  2. Se o projeto que você planeja excluir estiver anexado a uma organização, expanda a lista Organização na coluna Nome.
  3. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  4. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Como alternativa, é possível excluir os recursos usados neste tutorial:

  1. Exclua o serviço Metastore do Dataproc.

    Console

    1. No Console do Cloud, abra a página do metastore do Dataproc:

      Abra o metastore do Dataproc no Console do Cloud

    2. left esquerda do nome do serviço, selecione example-service marcando a caixa.

    3. Na parte superior da página do Metastore do Dataproc, clique em Excluir para excluir o serviço.

    4. Na caixa de diálogo, clique em Excluir para confirmar a remoção.

    Seu serviço não aparece mais na lista de serviços.

    gcloud

    Execute o seguinte comando gcloud metastore services delete para excluir um serviço:

     gcloud metastore services delete example-service \
         --location=LOCATION
     

    Substitua LOCATION pela região do Compute Engine em que você criou o serviço.

    REST

    Siga as instruções da API para excluir um serviço usando o APIs Explorer.

    Todas as exclusões foram feitas imediatamente.

  2. Exclua o bucket do Cloud Storage para o serviço Metastore do Dataproc.

A seguir