Guia de início rápido: migrar o metastore MySQL autogerenciado para o Dataproc metastore

Migrar o metastore MySQL autogerenciado para o Metastore do Dataproc

Nesta página, mostramos como migrar seu metastore MySQL autogerenciado externo para o metastore do Dataproc. Para isso, crie um arquivo dump MySQL e importe os metadados para um serviço existente do metastore do Dataproc.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.

  4. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  5. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.

  6. Ative a API Dataproc Metastore.

    Ative a API

Controle de acesso

  • Se estiver usando o VPC Service Controls, só será possível importar dados de um bucket do Cloud Storage que esteja no mesmo perímetro de serviço que o serviço do metastore do Dataproc.

  • Para criar um serviço, é preciso solicitar um papel do IAM que contenha a permissão metastore.services.create do IAM. Para importar metadados, é preciso solicitar um papel do IAM que contenha a permissão do IAM metastore.imports.create. Os papéis específicos roles/metastore.admin e roles/metastore.editor do metastore do Dataproc incluem permissões de criação e importação.

  • É possível conceder permissões de criação e importação a usuários ou grupos usando os papéis legados roles/owner e roles/editor.

  • O agente de serviço do metastore do Dataproc (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-metastore.iam.gserviceaccount.com) e o usuário que importa os metadados precisam ter a permissão storage.objects.get no objeto do Cloud Storage (arquivo dump SQL) usado para a importação.

Para receber e definir políticas do IAM, use o seguinte:

Para mais informações, consulte IAM do metastore do Dataproc e controle de acesso.

Criar um serviço do metastore do Dataproc

Nas instruções a seguir, demonstramos como criar um serviço do metastore do Dataproc que você pode migrar para:

Console

  1. No Console do Cloud, abra a página Criar serviço:

    Abra a página de criação de serviço no Console do Cloud

    Página "Criar serviço"
  2. No campo Nome do serviço, digite example-service.

  3. Selecione o Local dos dados. Para informações sobre como selecionar uma região, consulte Locais do Cloud.

  4. Para outras opções de configuração de serviço, use os padrões fornecidos.

  5. Para criar e iniciar o serviço, clique no botão Enviar.

O novo serviço aparecerá na lista de serviços.

gcloud

Execute o seguinte comando gcloud metastore services create para criar um serviço:

 gcloud metastore services create example-service \
     --location=LOCATION
 

Substitua LOCATION pela região do Compute Engine em que você planeja criar o serviço. Verifique se o Metastore do Dataproc está disponível na região.

REST

Siga as instruções da API para criar um serviço usando a API Explorer.

Preparar para a migração

Agora é preciso preparar os metadados armazenados no banco de dados do metastore do Hive para importação. Para isso, crie um arquivo dump MySQL e coloque-o em um bucket do Cloud Storage.

Consulte Preparar a importação para ver as etapas de preparação para a migração.

Importar os metadados

Agora que você preparou o arquivo dump, importe-o para o serviço Metastore do Dataproc.

Consulte Realizar a importação para ver as etapas de importação de metadados para seu serviço example-service.

Criar e anexar um cluster do Dataproc

Depois de importar os metadados para o serviço example-service do metastore do Dataproc, crie e anexe um cluster do Dataproc que use o serviço como o metastore Hive.

Limpeza

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas:

  1. No console, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Se o projeto que você planeja excluir estiver anexado a uma organização, expanda a lista Organização na coluna Nome.
  3. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  4. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Como alternativa, exclua os recursos usados neste tutorial:

  1. Exclua o serviço do metastore do Dataproc.

    Console

    1. No Console do Cloud, abra a página Metastore do Dataproc:

      Abra o metastore do Dataproc no Console do Cloud

    2. esquerda do nome do serviço, selecione example-service marcando a caixa.

    3. Para remover o serviço, na parte superior da página Metastore do Dataproc, clique em Excluir.

    4. Na caixa de diálogo, clique em Excluir de novo para confirmar a exclusão.

    Seu serviço não aparece mais na lista de serviços.

    gcloud

    Execute o seguinte comando gcloud metastore services delete para excluir um serviço:

     gcloud metastore services delete example-service \
         --location=LOCATION
     

    Substitua LOCATION pela região do Compute Engine em que você criou o serviço.

    REST

    Siga as instruções da API para excluir um serviço usando o API Explorer.

    Todas as exclusões são bem-sucedidas imediatamente.

  2. Exclua o bucket do Cloud Storage do serviço Metastore do Dataproc.

Próximas etapas