Guia de início rápido sobre como implantar o metastore do Dataproc

Esta página mostra como criar um serviço Metastore do Dataproc no Console do Google Cloud e criar um cluster do Dataproc que usa o serviço como o metastore do Hive.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  4. Ative a API Dataproc Metastore.

    Ative a API

Controle de acesso

  • Para criar um serviço, você precisa receber um papel do IAM que contenha a permissão do IAM metastore.services.create. Os papéis específicos do Metastore do Dataproc roles/metastore.admin e roles/metastore.editor podem ser usados para conceder permissão de criação.

  • Também é possível conceder permissão de criação a usuários ou grupos usando os papéis legados roles/owner e roles/editor.

Para mais informações, consulte IAM e Dataproc de controle de acesso.

Como criar um serviço do metastore do Dataproc

As instruções a seguir demonstram como criar um serviço Metastore do Dataproc usando o Console do Google Cloud, a ferramenta gcloud ou a API do metastore do Dataproc.

Console

  1. No Console do Cloud, abra a página Criar serviço:

    Abra a página "Criar serviço" no Console do Cloud

    Criar página de serviço
  2. No campo Nome da conta de serviço, insira example-service.

  3. Selecione o Local dos dados. Para informações sobre como selecionar uma região, consulte Regiões disponíveis.

  4. Para outras opções de configuração do ambiente, use os padrões fornecidos.

  5. Para criar e iniciar o serviço, clique no botão Enviar.

Seu novo serviço aparecerá na lista Service.

gcloud

Use o seguinte comando gcloud metastore services create para criar um serviço:

 gcloud metastore services create example-service \
     --location=LOCATION
 

Substitua LOCATION pela região do Compute Engine em que o serviço será criado. Verifique se o local especificado é aquele em que o Dataproc do Dataproc está disponível.

REST

Siga as instruções da API para criar um serviço usando o APIs Explorer.

Como criar um cluster do Dataproc que usa o serviço

Depois de criar um serviço, é possível criar e anexar um cluster do Dataproc que usa o serviço como o metastore do Hive.

A imagem do Dataproc e a versão do metastore do Dataproc precisam ser compatíveis:

  • As imagens do Dataproc 2.x exigem serviços do metastore do Dataproc criados com o Hive 3.1.2.

  • As imagens do Dataproc 1.x exigem os serviços meta do Dataproc criados com o Hive 2.3.6 ou 3.1.2, mas têm um desempenho ideal com o 2.3.6.

Para mais informações sobre as versões de imagem do Dataproc e para descobrir qual versão do Hive é usada por uma imagem do Dataproc, consulte Controle de versão do Dataproc.

Console

  1. No Console do Cloud, abra a página Criar um cluster do Dataproc:

    Abra a página "Criar um cluster" no Console do Cloud

  2. No campo Nome do cluster, insira example-cluster.

  3. Nos menus Região e Zona, selecione a região e a zona do cluster. É possível selecionar uma região distinta para isolar os recursos de armazenamento de recursos e metadados na região especificada. Se você selecionar uma região distinta, poderá selecionar "Sem preferência" para a zona a fim de permitir que o Dataproc escolha uma zona dentro da região selecionada para o cluster (consulte Colocação em zona automática do Dataproc).

  4. Use os padrões fornecidos para todas as demais opções.

  5. Clique na guia Personalizar cluster.

  6. Na seção Configuração de rede, selecione a mesma rede especificada durante a criação do serviço do metastore.

  7. Na seção Metastore do Dataproc, selecione example-service.

  8. Clique em Criar para criar o cluster.

Ele será exibido na lista de clusters. O status do cluster é listado como "Em aprovisionamento" até que ele esteja pronto para uso, quando então o status passa a ser "Em execução".

gcloud

Use o seguinte comando gcloud dataproc clusters create para criar um cluster:

 gcloud dataproc clusters create example-cluster \
    --dataproc-metastore=projects/PROJECT_ID/locations/LOCATION/services/example-service \
    --region=LOCATION
 

Substitua PROJECT_ID pelo ID do projeto em que você criou o serviço Metastore do Dataproc.

Substitua LOCATION pela mesma região especificada acima para o serviço Metastore do Dataproc.

REST

Siga as instruções da API para criar um cluster usando o APIs Explorer.

Limpeza

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste guia de início rápido, siga estas etapas:

  1. No Console do Cloud, acesse a página Gerenciar recursos:

    Acessar "Gerenciar recursos"

  2. Se o projeto que você planeja excluir estiver anexado a uma organização, expanda a lista Organização na coluna Nome.
  3. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  4. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Como alternativa, é possível excluir os recursos usados neste tutorial:

  1. Exclua o serviço Metastore do Dataproc.

    Console

    1. No Console do Cloud, abra a página do metastore do Dataproc:

      Abra o metastore do Dataproc no Console do Cloud

    2. left esquerda do nome do serviço, selecione example-service para marcar a caixa.

    3. Na parte superior da página Metastore do Dataproc, clique em Excluir para excluir o serviço.

    4. Na caixa de diálogo, clique em Excluir para confirmar a remoção.

    Seu serviço não aparece mais na lista de serviços.

    gcloud

    Use o seguinte comando gcloud metastore services delete para excluir um serviço:

     gcloud metastore services delete example-service \
         --location=LOCATION
     

    Substitua LOCATION pela região do Compute Engine em que o serviço foi criado.

    REST

    Siga as instruções da API para excluir um serviço usando o APIs Explorer.

    Todas as exclusões foram feitas imediatamente.

  2. Exclua o bucket do Cloud Storage para o serviço Metastore do Dataproc.

  3. Exclua o cluster do Dataproc que usou o serviço Metastore do Dataproc.

A seguir