Guia de início rápido sobre como implantar o metastore do Dataproc

Nesta página, mostramos como criar um serviço do metastore do Dataproc e um cluster do Dataproc que usa o serviço como o metastore Hive.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  4. Ative a API Dataproc Metastore.

    Ative a API

Controle de acesso

  • Para criar um serviço, você precisa receber um papel do IAM que contenha a permissão do IAM metastore.services.create. Os papéis específicos roles/metastore.admin e roles/metastore.editor do metastore do Dataproc incluem permissão de criação.

  • É possível conceder permissão de criação a usuários ou grupos usando os papéis legados roles/owner e roles/editor.

Para mais informações, consulte IAM e Dataproc de controle de acesso.

Como criar um serviço do metastore do Dataproc

As instruções a seguir demonstram como criar um serviço Metastore do Dataproc usando o Console do Google Cloud, a ferramenta gcloud ou a API do metastore do Dataproc.

Console

  1. No Console do Cloud, abra a página Criar serviço:

    Abra a página "Criar serviço" no Console do Cloud

    Criar página de serviço
  2. No campo Nome da conta de serviço, insira example-service.

  3. Selecione o Local dos dados. Para informações sobre como selecionar uma região, consulte Regiões disponíveis.

  4. Para outras opções de configuração do ambiente, use os padrões fornecidos.

  5. Para criar e iniciar o serviço, clique no botão Enviar.

Seu novo serviço aparecerá na lista Service.

gcloud

Execute o seguinte comando gcloud metastore services create para criar um serviço:

 gcloud metastore services create example-service \
     --location=LOCATION
 

Substitua LOCATION pela região do Compute Engine em que o serviço será criado. Verifique se o Metastore do Dataproc está disponível no local.

REST

Siga as instruções da API para criar um serviço usando o APIs Explorer.

Como criar um cluster do Dataproc que usa o serviço

Depois de criar um serviço, é possível criar e anexar um cluster do Dataproc que usa o serviço como o metastore do Hive.

A imagem do Dataproc e a versão do Hivestore do metastore precisam ser compatíveis. Verifique as seguintes páginas de controle de versão de imagem para garantir que a versão do Hive seja compatível:

Para mais informações, consulte a Lista de versões de imagem do Dataproc.

Console

  1. No Console do Cloud, abra a página Criar um cluster do Dataproc:

    Abra a página "Criar um cluster" no Console do Cloud

  2. No campo Nome do cluster, insira example-cluster.

  3. Nos menus Região e Zona, selecione uma região e uma zona para o cluster. É possível selecionar uma região distinta, para isolar recursos e locais de armazenamento de metadados na região especificada. Se você selecionar uma região distinta, poderá selecionar "Sem preferência" para a zona. Assim, o Dataproc escolherá uma zona dentro da região selecionada para o cluster (consulteColocação em zona automática do Dataproc .

  4. Use os padrões fornecidos para todas as demais opções.

  5. Clique na guia Personalizar cluster.

  6. Na seção Configuração de rede, selecione a mesma rede especificada durante a criação do serviço metastore.

  7. Na seção Metastore do Dataproc, selecione example-service.

  8. Clique em Criar para criar o cluster.

O novo cluster aparecerá na lista de clusters. O status é listado como "Provisioning" até que o cluster esteja pronto para uso. Seu status muda para "Em execução".

gcloud

Execute o seguinte comando gcloud dataproc clusters create para criar um cluster:

 gcloud dataproc clusters create example-cluster \
    --dataproc-metastore=projects/PROJECT_ID/locations/LOCATION/services/example-service \
    --region=LOCATION
 

Substitua PROJECT_ID pelo ID do projeto em que você criou o serviço Metastore do Dataproc.

Substitua LOCATION pela região especificada para o serviço metastore do Dataproc.

REST

Siga as instruções da API para criar um cluster usando o APIs Explorer.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas:

  1. No Console do Cloud, acesse a página Gerenciar recursos:

    Acessar "Gerenciar recursos"

  2. Se o projeto que você planeja excluir estiver anexado a uma organização, expanda a lista Organização na coluna Nome.
  3. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  4. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

Como alternativa, é possível excluir os recursos usados neste tutorial:

  1. Exclua o serviço Metastore do Dataproc.

    Console

    1. No Console do Cloud, abra a página do metastore do Dataproc:

      Abra o metastore do Dataproc no Console do Cloud

    2. left esquerda do nome do serviço, selecione example-service marcando a caixa.

    3. Na parte superior da página do Metastore do Dataproc, clique em Excluir para excluir o serviço.

    4. Na caixa de diálogo, clique em Excluir para confirmar a remoção.

    Seu serviço não aparece mais na lista de serviços.

    gcloud

    Use o seguinte comando gcloud metastore services delete para excluir um serviço:

     gcloud metastore services delete example-service \
         --location=LOCATION
     

    Substitua LOCATION pela região do Compute Engine em que o serviço foi criado.

    REST

    Siga as instruções da API para excluir um serviço usando o APIs Explorer.

    Todas as exclusões foram feitas imediatamente.

  2. Exclua o bucket do Cloud Storage para o serviço Metastore do Dataproc.

  3. Exclua o cluster do Dataproc que usou o serviço Metastore do Dataproc.

A seguir