Esta página foi traduzida pela API Cloud Translation.

Configurar o Kerberos para endpoints gRPC do metastore do Dataproc

Nesta página, explicamos como configurar o Kerberos para seu serviço do metastore do Dataproc que usa o protocolo de endpoint gRPC. Se o serviço Metastore do Dataproc usar o protocolo de endpoint Thrift, consulte Configurar o Kerberos para endpoints Thrift.

Antes de começar

Entenda os conceitos básicos do Kerberos.

Nestas instruções, você usa um cluster do Dataproc para criar os seguintes recursos do Kerberos:
- Um arquivo keytab.
- Um arquivo krb5.conf
- Um principal do Kerberos.
Para mais informações sobre como esses recursos do Kerberos funcionam com um serviço da metastore do Dataproc, consulte Sobre o Kerberos.
Crie e hospede sua própria KDC do Kerberos ou saiba como usar a KDC local de um cluster do Dataproc.
Crie ou acesse um bucket do Cloud Storage. Você precisa armazenar o arquivo krb5.conf nesse bucket.

Papéis necessários

Para receber a permissão necessária para criar um metastore do Dataproc configurado com Kerberos, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto, com base no princípio de privilégio mínimo:

Conceder controle total dos recursos do metastore do Dataproc (roles/metastore.editor)
Conceder acesso total a todos os recursos do metastore do Dataproc, incluindo a administração de políticas do IAM (roles/metastore.admin)
Conceder acesso de leitura e gravação do gRPC aos metadados do metastore do Dataproc (roles/metastore.metadataEditor)

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Esse papel predefinido contém a permissão metastore.services.create, que é necessária para criar um metastore do Dataproc configurado com Kerberos .

Também é possível conseguir essa permissão com papéis personalizados ou outros papéis predefinidos.

Para mais informações sobre papéis e permissões específicos do Dataproc Metastore, consulte Gerenciar acesso com o IAM.

Para mais informações, consulte IAM e Dataproc de controle de acesso.

Configurar o Kerberos para o metastore do Dataproc

As instruções a seguir mostram como configurar o Kerberos para um serviço metastore do Dataproc que usa o endpoint gRPC.

Primeiro, crie um metastore do Dataproc que use o endpoint gRPC. Depois, crie um cluster do Dataproc configurado com Kerberos e conecte-se a ele.

Criar um serviço do metastore do Dataproc com o endpoint gRPC

Para criar um metastore do Dataproc que use o endpoint gRPC, execute o seguinte comando gcloud metastore services create:

gcloud

gcloud metastore services create SERVICE \
     --instance-size=medium \
     --endpoint-protocol=grpc

Substitua:

SERVICE: o nome do seu serviço Dataproc Metastore

Criar um cluster do Dataproc e se conectar ao serviço

Para criar um Dataproc configurado com Kerberos, execute o seguinte comando gcloud dataproc clusters create.

Nesse comando, a opção --enable-kerberos cria o arquivo keytab do Kerberos, o arquivo krb5.conf e o principal. Todos esses valores são criados usando nomes e configurações padrão definidos pelo cluster do Dataproc.

gcloud

gcloud dataproc clusters create CLUSTER_NAME \
    --project PROJECT_ID \
    --region REGION \
    --image-version 2.0-debian10 \
    --dataproc-metastore DATAPROC_METASTORE_NAME \
    --enable-kerberos \
    --scopes 'https://www.googleapis.com/auth/cloud-platform'

Substitua:

CLUSTER_NAME: o nome do cluster do Dataproc.
PROJECT_ID pelo ID do projeto no Google Cloud.
REGION: a Google Cloud região em que você quer criar o cluster do Dataproc.
DATAPROC_METASTORE_NAME: o nome do serviço do Dataproc Metastore que você está anexando ao cluster, no seguinte formato: projects/<my_project>/locations/<location>/services/<service_id>.

Configurar o Dataproc antes de enviar jobs

Para executar seus jobs do Dataproc, adicione o usuário hive à propriedade allowed.system.users no arquivo container-executor.cfg do Hadoop. Isso permite que os usuários executem consultas para acessar dados, como select * from.

As instruções a seguir mostram como fazer login por SSH no cluster principal do Dataproc associado ao serviço Metastore do Dataproc e atualizar o arquivo container-executor.cfg.

No console do Google Cloud , acesse a página Instâncias de VM.
Na lista de instâncias de máquina virtual, clique em SSH na linha do nó principal do Dataproc (your-cluster-name-m).

Uma janela do navegador é aberta no diretório inicial do nó.
Na sessão SSH, abra o arquivo container-executor.cfg do Hadoop.
```
sudo vim /etc/hadoop/conf/container-executor.cfg
```
Adicione a seguinte linha a cada nó do Dataproc.
```
allowed.system.users=hive
```

Receber um tíquete do Kerberos

As instruções a seguir mostram como gerar um tíquete do Kerberos.

Na sessão SSH do cluster do Dataproc, gere um tíquete do Kerberos e conecte-se ao serviço Metastore do Dataproc.

Esse comando usa o nome padrão do keytab gerado pelo cluster do Dataproc.
```
sudo klist -kte /etc/security/keytab/hive.service.keytab
sudo kinit -kt /etc/security/keytab/hive.service.keytab hive/_HOST@${realm}
sudo klist # gets the ticket information.
```
O valor _HOST é recuperado quando o arquivo keytab é listado usando o comando klist -kte. Ele contém o nome de host do nó principal.

(Opcional) Adicionar um novo principal

Para adicionar um novo principal, execute o seguinte comando:

sudo kadmin.local -q "addprinc -randkey PRINCIPAL"
sudo kadmin.local -q "ktadd -k /etc/security/keytab/hive.service.keytab PRINCIPAL"

Receba o tíquete do Kerberos.

sudo klist -kte /etc/security/keytab/hive.service.keytab
sudo kinit -kt /etc/security/keytab/hive.service.keytab PRINCIPAL
sudo klist
sudo hive

Configurar o Kerberos para endpoints gRPC do metastore do Dataproc Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Antes de começar

Papéis necessários

Configurar o Kerberos para o metastore do Dataproc

Criar um serviço do metastore do Dataproc com o endpoint gRPC

gcloud

Criar um cluster do Dataproc e se conectar ao serviço

gcloud

Configurar o Dataproc antes de enviar jobs

Receber um tíquete do Kerberos

(Opcional) Adicionar um novo principal

A seguir

Configurar o Kerberos para endpoints gRPC do metastore do Dataproc