Como o Kerberos funciona com o metastore do Dataproc

Nesta página, descrevemos como o metastore do Dataproc oferece suporte ao protocolo Kerberos.

O Kerberos é um protocolo de autenticação de rede projetado para fornecer autenticação forte para aplicativos de cliente e servidor usando criptografia de chave secreta. Ele é comumente usado entre a pilha do Hadoop para autenticação em todo o ecossistema de software.

É possível configurar o Kerberos nos seguintes serviços do Metastore do Dataproc:

O processo de configuração do Kerberos é diferente para cada tipo de serviço.

Recursos Kerberos obrigatórios

A seção a seguir apresenta informações gerais sobre os recursos do Kerberos necessários para configurar o Kerberos para um serviço Metastore do Dataproc.

KDC Kerberos

Um KDC do Kerberos é obrigatório. É possível usar o KDC local de um cluster do Dataproc ou criar e hospedar seu próprio cluster.

Principal do Kerberos

Ao configurar o Kerberos para um serviço Metastore do Dataproc, você gera o arquivo principal usando um cluster do Dataproc.

Arquivo Keytab

Um arquivo keytab contém pares de principais e chaves criptografadas do Kerberos, que são usados para autenticar um principal de serviço com um KDC do Kerberos.

Ao configurar o Kerberos para um serviço Metastore do Dataproc, você gera o arquivo keytab usando um cluster do Dataproc.

  • O arquivo keytab gerado contém o nome e o local do principal de serviço do metastore do Hive.

  • O arquivo keytab gerado é armazenado automaticamente em um Secret Manager do Google Cloud.

    O secret do Secret Manager fornecido precisa ser fixado a uma versão específica do secret. Se for necessário especificar a versão do secret que você quer usar, o metastore do Dataproc não escolhe a versão mais recente automaticamente.

Arquivo krb5.conf

Um arquivo krb5.conf válido contém informações de configuração do Kerberos, como o IP, a porta e o nome do realm do KDC.

Ao configurar o Kerberos para um serviço Metastore do Dataproc, você gera o arquivo keytab usando um cluster do Dataproc.

  • Ao configurar o arquivo krb5.conf, especifique o IP KDC que pode ser acessado pela rede com peering. Não especifique o FQDN do KDC.
  • Se você estiver usando o endpoint do Thrift, precisará armazenar o arquivo em um bucket do Cloud Storage. É possível usar um bucket atual ou criar um novo.

A seguir