En esta página, se explica cómo configurar Kerberos para el servicio de Dataproc Metastore que usa el protocolo de extremo de Thrift. Si tu servicio de Dataproc Metastore usa el protocolo de extremo de gRPC, consulta Configura Kerberos para los extremos de gRPC.
Antes de comenzar
Comprende los conceptos básicos de Kerberos.
En estas instrucciones, se usa un clúster de Dataproc para crear los siguientes recursos de Kerberos:
- Un archivo Keytab
- Un archivo
krb5.conf
- Una principal de Kerberos.
Para obtener más información sobre cómo funcionan estos elementos de Kerberos con un servicio de Dataproc Metastore, consulta Acerca de Kerberos.
Crea y aloja tu propio KDC de Kerberos o aprende a usar el KDC local de un clúster de Dataproc.
Crea un bucket de Cloud Storage o accede a uno existente. Debes almacenar el archivo
krb5.conf
en este bucket.
Consideraciones de red
Antes de configurar Kerberos, considera la siguiente configuración de red:
Configura una conexión IP entre tu red de VPC y KDC. Debes hacerlo para autenticar tu archivo de KDC con el servicio de Dataproc Metastore.
Configura las reglas de firewall en tu KDC necesarias. Estas reglas son necesarias para permitir el tráfico desde Dataproc Metastore. Si quieres obtener más información, consulta Reglas de firewall para tus servicios.
Si usas los Controles del servicio de VPC, el secreto de Secret Manager y el objeto
krb5.conf
de Cloud Storage deben pertenecer a un proyecto que se encuentre en el mismo perímetro de servicio que el servicio de Dataproc Metastore.Decide qué red de intercambio de tráfico de VPC quieres usar. Debes configurar el clúster de Dataproc y el servicio de Dataproc Metastore con la misma red de intercambio de tráfico de VPC.
Funciones requeridas
A fin de obtener el permiso necesario para crear un Dataproc Metastore con Kerberos, pídele a tu administrador que te otorgue los siguientes roles de IAM en tu proyecto, según el principio de privilegio mínimo:
-
Otorga control total de los recursos de Dataproc Metastore (
roles/metastore.editor
) -
Otorga acceso completo a todos los recursos de Dataproc Metastore, incluida la administración de políticas de IAM (
roles/metastore.admin
).
Si quieres obtener más información para otorgar funciones, consulta Administra el acceso.
Esta función predefinida contiene el permiso metastore.services.create
, que se requiere para crear un Dataproc Metastore con Kerberos.
Es posible que también puedas obtener este permiso con funciones personalizadas o con otras funciones predefinidas.
Para obtener más información sobre las funciones y los permisos específicos de Dataproc Metastore, consulta Administra el acceso con la IAM.Para obtener más información, consulta la IAM y el control de acceso de Dataproc Metastore.
Habilitar Kerberos para Dataproc Metastore
En las siguientes instrucciones, se muestra cómo configurar Kerberos para un servicio de Dataproc Metastore que esté conectado a un clúster de Dataproc.
Crea un clúster de Dataproc y habilita Kerberos
gcloud
Para configurar un clúster de Dataproc con Kerberos, ejecuta el siguiente comando gcloud dataproc clusters create
:
gcloud dataproc clusters create CLUSTER_NAME \ --image-version=2.0 \ --enable-kerberos \ --scopes 'https://www.googleapis.com/auth/cloud-platform'
Reemplaza lo siguiente:
CLUSTER_NAME
: Es el nombre de tu clúster de Dataproc.
Configura el clúster de Dataproc para kerberos
En las siguientes instrucciones, se muestra cómo usar SSH para conectarte a un clúster principal de Dataproc asociado a tu servicio de Dataproc Metastore.
Luego, modifica el archivo hive-site.xml
y configura Kerberos para tu servicio.
- En la consola de Google Cloud, ve a la página Instancias de VM.
En la lista de instancias de máquina virtual, haz clic en SSH en la fila del nodo principal de Dataproc (
your-cluster-name-m
).Se abrirá una ventana del navegador en tu directorio principal del nodo.
Abre el archivo
/etc/hive/conf/hive-site.xml
.sudo vim /etc/hive/conf/hive-site.xml
Verás un resultado similar al siguiente:
<property> <name>hive.metastore.kerberos.principal</name> <value>PRINCIPAL_NAME</value> </property> <property> <name>hive.metastore.kerberos.keytab.file</name> <value>METASTORE_PRINCPAL_KEYTAB</value> </property>
Reemplaza lo siguiente:
PRINCIPAL_NAME
: Un nombre principal, en el siguiente formatoprimary/instance@REALM
. Por ejemplo,hive/test@C.MY-PROJECT.INTERNAL
.METASTORE_PRINCIPAL_KEYTAB
: Es la ubicación del archivo keytab de Hive Metastore. Usa el siguiente valor/etc/security/keytab/metastore.service.keytab
.
Cómo crear un archivo keytab
Las siguientes instrucciones te muestran cómo crear un archivo keytab.
Un archivo keytab contiene un par de principales de Kerberos y un par de claves encriptadas. Esto se utiliza para autenticar un principal de servicio con un KDC de Kerberos.
Para crear un archivo keytab
En la sesión SSH de Dataproc, crea el keytab y la principal.
sudo kadmin.local -q "addprinc -randkey PRINCIPAL_NAME" sudo kadmin.local -q "ktadd -k /etc/security/keytab/metastore.service.keytab PRINCIPAL_NAME"
En la sesión SSH de Dataproc, crea y sube el archivo keytab a Secret Manager.
gcloud secrets create SECRET_NAME --replication-policy automatic sudo gcloud secrets versions add SECRET_NAME --data-file /etc/security/keytab/metastore.service.keytab
Reemplaza lo siguiente:
SECRET_NAME
: Es el nombre del secreto.
Cómo actualizar el archivo krb5.conf
A continuación, debes actualizar el archivo krb5.conf
para asociarlo con tu clúster de Dataproc.
Determina la dirección IP interna principal de la instancia principal del clúster de Dataproc.
gcloud compute instances list
Por ejemplo, si ejecutas este comando, se produce un resultado similar al siguiente:
~$ gcloud compute instances list --project kerberos-project NAME ZONE MACHINE_TYPE PREEMPTIBLE INTERNAL_IP EXTERNAL_IP STATUS cluster-236-m us-central1-c n2-standard-4 192.0.2.2 *.*.*.* RUNNING ...
En este caso, la dirección IP interna del clúster es
192.0.2.2
.Abre el archivo
krb5.conf
.sudo vim /etc/krb5.conf
En el archivo, reemplaza el parámetro existente
KDC
y el parámetroadmin_server
por la dirección IP interna de tu clúster de Dataproc.Por ejemplo, el uso del valor de la dirección IP de los pasos anteriores es similar al siguiente resultado.
[realms] US-CENTRAL1-A.C.MY-PROJECT.INTERNAL = { kdc = 192.0.2.2 admin_server = 192.0.2.2 }
Sube el archivo
/etc/krb5.conf
de tu VM principal de Dataproc a tu bucket de Cloud Storage.gsutil cp /etc/krb5.conf gs://PATH_TO_KRB5
Reemplaza lo siguiente:
PATH_TO_KRB5
: El URI de Cloud Storage que contiene tu archivokrb5.conf
.
Después de que termine la carga, copia su ruta de acceso. Debes usarlo cuando crees tu servicio de Dataproc Metastore.
Otorga roles y permisos de IAM
Proporciona permiso a la cuenta de servicio de Dataproc Metastore para acceder al archivo keytab. Esta cuenta está administrada por Google y aparece en la página de IU de permisos de IAM con la opción Incluir asignaciones de roles proporcionadas por Google.
gcloud projects add-iam-policy-binding PROJECT_ID \ --member serviceAccount:service-PROJECT_NUMBER@gcp-sa-metastore.iam.gserviceaccount.com \ --role roles/secretmanager.secretAccessor
Proporciona a la cuenta de servicio de Dataproc Metastore permiso para acceder al archivo
krb5.conf
.gcloud projects add-iam-policy-binding PROJECT_ID \ --member serviceAccount:service-PROJECT_NUMBER@gcp-sa-metastore.iam.gserviceaccount.com \ --role roles/storage.objectViewer
Crea un servicio de Dataproc Metastore con Kerberos
Crea un servicio nuevo de Dataproc Metastore que esté configurado con tus archivos de Kerberos.
Asegúrate de crear tu servicio en la red de VPC como tu clúster de Dataproc.
gcloud metastore services create SERVICE \ --location=LOCATION \ --instance-size=medium \ --network=VPC_NETWORK \ --kerberos-principal=KERBEROS_PRINCIPAL \ --krb5-config=KRB5_CONFIG \ --keytab=CLOUD_SECRET
Reemplaza lo siguiente:
SERVICE
: Es el nombre de tu servicio de Dataproc Metastore.LOCATION
: Es la ubicación del servicio de Dataproc Metastore.VPC_NETWORK
:Es el nombre de tu red de VPC. Usa la misma red que está configurada en tu clúster de Dataproc.KERBEROS_PRINCIPAL
: Es el nombre del principal de kerberos que creaste antes.KRB5_CONFIG
: Es la ubicación del archivokrb5.config
. Usa el URI del objeto de Cloud Storage que apunta a tu archivo.CLOUD_SECRET
: Es el nombre del recurso relativo de una versión de secreto de Secret Manager.
Después de crear el clúster, Dataproc Metastore intentará conectarse con tus credenciales de kernel mediante el principal, keytab y krb5.conf
proporcionados. Si la conexión falla, la creación de Dataproc Metastore también falla.
Vincula el clúster de Dataproc a Dataproc Metastore
Después de crear el servicio de Dataproc Metastore, busca el URI del extremo de Thrift y el directorio de almacén.
Establece una conexión SSH a la instancia principal de tu clúster de Dataproc.
En la sesión de SSH, abre el archivo
/etc/hive/conf/hive-site.xml
.sudo vim /etc/hive/conf/hive-site.xml
Modifica
/etc/hive/conf/hive-site.xml
en el clúster de Dataproc.<property> <name>hive.metastore.uris</name> <!-- Update this value. --> <value>ENDPOINT_URI</value> </property> <!-- Add this property entry. --> <property> <name>hive.metastore.warehouse.dir</name> <value>WAREHOUSE_DIR</value> </property>
Reinicia HiveServer2:
sudo systemctl restart hive-server2.service
Configura Dataproc antes de enviar trabajos
Para ejecutar tus trabajos de Dataproc, debes agregar el usuario hive
a la propiedad allowed.system.users
en el archivo container-executor.cfg
de Hadoop. Esto permite a los usuarios ejecutar consultas para acceder a datos, como select * from
.
En la sesión SSH, abre el archivo
container-executor.cfg
de Hadoop.sudo vim /etc/hadoop/conf/container-executor.cfg
Agrega la siguiente línea en cada nodo de Dataproc.
allowed.system.users=hive
Obtén un boleto para kerberos
Obtén el ticket de kerberos antes de conectarte a la instancia de Dataproc Metastore.
sudo klist -kte /etc/security/keytab/metastore.service.keytab sudo kinit -kt /etc/security/keytab/metastore.service.keytab PRINCIPAL_NAME sudo klist # gets the ticket information. sudo hive
Reemplaza lo siguiente:
PRINCIPAL_NAME
: Es el nombre de la principal.