Componente Ranger de Dataproc

Puedes instalar componentes adicionales cuando creas un clúster de Dataproc con la función de componentes opcionales. En esta página, se describe el componente Ranger.

El componente de Apache Ranger es un framework de código abierto para administrar permisos y auditorías del ecosistema de Hadoop. El servidor de administración de Ranger y la IU web están disponibles en el puerto 6080 del primer nodo principal del clúster.

Instala el componente

Instala el componente cuando crees un clúster de Dataproc. Los componentes se pueden agregar a los clústeres creados con la versión 1.3 de Dataproc y las posteriores. El componente Ranger requiere la instalación del componente Solr como se muestra a continuación.

Consulta las versiones compatibles de Dataproc para la versión del componente incluida en cada versión de la imagen de Dataproc.

Pasos de instalación:

  1. Configura tu contraseña de administrador de Ranger:

    1. Otorga la función Encriptador/Desencriptador de CryptoKey de Cloud KMS a la cuenta de servicio del clúster (consulta Otorga funciones a una cuenta de servicio para recursos específicos). Esta cuenta tiene el formato siguiente:
      project-number-compute@developer.gserviceaccount.com
      
      1. Ejemplo:
        gcloud projects add-iam-policy-binding project-id \
            --member=serviceAccount:service-project-number-compute@developer.gserviceaccount.com \
            --role=roles/cloudkms.cryptoKeyDecrypter
        
    2. Encripta la contraseña de usuario administrador de Ranger con una clave de Servicio de administración de claves (KMS). La contraseña debe tener al menos 8 caracteres, con un mínimo de un carácter alfabético y un carácter numérico.
      1. Ejemplo:
        1. Crea el llavero de claves:
          gcloud kms keyrings create my-keyring --location=global
          
        2. Crea la clave:
          gcloud kms keys create my-key \
              --location=global \
              --keyring=my-keyring \
              --purpose=encryption
          
        3. Encripta tu contraseña del usuario administrador de Ranger:
          echo "my-ranger-admin-password" | \
            gcloud kms encrypt \
              --location=global \
              --keyring=my-keyring \
              --key=my-key \
              --plaintext-file=- \
              --ciphertext-file=admin-password.encrypted
          
    3. Sube la contraseña encriptada a un depósito de Cloud Storage en tu proyecto.
      1. Ejemplo:
        gsutil cp admin-password.encrypted gs://my-bucket
        
  2. Cree su clúster

    1. Al instalar el componente Ranger, también se debe instalar el componente Solr, como se muestra a continuación.
      1. El componente Ranger se basa en el componente Solr para almacenar y consultar sus registros de auditoría, que, de manera predeterminada, usan HDFS como almacenamiento. Estos datos de HDFS se borran cuando se borra el clúster. Para configurar el componente Solr a fin de almacenar datos, incluidos los registros de auditoría de Ranger, en Cloud Storage, usa la propiedad de clúster dataproc:solr.gcs.path=gs://<bucket> cuando crees tu clúster. Los datos de Cloud Storage se conservan después de que se borra el clúster.
    2. Pasa los URI de Cloud Storage de la clave y la contraseña de KMS al comando de creación de clústeres. Para ello, configura las propiedades del clúster dataproc:ranger.kms.key.uri y dataproc:ranger.admin.password.uri.
    3. Opcionalmente, puedes pasar la contraseña de usuario administrador de la base de datos de Ranger a través de un URI de archivo de Cloud Storage encriptado si estableces la propiedad de clúster dataproc:ranger.db.admin.password.uri.
    4. De forma predeterminada, el componente Ranger usa la instancia de la base de datos de MySql que se ejecuta en el primer nodo de la instancia principal del clúster. Para conservar la base de datos de Ranger después de la eliminación del clúster, usa una instancia de Cloud SQL como la base de datos externa de MySql.

      1. Configura la propiedad de clúster dataproc:ranger.cloud-sql.instance.connection.name en la instancia de Cloud SQL.
      2. Establece la propiedad de clúster dataproc:ranger.cloud-sql.root.password.uri en el URI de Cloud Storage de la contraseña raíz encriptada con clave de KMS correspondiente a la instancia de Cloud SQL.
      3. Establece la propiedad de clúster dataproc:ranger.cloud-sql.use-private-ip para indicar si la conexión a la instancia de Cloud SQL es sobre IP privada.

      El componente de Ranger usa el proxy de Cloud SQL para conectarse a la instancia de Cloud SQL. Para usar el proxy, haz lo siguiente:

      1. Configura el permiso de la API sqlservice.admin cuando crees el clúster (si usas el comando gcloud dataproc cluster create, agrega el parámetro --scopes=default,sql-admin).
      2. Habilita la API de administrador de SQL en tu proyecto.
      3. Otorga la función Editor de Cloud SQL a la cuenta de servicio predeterminada de Compute Engine en tu proyecto.

      Comando de gcloud

      Para crear un clúster de Dataproc que incluya el componente Ranger, usa el comando gcloud dataproc clusters createcluster-name con la marca --optional-components.

      gcloud dataproc clusters create cluster-name \
          --optional-components=SOLR,RANGER \
          --region=region \
          --enable-component-gateway \
          --properties="dataproc:ranger.kms.key.uri=projects/project-id/locations/global/keyRings/my-keyring/cryptoKeys/my-key,dataproc:ranger.admin.password.uri=gs://my-bucket/admin-password.encrypted" \
          ... other flags
      

      API de REST

      Especifica los componentes Ranger y Solr en el campo SoftwareConfig.Component como parte de una solicitud clusters.create de la API de Dataproc. También debes configurar las siguientes propiedades del clúster en el campo SoftwareConfig.Component.properties:

      1. dataproc:ranger.kms.key.uri: "projects/project-id/locations/global/keyRings/my-keyring/cryptoKeys/my-key"
      2. dataproc:ranger.admin.password.uri : "gs://my-bucket/admin-password.encrypted"

      Console

      1. Habilita la puerta de enlace del componente y el componente.
        • En Cloud Console, abre la página Crea un clúster de Dataproc. Se selecciona el panel Configurar clúster.
        • En la sección Componentes, sigue estos pasos:

Registros de administrador de Ranger

Los registros de administrador de Ranger están disponibles en Logging como registros ranger-admin-root.