Sincroniza Dataproc Metastore con Data Catalog

En este documento, se muestra cómo sincronizar los metadatos de Dataproc Metastore con Data Catalog.

Después de sincronizar estos dos servicios, puedes usar Data Catalog para administrar tus metadatos de Dataproc Metastore. Por ejemplo, con Data Catalog, puedes etiquetar y buscar recursos específicos de Dataproc Metastore, como bases de datos y tablas.

¿Qué es Data Catalog?

Data Catalog es una solución de administración de metadatos escalable y completamente administrada servicio. Proporciona una vista unificada y mecanismos de etiquetado para los y los metadatos empresariales.

Para obtener más información, consulta las siguientes guías de funciones de Data Catalog:

Antes de comenzar

Roles obligatorios

Para obtener los permisos que necesitas para sincronizar los metadatos de Dataproc Metastore con Data Catalog, pídele a tu administrador que te otorgue el rol de IAM Ver entradas sincronizadas de Dataproc Metastore en Data Catalog (roles/metastore.metadataViewer) en tu proyecto, según el principio de privilegio mínimo. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene los permisos necesarios para sincronizar los metadatos de Dataproc Metastore con Data Catalog. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para sincronizar los metadatos de Dataproc Metastore con Data Catalog:

  • Para obtener las bases de datos de Dataproc Metastore, haz lo siguiente: metastore.databases.get
  • Para enumerar las bases de datos de Dataproc Metastore, sigue estos pasos: metastore.databases.list
  • Para obtener tablas de Dataproc Metastore, haz lo siguiente: metastore.tables.get
  • Para enumerar las tablas de Dataproc Metastore, sigue estos pasos: metastore.tables.list

También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.

Para obtener más información sobre roles y permisos específicos de Dataproc Metastore, consulta Administra el acceso con la IAM.

Cómo funcionan los permisos entre los servicios

Data Catalog cumple con los permisos a nivel de Dataproc Metastore. Para los metadatos que se sincronizan desde Dataproc Metastore a Data Catalog, los permisos de IAM especificados en Dataproc Metastore se aplica a los metadatos en Data Catalog a tus conjuntos de datos.

Data Catalog verifica los permisos para cada base de datos y tabla de almacén de metadatos en el momento del acceso, de modo que solo los usuarios con acceso al servicio de Dataproc Metastore puedan ver los recursos del servicio sincronizado como entradas en Data Catalog.

Cómo funciona la sincronización de Data Catalog con Dataproc Metastore

Puedes habilitar Dataproc Metastore en Data Catalog cuando creas o actualizas un servicio de Dataproc Metastore con la consola de Google Cloud. Puedes inhabilitar la sincronización de la misma manera.

Después de habilitar la sincronización de Data Catalog, se generan los metadatos de la base de datos y de la tabla sincronizada automáticamente de Dataproc Metastore a Data Catalog.

Data Catalog sincroniza los siguientes metadatos:

  • Instancias
  • Bases de datos, incluidos el nombre y la descripción.
  • Tablas, incluidos el nombre, la descripción y el esquema (columnas con descripciones)

En la siguiente tabla, se muestra la asignación de recursos entre Dataproc Metastore y Data Catalog:

Recurso de Dataproc Metastore Recurso de Data Catalog
Instancia Grupo de entradas
Entrada
Base de datos Entrada
Tabla Entrada
Columna Esquema

Consideraciones

  • Pueden pasar hasta 6 horas antes de que tu Dataproc Metastore metadatos se sincronice por completo con Data Catalog. Después de que se realiza la sincronización inicial, los cambios incrementales se sincronizan a pedido (como las actualizaciones de tablas o bases de datos). Si se produce un error en una sincronización a pedido, esta se incluye en una reejecución por lotes que se produce cada 6 horas.

  • Si sospechas que hay un problema con la sincronización, comprueba los metadatos publicación de registros en Cloud Logging con Dataproc Metastore con el filtro textPayload=~".*Publish.*". Para obtener más información sobre cómo acceder a los registros, consulta Accede a los registros de trabajos en Logging.

  • Si inhabilitas la sincronización de Data Catalog, tus metadatos dejarán de sincronizarse de Dataproc Metastore a Data Catalog. Sin embargo, los metadatos que ya se sincronizaron permanecerán en Data Catalog.

  • Si borras una instancia de Dataproc Metastore, las entradas de instancia, base de datos y tabla correspondientes también se quitan de Data Catalog.

  • Metadatos de Dataproc Metastore almacenados en Data Catalog cumpla con los períodos de retención estándar de Google Cloud.

  • No se aplican costos adicionales por habilitar la sincronización de Data Catalog para Dataproc Metastore.

Crea un servicio con la sincronización de Data Catalog habilitada

La sincronización de Data Catalog está inhabilitada de forma predeterminada.

Para habilitar la sincronización de Data Catalog para un servicio nuevo, usa las siguientes instrucciones.

Console

  1. En la consola de Google Cloud, abre la página de Dataproc Metastore:

    Ir a Dataproc Metastore

  2. En la parte superior de la página Dataproc Metastore, haz clic en Crear.

    Se abrirá la página Crear servicio.

  3. Selecciona la versión de Dataproc Metastore que deseas usar.

  4. En Integración de metadatos, haz clic en Sincronización de Data Catalog.

  5. Para las opciones de configuración del servicio restantes, usa los valores predeterminados proporcionados. También puedes configurar tu servicio según sea necesario.

  6. Haz clic en Enviar.

Habilita o inhabilita la sincronización de Data Catalog para un servicio existente

Para habilitar o inhabilitar la sincronización de Data Catalog en un servicio existente, haz lo siguiente: sigue estas instrucciones.

Console

  1. En la consola de Google Cloud, abre la página Dataproc Metastore:

    Ir a Dataproc Metastore

  2. En la página Dataproc Metastore, haz clic en el servicio que deseas actualizar.

    Se abrirá la página Detalles del servicio de ese servicio.

  3. En la pestaña Configuración, haz clic en Editar.

    Se abrirá la página Editar servicio.

  4. En Integración de metadatos, activa o desactiva la Sincronización de Data Catalog.

  5. Haz clic en Enviar.

Busca con Data Catalog

Puedes buscar metadatos sincronizados de Dataproc Metastore con Data Catalog.

Aunque no hay opciones de búsqueda personalizadas para Dataproc Metastore, hay varias formas de buscar diferentes recursos de Dataproc Metastore, como las siguientes:

  • Instancia de Dataproc Metastore
    • Por nombre visible
    • Funciones estándar de Data Catalog (por ejemplo, con etiquetas)
  • Base de datos
    • Por nombre visible
    • Por descripción
    • Por instancia de Dataproc Metastore
    • Funciones estándar de Data Catalog, por ejemplo, mediante etiquetas.
  • Tabla
    • Por nombre visible
    • Por descripción
    • Por nombre de columna
    • Por descripción de la columna
    • Por base de datos
    • Por instancia de Dataproc Metastore
    • Funciones estándar de Data Catalog (por ejemplo, con etiquetas)

¿Qué sigue?