Sincroniza Dataproc Metastore con Data Catalog

En este documento, se muestra cómo sincronizar los metadatos de Dataproc Metastore con Data Catalog.

Después de sincronizar estos dos servicios, puedes usar Data Catalog para administrar tus metadatos de Dataproc Metastore. Por ejemplo, con Data Catalog, puedes etiquetar y buscar recursos específicos de Dataproc Metastore, como bases de datos y tablas.

¿Qué es Data Catalog?

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado. Proporciona una vista unificada y mecanismos de etiquetado para los metadatos técnicos y de la empresa.

Para obtener más información, consulta las siguientes guías de funciones de Data Catalog:

Antes de comenzar

Roles obligatorios

Para obtener los permisos que necesitas para sincronizar los metadatos de Dataproc Metastore con Data Catalog, pídele a tu administrador que te otorgue el rol de IAM Ver entradas sincronizadas de Dataproc Metastore en Data Catalog (roles/metastore.metadataViewer) en tu proyecto, según el principio de privilegio mínimo. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene los permisos necesarios para sincronizar los metadatos de Dataproc Metastore con Data Catalog. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para sincronizar los metadatos de Dataproc Metastore con Data Catalog:

  • Para obtener bases de datos de Dataproc Metastore, haz lo siguiente: metastore.databases.get
  • Para enumerar las bases de datos de Dataproc Metastore, haz lo siguiente: metastore.databases.list
  • Para obtener tablas de Dataproc Metastore, haz lo siguiente: metastore.tables.get
  • Para mostrar una lista de las tablas de Dataproc Metastore, haz lo siguiente: metastore.tables.list

También puedes obtener estos permisos con roles personalizados o con otros roles predefinidos.

Para obtener más información sobre los roles y permisos específicos de Dataproc Metastore, consulta Administra el acceso con IAM.

Cómo funcionan los permisos entre los servicios

Data Catalog cumple con los permisos a nivel de Dataproc Metastore. En el caso de los metadatos que se sincronizan de Dataproc Metastore a Data Catalog, los permisos de IAM especificados en Dataproc Metastore también se aplican a los metadatos de Data Catalog.

Data Catalog verifica los permisos para cada base de datos y tabla de almacén de metadatos en el momento del acceso, de modo que solo los usuarios con acceso al servicio de Dataproc Metastore puedan ver los recursos del servicio sincronizado como entradas en Data Catalog.

Cómo funciona la sincronización de Data Catalog con Dataproc Metastore

Puedes habilitar la sincronización de Dataproc Metastore con Data Catalog cuando creas o actualizas un servicio de Dataproc Metastore con Google Cloud Console. Puedes inhabilitar la sincronización de la misma manera.

Después de habilitar la sincronización de Data Catalog, los metadatos de la base de datos y las tablas se sincronizan automáticamente de Dataproc Metastore a Data Catalog.

Data Catalog sincroniza los siguientes metadatos:

  • Instancias
  • Bases de datos, incluidos el nombre y la descripción
  • Tablas, incluidos el nombre, la descripción y el esquema (columnas con descripciones)

En la siguiente tabla, se muestra la asignación de recursos entre Dataproc Metastore y Data Catalog:

Recurso de Dataproc Metastore Recurso de Data Catalog
Instancia Grupo de entradas
Entrada
Base de datos Entrada
Tabla Entrada
Columna Esquema

Consideraciones

  • Pueden pasar hasta 6 horas para que los metadatos de Dataproc Metastore se sincronicen por completo con Data Catalog. Después de que se realiza la sincronización inicial, los cambios incrementales se sincronizan a pedido (como las actualizaciones de tablas o bases de datos). Si se produce un error en una sincronización a pedido, esta se incluye en una reejecución por lotes que se produce cada 6 horas.

  • Si sospechas que hay un problema con la sincronización, verifica los registros de publicación de metadatos en Cloud Logging de Dataproc Metastore con el filtro textPayload=~".*Publish.*". Para obtener más información sobre cómo acceder a los registros, consulta Cómo acceder a los registros de trabajos en Logging.

  • Si inhabilitas la sincronización de Data Catalog, tus metadatos dejarán de sincronizarse de Dataproc Metastore a Data Catalog. Sin embargo, los metadatos que ya se sincronizaron permanecen en Data Catalog.

  • Si borras una instancia de Dataproc Metastore, las entradas de la instancia, la base de datos y la tabla correspondientes también se quitan de Data Catalog.

  • Los metadatos de Dataproc Metastore almacenados en Data Catalog se adhieren a los períodos de retención estándar de Google Cloud.

  • No se aplican costos adicionales para habilitar la sincronización de Data Catalog para Dataproc Metastore.

Crea un servicio con la sincronización de Data Catalog habilitada

La sincronización de Data Catalog está inhabilitada de forma predeterminada.

Para habilitar la sincronización de Data Catalog para un servicio nuevo, usa las siguientes instrucciones.

Console

  1. En la consola de Google Cloud, abre la página Dataproc Metastore:

    Ir a Dataproc Metastore

  2. En la parte superior de la página Dataproc Metastore, haz clic en Crear.

    Se abrirá la página Crear servicio.

  3. Selecciona la versión de Dataproc Metastore que deseas usar.

  4. En Integración de metadatos, haz clic en Sincronización de Data Catalog.

  5. Para las demás opciones de configuración del servicio, usa los valores predeterminados proporcionados. También puedes configurar tu servicio según sea necesario.

  6. Haz clic en Enviar.

Habilita o inhabilita la sincronización de Data Catalog para un servicio existente

Para habilitar o inhabilitar la sincronización de Data Catalog para un servicio existente, sigue estas instrucciones.

Console

  1. En la consola de Google Cloud, abre la página Dataproc Metastore:

    Ir a Dataproc Metastore

  2. En la página Dataproc Metastore, haz clic en el servicio que quieres actualizar.

    Se abrirá la página Detalles del servicio de ese servicio.

  3. En la pestaña Configuración, haz clic en Editar.

    Se abrirá la página Editar servicio.

  4. En Integración de metadatos, activa o desactiva la Sincronización de Data Catalog.

  5. Haz clic en Enviar.

Cómo buscar con Data Catalog

Puedes buscar metadatos sincronizados de Dataproc Metastore con Data Catalog.

Aunque no hay opciones de búsqueda personalizadas para Dataproc Metastore, hay varias formas de buscar diferentes recursos de Dataproc Metastore, como las siguientes:

  • Instancia de Dataproc Metastore
    • Por nombre visible
    • Funciones estándar de Data Catalog (por ejemplo, con etiquetas)
  • Base de datos
    • Por nombre visible
    • Por descripción
    • Por instancia de Dataproc Metastore
    • Funciones estándar de Data Catalog (por ejemplo, con etiquetas)
  • Tabla
    • Por nombre visible
    • Por descripción
    • Por nombre de columna
    • Por descripción de la columna
    • Por base de datos
    • Por instancia de Dataproc Metastore
    • Funciones estándar de Data Catalog (por ejemplo, con etiquetas)

¿Qué sigue?