Sincroniza Dataproc Metastore con Data Catalog

En este documento, se muestra cómo sincronizar los metadatos de Dataproc Metastore con Data Catalog.

Después de sincronizar estos dos servicios, puedes usar Data Catalog para administrar los metadatos de Dataproc Metastore. Por ejemplo, con Data Catalog, puedes etiquetar y buscar recursos específicos de Dataproc Metastore, como bases de datos y tablas.

¿Qué es Data Catalog?

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado. Proporciona una vista unificada y mecanismos de etiquetado para metadatos técnicos y empresariales.

Para obtener más información, consulta las siguientes guías de funciones de Data Catalog:

Antes de comenzar

Funciones obligatorias

Para obtener los permisos que necesitas para sincronizar los metadatos de Dataproc Metastore con Data Catalog, pídele a tu administrador que te otorgue el rol de IAM Ver entradas sincronizadas de Dataproc Metastore en Data Catalog (roles/metastore.metadataViewer) en tu proyecto, según el principio de privilegio mínimo. Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso.

Este rol predefinido contiene los permisos necesarios para sincronizar los metadatos de Dataproc Metastore con Data Catalog. Para ver los permisos exactos que son necesarios, expande la sección Permisos requeridos:

Permisos necesarios

Se requieren los siguientes permisos para sincronizar los metadatos de Dataproc Metastore con Data Catalog:

  • Para obtener las bases de datos de Dataproc Metastore, sigue estos pasos: metastore.databases.get
  • Para enumerar las bases de datos de Dataproc Metastore, sigue estos pasos: metastore.databases.list
  • Para obtener tablas de Dataproc Metastore, haz lo siguiente: metastore.tables.get
  • Para enumerar las tablas de Dataproc Metastore, sigue estos pasos: metastore.tables.list

Es posible que también puedas obtener estos permisos con funciones personalizadas o con otras funciones predefinidas.

Para obtener más información sobre las funciones y los permisos específicos de Dataproc Metastore, consulta Administra el acceso con la IAM.

Cómo funcionan los permisos entre los servicios

Data Catalog cumple con los permisos de nivel de Dataproc Metastore. Para los metadatos que se sincronizan de Dataproc Metastore a Data Catalog, los permisos de IAM especificados en Dataproc Metastore también se aplican a los metadatos en Data Catalog.

Data Catalog verifica los permisos de cada base de datos y tabla de almacén de metadatos al momento del acceso para que solo los usuarios con acceso al servicio de Dataproc Metastore puedan ver los recursos del servicio sincronizados como entradas en Data Catalog.

Cómo funciona la sincronización de Data Catalog con Dataproc Metastore

Puedes habilitar Dataproc Metastore para la sincronización de Data Catalog cuando crees o actualices un servicio de Dataproc Metastore con la consola de Google Cloud. Puedes inhabilitar la sincronización de la misma manera.

Después de habilitar la sincronización de Data Catalog, los metadatos de la base de datos y la tabla se sincronizan automáticamente desde Dataproc Metastore a Data Catalog.

Data Catalog sincroniza los siguientes metadatos:

  • Instancias.
  • Bases de datos, incluidos el nombre y la descripción.
  • Tablas, incluidos el nombre, la descripción y el esquema (columnas con descripciones).

En la siguiente tabla, se muestra la asignación de recursos entre Dataproc Metastore y Data Catalog:

Recurso de Dataproc Metastore Recurso de Data Catalog
Instancia Grupo de entradas
Entrada
Base de datos Entrada
Tabla Entrada
Columna Esquema

Consideraciones

  • Los metadatos de Dataproc Metastore pueden tardar hasta 6 horas en sincronizarse por completo con Data Catalog. Después de que se realiza la sincronización inicial, los cambios incrementales se sincronizan a pedido (como las actualizaciones de tablas o bases de datos). Si falla una sincronización a pedido, se incluye en una nueva ejecución por lotes que se produce cada 6 horas.

  • Si sospechas que hay un problema con la sincronización, verifica los registros de publicación de metadatos en Dataproc Metastore, Cloud Logging con el filtro textPayload=~".*Publish.*". Para obtener más información sobre cómo acceder a los registros, consulta Accede a los registros de trabajos en Logging.

  • Si inhabilitas la sincronización de Data Catalog, tus metadatos dejan de sincronizarse de Dataproc Metastore con Data Catalog. Sin embargo, los metadatos que ya se sincronizaron permanecen en Data Catalog.

  • Si borras una instancia de Dataproc Metastore, las entradas de instancia, base de datos y tabla correspondientes también se quitan de Data Catalog.

  • Los metadatos de Dataproc Metastore almacenados en Data Catalog cumplen con los períodos de retención estándar de Google Cloud.

  • No se aplican costos adicionales habilitar la sincronización de Data Catalog para Dataproc Metastore.

Crea un servicio con la sincronización de Data Catalog habilitada

La sincronización de Data Catalog está inhabilitada de forma predeterminada.

Si deseas habilitar la sincronización de Data Catalog para un servicio nuevo, sigue estas instrucciones.

Console

  1. En la consola de Google Cloud, abre la página de Dataproc Metastore:

    Ir a Dataproc Metastore

  2. En la parte superior de la página de Dataproc Metastore, haz clic en Crear.

    Se abrirá la página Crear servicio.

  3. Selecciona la versión de Dataproc Metastore que deseas usar.

  4. En Integración de metadatos, haz clic en Sincronización de Data Catalog.

  5. Para las opciones de configuración del servicio restantes, usa los valores predeterminados proporcionados. También puedes configurar tu servicio según sea necesario.

  6. Haz clic en Enviar.

Habilitar o inhabilitar la sincronización de Data Catalog para un servicio existente

Si deseas habilitar o inhabilitar la sincronización de Data Catalog para un servicio existente, sigue estas instrucciones.

Console

  1. En la consola de Google Cloud, abre la página de Dataproc Metastore:

    Ir a Dataproc Metastore

  2. En la página Dataproc Metastore, haz clic en el servicio que deseas actualizar.

    Se abrirá la página Detalles del servicio de ese servicio.

  3. En la pestaña Configuración, haz clic en Editar.

    Se abrirá la página Editar servicio.

  4. En Integración de metadatos, activa o desactiva la sincronización de Data Catalog.

  5. Haz clic en Enviar.

Busca con Data Catalog

Puedes buscar metadatos sincronizados de Dataproc Metastore con Data Catalog.

Aunque no existen opciones de búsqueda personalizada para Dataproc Metastore, existen varias formas de buscar diferentes recursos de Dataproc Metastore, incluidas las siguientes:

  • Instancia de Dataproc Metastore
    • Por nombre visible
    • Funciones estándar de Data Catalog, por ejemplo, mediante etiquetas
  • Base de datos
    • Por nombre visible
    • Por descripción
    • Por instancia de Dataproc Metastore
    • Funciones estándar de Data Catalog, por ejemplo, mediante etiquetas
  • Tabla
    • Por nombre visible
    • Por descripción
    • Por nombre de columna
    • Por descripción de la columna
    • Por base de datos
    • Por instancia de Dataproc Metastore
    • Funciones estándar de Data Catalog, por ejemplo, mediante etiquetas

¿Qué sigue?