Sincronización de Dataproc Metastore con Data Catalog

Puedes habilitar el servicio Dataproc Metastore a la sincronización de Data Catalog para aprovechar el descubrimiento y la administración de metadatos. Una vez habilitados, los metadatos de la base de datos y de la tabla se sincronizan de forma automática desde Dataproc Metastore a Data Catalog.

Data Catalog te permite etiquetar y buscar recursos específicos del servicio, como bases de datos y tablas.

¿Qué es Data Catalog?

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado en la familia de productos de estadísticas de datos de Google Cloud. Proporciona mecanismos unificados de vista y etiquetado para metadatos técnicos y empresariales.

Para obtener más información, consulta las siguientes guías de funciones de Data Catalog:

Permisos

Data Catalog cumple con los permisos de nivel de Dataproc Metastore. Para los metadatos que se sincronizan de Dataproc Metastore a Data Catalog, los permisos de IAM especificados en Dataproc Metastore también se aplican a los metadatos en Data Catalog.

Data Catalog verifica los permisos de cada base de datos o tabla de Metastore en el momento del acceso para que solo los usuarios con acceso al servicio de Dataproc Metastore puedan ver los recursos del servicio sincronizado como entradas en Data Catalog.

Habilitar la sincronización de Data Catalog

Después de habilitar la sincronización de Data Catalog, se realizan sincronizaciones completas en vivo de tu servicio de Dataproc Metastore.

{data_catalog_name_short}} sincroniza los siguientes metadatos:

  • Instancias
  • Bases de datos, incluidos el nombre y la descripción
  • Tablas, incluidos el nombre, la descripción y el esquema (columnas con descripciones)
  • Propiedades de la base de datos
  • Propiedades de la tabla

En la siguiente tabla, se muestra la asignación de recursos entre Dataproc Metastore y Data Catalog:

Recurso de Dataproc Metastore Recurso de Data Catalog
Instancia Grupo de entradas
Entrada
Base de datos Entrada
Tabla Entrada
Columna Esquema

Puedes habilitar el servicio de Dataproc Metastore a la sincronización de Data Catalog cuando creas o actualizas un servicio de Dataproc Metastore mediante Google Cloud Console. Puedes inhabilitar la sincronización de la misma manera.

Cree un servicio con la sincronización de Data Catalog habilitada

La sincronización de Data Catalog está inhabilitada de forma predeterminada.

A fin de habilitar la sincronización de Data Catalog para un servicio nuevo, siga estos pasos:

Console

  1. En Cloud Console, abre la página de Dataproc Metastore:

    Abre Dataproc Metastore en Cloud Console

  2. En la parte superior de la página Dataproc Metastore haz clic en el botón Crear. Se abrirá la página Crear servicio.

  3. Configura tu servicio como desees.

  4. En Integración de metadatos, habilita la Sincronización de Data Catalog para sincronizar el servicio de Dataproc Metastore con Data Catalog.

  5. Haga clic en Enviar.

Habilita o inhabilita la sincronización de Data Catalog para un servicio existente

Para habilitar o inhabilitar la sincronización de Data Catalog de un servicio existente, sigue estos pasos:

Console

  1. En Cloud Console, abre la página de Dataproc Metastore:

    Abre Dataproc Metastore en Cloud Console

  2. En la página Dataproc Metastore, haz clic en el nombre del servicio que quieres actualizar. Se abrirá la página Detalles del servicio de ese servicio.

  3. En la pestaña Configuración, haz clic en el botón Editar. Se abrirá la página Editar servicio.

  4. En la sección Integración de metadatos, haz clic para activar o desactivar Habilitar para la sincronización de Data Catalog.

  5. Haz clic en el botón Enviar para actualizar el servicio.

Buscar con Data Catalog

Puedes buscar metadatos sincronizados de Dataproc Metastore con Data Catalog.

Aunque no hay opciones de búsqueda personalizadas para Dataproc Metastore, existen varias formas de buscar diferentes recursos de Dataproc Metastore:

  • Instancia de Dataproc Metastore
    • Por nombre visible
    • Formas de Data Catalog estándar, por etiquetas, etcétera
  • Base de datos
    • Por nombre visible
    • Por descripción
    • Por instancia de Dataproc Metastore
    • Formas de Data Catalog estándar, por etiquetas, etcétera
  • Tabla:
    • Por nombre visible
    • Por descripción
    • Por nombre de columna
    • Por descripción de la columna
    • Por base de datos
    • Por instancia de Dataproc Metastore
    • Formas de Data Catalog estándar, por etiquetas, etcétera

Preguntas frecuentes

  • Espera 6 horas antes de verificar la integridad y precisión de la sincronización de metadatos en Data Catalog.

  • Si sospechas que hay un problema con la sincronización de Dataproc Metastore, en Data Catalog, verifica los registros de publicación de metadatos en Dataproc Metastore Cloud Logging con el filtro textPayload=~".*Publish.*". Para obtener más información sobre cómo acceder a los registros, consulta Accede a los registros de trabajos en Logging.

  • Si inhabilitas la sincronización de Data Catalog, los metadatos dejarán de sincronizarse desde Dataproc Metastore con Data Catalog. Sin embargo, los metadatos que ya se sincronizaron permanecerán en Data Catalog.

  • Si borras una instancia de Dataproc Metastore, las instancias correspondientes de la instancia, la base de datos y la tabla también se quitan de Data Catalog.

  • Data Catalog cumple con los períodos de retención estándar de Google Cloud.

  • Habilitar la sincronización de Data Catalog para Dataproc Metastore no tiene costos adicionales.

¿Qué sigue?