Sincronización de Dataproc Metastore con Data Catalog

Puedes habilitar el servicio de Metastore de Dataproc a la sincronización de Data Catalog para aprovechar el servicio de descubrimiento de metadatos y administración de metadatos. Una vez que están habilitadas, los metadatos de la base de datos y de la tabla, como la información del esquema, se sincronizan automáticamente desde Dataproc Metastore con Data Catalog.

Data Catalog te permite etiquetar y buscar recursos específicos del servicio, como bases de datos y tablas.

¿Qué es Data Catalog?

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado en la familia de productos de análisis de datos de Google Cloud. Proporciona mecanismos de vista y etiquetado unificados para metadatos técnicos y empresariales.

Para obtener más información, consulta las siguientes guías con características de Data Catalog:

Permisos

Data Catalog cumple con los permisos de nivel de Dataproc Metastore. En el caso de los metadatos que se sincronizan desde Dataproc Metastore a Data Catalog, los permisos de IAM especificados en Dataproc Metastore se aplican a los metadatos en Data Catalog.

Data Catalog verifica los permisos de cada base de datos o tabla de almacén de metadatos en el momento del acceso, de modo que solo los usuarios con acceso al servicio de Dataproc Metastore puedan ver los recursos del servicio sincronizados como entradas en Data Catalog. las rutas "a GCP".

Habilita la sincronización de Data Catalog

Después de habilitar la sincronización de Data Catalog, Data Catalog realiza sincronizaciones completas y en vivo de tu servicio de Dataproc Metastore.

Sincroniza los siguientes metadatos:

  • Instancias
  • Bases de datos, incluidos el nombre y la descripción
  • Tablas, incluidos el nombre, la descripción y el esquema (columnas con descripciones)
  • Propiedades de la base de datos
  • Propiedades de la tabla

En la siguiente tabla, se muestra la asignación de recursos entre Dataproc Metastore y Data Catalog:

Recurso de Dataproc Metastore Recurso de Data Catalog
Instancia Entrada del grupo
de entrada
Base de datos Entrada
Tabla Entrada
Columna Esquema

Puedes habilitar el servicio de Dataproc Metastore para la sincronización de Data Catalog cuando creas o actualizas un servicio de Dataproc Metastore con Google Cloud Console. Puedes inhabilitar la sincronización de la misma manera.

Crea un servicio con la sincronización de Data Catalog habilitada

La sincronización de Data Catalog está inhabilitada de forma predeterminada.

Para habilitar la sincronización de Data Catalog para un servicio nuevo, sigue estos pasos:

Console

  1. En Cloud Console, abre la página de Dataproc Metastore:

    Abre Dataproc Metastore en Cloud Console

  2. En la parte superior de la página Dataproc Metastore haz clic en el botón Crear. Se abrirá la página Crear servicio.

  3. Configura tu servicio como desees.

  4. En Integración de metadatos, habilita la Sincronización de Data Catalog para sincronizar el servicio Dataproc de Metastore con Data Catalog.

  5. Haga clic en Enviar.

Habilita o inhabilita la sincronización de Data Catalog para un servicio existente

Para habilitar o inhabilitar la sincronización de Data Catalog de un servicio existente, sigue estos pasos:

Console

  1. En Cloud Console, abre la página de Dataproc Metastore:

    Abre Dataproc Metastore en Cloud Console

  2. En la página Dataproc Metastore, haz clic en el nombre del servicio que quieres actualizar. Se abrirá la página Detalles del servicio de ese servicio.

  3. En la pestaña Configuración, haz clic en el botón Editar. Se abrirá la página Editar servicio.

  4. En la sección Integración de metadatos, haz clic para activar o desactivar la opción Habilitar para la sincronización de Data Catalog.

  5. Haz clic en el botón Enviar para actualizar el servicio.

Realizar búsquedas con Data Catalog

Puedes buscar metadatos de Dataproc Metastore sincronizados mediante Data Catalog.

Aunque no hay opciones de búsqueda personalizadas para Dataproc Metastore, existen varias maneras de buscar diferentes recursos de Dataproc Metastore:

  • Instancia de Dataproc Metastore
    • Por nombre visible
    • Formas de Data Catalog estándar: por etiquetas, etcétera
  • Base de datos
    • Por nombre visible
    • Por descripción
    • Por instancia de Dataproc Metastore
    • Formas de Data Catalog estándar: por etiquetas, etcétera
  • Tabla:
    • Por nombre visible
    • Por descripción
    • Por nombre de columna
    • Por descripción de columna
    • Por base de datos
    • Por instancia de Dataproc Metastore
    • Formas de Data Catalog estándar: por etiquetas, etcétera

Preguntas frecuentes

  • Espera 6 horas antes de verificar que Data Catalog verifique la integridad y la precisión de la sincronización de metadatos.

  • Si sospechas que hay un problema con la sincronización de Dataproc Metastore para la sincronización de Data Catalog, verifica los registros de publicación de metadatos en Dataproc Metastore de Cloud Logging con el filtro textPayload=~".*Publish.*". Para obtener más información sobre el acceso a los registros, consulta Accede a los registros de trabajos en Logging.

  • Si inhabilitas la sincronización de Data Catalog, los metadatos ya no se sincronizarán de Dataproc Metastore a Data Catalog. Sin embargo, los metadatos que ya se sincronizaron permanecerán en Data Catalog.

  • Si borras una instancia de Dataproc Metastore, las instancias, la base de datos y las entradas de tabla correspondientes también se quitan de Data Catalog.

  • Data Catalog cumple con los períodos de retención estándar de Google Cloud.

  • No se aplican costos adicionales por habilitar la sincronización de Data Catalog para Dataproc Metastore.

Próximos pasos