Administra recursos con Data Catalog

En esta página, se explica cómo buscar y administrar tus recursos de Spanner mediante Data Catalog.

Data Catalog es un servicio de administración de metadatos escalable y completamente administrado dentro de Dataplex. Cataloga de forma automática los siguientes metadatos sobre las instancias, las bases de datos, las tablas, las columnas y las vistas de Spanner:

  • Nombre y nombre completamente calificado
  • Ubicación (región)
  • Fecha de creación y fecha de la última modificación
  • Esquema (para tablas y vistas)
  • Descripción

Los metadatos de Spanner se sincronizan de forma automática con Data Catalog en intervalos regulares, por lo general, cada pocas horas. Puedes usar Data Catalog para descubrir y comprender tus metadatos de Spanner. Usa Data Catalog para ayudar con las siguientes actividades:

  • Análisis, incluidas las dependencias y la idoneidad para un caso de uso
  • Administración de cambios
  • Movimiento de datos (canalizaciones)
  • Evolución del esquema

Con Data Catalog, puedes seleccionar metadatos si adjuntas etiquetas a las entradas de metadatos de Spanner. Cada etiqueta puede tener varios campos de metadatos y se puede basar en una plantilla de etiqueta predefinida o personalizada.

Por ejemplo, puedes adjuntar la siguiente etiqueta a una columna que contenga un número de seguridad social, que es información de identificación personal (PII):

pii:true
pii_type:SSN

Cuando mueves una instancia que usa etiquetas, estas no se mueven automáticamente a la instancia de destino. En su lugar, debes exportar las etiquetas de la instancia de origen antes de moverla y, luego, importarlas a la instancia de destino. Para obtener más información, consulta Cómo importar y exportar etiquetas.

Para obtener más información sobre Data Catalog, consulta Qué es Data Catalog.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  6. Habilita la API de Data Catalog para el proyecto.

    Habilite la API de Data Catalog

  7. Comprueba los permisos.

    Necesitas ciertos roles y permisos de Identity and Access Management (IAM) para buscar etiquetas y adjuntarlas a los recursos de Spanner. Si deseas obtener más detalles, consulta Roles y permisos de IAM obligatorios para Data Catalog.

Crea plantillas de etiquetas

Las plantillas de etiquetas son estructuras reutilizables que puedes usar para crear etiquetas nuevas con rapidez. Las plantillas te ayudan a evitar la duplicación de trabajos y etiquetas incompletas. Crea tantas plantillas de etiquetas como necesites.

Para obtener más información, consulta Etiquetas y plantillas de etiquetas.

Adjunta etiquetas a los recursos de Spanner

Adjuntar etiquetas a los recursos de Spanner te permite hacer lo siguiente:

  • Agregar metadatos empresariales a los activos.
  • Busca activos por metadatos empresariales y otros metadatos personalizados.

Para obtener más información, consulta Etiquetas y plantillas de etiquetas.

Buscar recursos de Spanner

Usa la página de búsqueda de Dataplex en la consola de Google Cloud para buscar recursos.

  1. Ve a la página de búsqueda de Dataplex.

    Ir a Dataplex

  2. En el panel Filtros, en Sistemas, selecciona Spanner.

    Dataplex muestra todos los recursos conocidos de Spanner.

  3. Opcional: Realiza una de las siguientes acciones para limitar la búsqueda:

    • Usa la búsqueda por facetas en la página Buscar. Selecciona las casillas de verificación de Tipos de datos, Proyectos y Etiquetas.

    • En el campo de búsqueda, agrega un parámetro de búsqueda después de system=cloud_spanner. Separa los parámetros con espacios.

    Por ejemplo, para ver solo bases de datos, ingresa el siguiente texto en el campo de búsqueda y, luego, presiona Enter.

     system=cloud_spanner type=database
    

    También puedes usar paréntesis y los operadores lógicos and y or para expresiones complejas. Para obtener más información sobre las expresiones que puedes usar en el campo de búsqueda, consulta Sintaxis de búsqueda de Data Catalog.

  4. En la tabla de resultados, haz clic en el nombre de un activo para ver sus metadatos.

  5. Opcional: Realiza cualquiera de las siguientes acciones:

    • Haz clic en AGREGAR DESCRIPCIÓN GENERAL para agregar una descripción de texto enriquecido del activo.
    • Haga clic en ADJUNTAR ETIQUETAS para agregar una etiqueta al activo.
    • Si quieres ver una tabla, haz clic en la pestaña SCHEMA para ver las columnas de la tabla.
    • En una instancia (SERVICE), para ver las bases de datos de miembros, haz clic en la pestaña LISTA DE ENTRADA y, luego, en VER ENTRADAS INFANTILES EN LA BÚSQUEDA. (Si no aparece la pestaña ENTRY LIST, significa que la instancia no tiene bases de datos).

Flujo de trabajo de ejemplo: Desglosa de una instancia a columnas

En este flujo de trabajo de ejemplo, debes buscar una instancia de Spanner y, luego, visualizar una base de datos de miembros, consultar una tabla de esa base de datos y ver las columnas de la tabla.

  1. Ve a la página de búsqueda de Dataplex.

    Ir a Dataplex

  2. En el panel Filtros, en Sistemas, selecciona Spanner.

  3. Para ver todas las instancias de Spanner en Data Catalog, selecciona la casilla de verificación Servicio en Tipos de datos o ingresa el siguiente texto en el campo de búsqueda y presiona Enter.

    system=cloud_spanner type=service
    
  4. Selecciona un nombre de instancia.

  5. En la página Detalles del servicio de Spanner, haz clic en la pestaña LISTA DE ENTRADA y, luego, en VER ENTRADAS INFANTILES EN LA BÚSQUEDA.

    Dataplex muestra las bases de datos en la instancia.

  6. En la página Detalles de la base de datos de Spanner, haz clic en la pestaña LISTA DE ENTRADA y, luego, en VER ENTRADAS INFANTILES EN LA BÚSQUEDA.

    Dataplex muestra las tablas en la base de datos.

  7. Selecciona un nombre de tabla y, luego, en la página Detalles de la tabla de Spanner, haz clic en ESQUEMA para ver las columnas de la tabla.

  8. Opcional: Para agregar una etiqueta a una columna, haz clic en el signo más en Etiquetas de columnas.

Importa y exporta etiquetas

Cuando mueves una instancia de Spanner, el proceso de traslado borra las etiquetas de la instancia que creaste en Data Catalog. Para conservar tus etiquetas, debes hacer lo siguiente:

  • Consulta las etiquetas asociadas con la instancia.
  • Copia los detalles de las etiquetas.
  • Crea las etiquetas en la instancia trasladada.

Spanner sincroniza los datos cada 6 horas. Cualquier cambio en los metadatos que se realice en los elementos de Spanner, como las instancias, las bases de datos, las tablas, las vistas o las columnas, podría demorar alrededor de 6 horas en propagarse a Data Catalog.

Exporta etiquetas desde la configuración de la instancia de origen

Para hacer una lista de las etiquetas para una instancia (grupo de entrada o grupo de entrada), usa el comando gcloud data-catalog tags list de Google Cloud CLI de la siguiente manera:

curl \
'https://datacatalog.googleapis.com/v1/projects/PROJECT/locations/LOCATION/entryGroups/ENTRY_GROUP/tags?key=API_KEY' \
  --header 'Authorization: Bearer ACCESS_TOKEN' \
  --header 'Accept: application/json' \
  --compressed

Reemplaza lo siguiente:

  • PROJECT: Proyecto que contiene las etiquetas.
  • LOCATION: Es la ubicación de las etiquetas.
  • API_KEY: Es una cadena única que te permite acceder a una API.
  • ACCESS_TOKEN: Es el token de acceso que usa tu aplicación para autenticarse en el servicio.

Importa etiquetas a la configuración de destino

Antes de completar este procedimiento, haz lo siguiente:

Para copiar un rótulo identificador, crea las etiquetas en la instancia que se movió con el comando gcloud data-catalog tags create de la siguiente manera:

curl --request POST \
'https://datacatalog.googleapis.com/v1/entries:lookup?fullyQualifiedName=FQN&location=LOCATION&project=PROJECT&key=API_KEY' \
  --header 'Authorization: Bearer ACCESS_TOKEN' \
  --header 'Accept: application/json' \
  --header 'Content-Type: application/json' \
  --data '{"column":"myColumnName","name":"myTagName","template":"myTemplateName","fields":{"myDoubleField":{"doubleValue":0}}}' \
  --compressed

Reemplaza lo siguiente:

  • FQN: Es el nombre completamente calificado (FQN) del recurso. Los FQN adoptan dos formas:

    Para recursos no regionalizados: {SYSTEM}:{PROJECT}.{PATH_TO_RESOURCE_SEPARATED_WITH_DOTS}

    Para recursos regionalizados: {SYSTEM}:{PROJECT}.{LOCATION_ID}.{PATH_TO_RESOURCE_SEPARATED_WITH_DOTS}

    Ejemplo de una tabla de DPMS:

    dataproc_metastore:{PROJECT_ID}.{LOCATION_ID}.{INSTANCE_ID}.{DATABASE_ID}.{TABLE_ID}

  • LOCATION: Es la ubicación en la que se realiza la búsqueda.

  • PROJECT: Es el proyecto en el que se realiza la búsqueda.

  • API_KEY: Es una cadena única que te permite acceder a una API.

  • ACCESS_TOKEN: Es el token de acceso que usa tu aplicación para autenticarse en el servicio.

Roles y permisos de IAM obligatorios para Data Catalog

En la siguiente tabla, se muestran las funciones y los permisos de IAM necesarios para las distintas operaciones de Data Catalog.

Operación de Data Catalog Recurso de Spanner Roles o permisos obligatorios
Crea una plantilla de etiqueta N/A roles/datacatalog.tagTemplateCreator
Busca recursos de Spanner Instancia spanner.instances.get
Base de datos spanner.databases.get
Tabla spanner.databases.get
Vistas spanner.databases.get
Ver etiquetas públicas Instancia spanner.instances.get
Base de datos spanner.databases.get
Tabla spanner.databases.get
Vistas spanner.databases.get
Ver etiquetas privadas Instancias datacatalog.tagTemplates.getTag + spanner.instances.get
Bases de datos datacatalog.tagTemplates.getTag + spanner.databases.get
Tablas datacatalog.tagTemplates.getTag + spanner.databases.get
Vistas datacatalog.tagTemplates.getTag + spanner.databases.get
Adjunta una etiqueta a un recurso de Spanner mediante una plantilla de etiqueta Instancias datacatalog.tagTemplates.use + spanner.instances.updateTag
Bases de datos datacatalog.tagTemplates.use + spanner.databases.updateTag
Tablas datacatalog.tagTemplates.use + spanner.databases.updateTag
Vistas datacatalog.tagTemplates.use + spanner.databases.updateTag

El permiso spanner.instances.UpdateTag se incluye en el siguiente rol:

  • roles/spanner.admin

El permiso spanner.databases.UpdateTag se incluye en las siguientes funciones:

  • roles/spanner.admin
  • roles/spanner.databaseAdmin
  • roles/spanner.databaseUser

Para obtener más información, consulta Roles predefinidos.

¿Qué sigue?