Esta página se ha traducido con Cloud Translation API.

Importar metadatos mediante una canalización personalizada

En este documento se describe cómo importar metadatos de un sistema de terceros a Universal Catalog de Dataplex mediante los métodos de la API de importación de metadatos y tu propia canalización. Los metadatos de Dataplex Universal Catalog se componen de entradas y sus aspectos.

Si prefieres usar una canalización de orquestación gestionada por Google Cloudpara extraer e importar metadatos, te recomendamos que uses una canalización de conectividad gestionada. Con una canalización de conectividad gestionada, puedes usar tu propio conector para extraer metadatos y generar resultados en un formato que se pueda usar como entrada en los métodos de la API de importación de metadatos (el archivo de importación de metadatos). Después, usa Workflows para orquestar las tareas de la canalización.

Puede ejecutar los siguientes tipos de trabajos de importación de metadatos:

Sincronización completa de las entradas con importación incremental de sus aspectos. Se admiten entradas personalizadas.
Importación incremental solo de aspectos. Se admite en aspectos que pertenecen a entradas personalizadas y entradas del sistema. En el caso de las entradas personalizadas, puedes modificar tanto los aspectos opcionales como los obligatorios. En el caso de las entradas del sistema, puedes modificar aspectos opcionales.

Pasos generales

Para importar metadatos mediante la API de importación de metadatos, sigue estos pasos generales:

Determina el ámbito del trabajo.

También debes saber cómo aplica Dataplex Universal Catalog la lógica de comparación y el modo de sincronización de las entradas y los aspectos.
Crea uno o varios archivos de importación de metadatos que definan los datos que se van a importar.
Guarda los archivos de importación de metadatos en un segmento de Cloud Storage.
Ejecuta una tarea de importación de metadatos.

En los pasos de esta página se da por hecho que conoces los conceptos de metadatos de Dataplex Universal Catalog, como los grupos de entradas, los tipos de entradas y los tipos de aspectos. Para obtener más información, consulta el artículo Acerca de la gestión de metadatos en Dataplex Universal Catalog.

Antes de empezar

Antes de importar metadatos, completa las tareas de esta sección.

Roles obligatorios

Para asegurarte de que la cuenta de servicio de Universal Catalog de Dataplex tenga los permisos necesarios para acceder al bucket de Cloud Storage, pide a tu administrador que le asigne el rol de gestión de identidades y accesos de lector de objetos de almacenamiento (roles/storage.objectViewer) y el permiso storage.buckets.get en el bucket.

Para obtener los permisos que necesitas para gestionar los trabajos de importación de metadatos, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos:

Modifica las entradas y sus aspectos en una tarea de metadatos de sincronización de entradas completa:
- Usuario de tipo de entrada de Dataplex (roles/dataplex.entryTypeUser) en el tipo de entrada o en el proyecto en el que se define el tipo de entrada
- Usuario de tipo de aspecto de Dataplex (roles/dataplex.aspectTypeUser) en el tipo de aspecto o en el proyecto en el que se define el tipo de aspecto
Modifica los aspectos obligatorios de un trabajo de metadatos de solo aspectos:
- Usuario de tipo de entrada de Dataplex (roles/dataplex.entryTypeUser) en el tipo de entrada o en el proyecto en el que se define el tipo de entrada
- Usuario de tipo de aspecto de Dataplex (roles/dataplex.aspectTypeUser) en el tipo de aspecto o en el proyecto en el que se define el tipo de aspecto
Modifica aspectos opcionales en un trabajo de metadatos solo de aspectos: Usuario del tipo de aspecto de Dataplex (roles/dataplex.aspectTypeUser) en el tipo de aspecto o en el proyecto en el que se define el tipo de aspecto. Ten en cuenta que, al modificar aspectos opcionales en un trabajo de metadatos de solo aspectos, no necesitas permisos para el tipo de entrada asociado.
Crear tareas de importación de metadatos:
- Importador de grupos de entradas de Dataplex (roles/dataplex.entryGroupImporter) en el proyecto o el recurso
- Propietario de Entry y EntryLink de Dataplex (roles/dataplex.entryOwner) en el proyecto o el recurso
Ver trabajos de metadatos: Visor de trabajos de metadatos de Dataplex (roles/dataplex.metadataJobViewer) en el proyecto
Crear, ver y cancelar tareas de metadatos: Propietario de la tarea de metadatos de Dataplex (roles/dataplex.metadataJobOwner) en el proyecto

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

Crear Google Cloud recursos

Prepara los siguientes recursos: Google Cloud

Crea grupos de entradas para las entradas que quieras importar.
Crea tipos de aspectos para los aspectos que quieras importar.
Crea tipos de entrada para las entradas que quieras importar.
Si vas a ejecutar un trabajo de metadatos de aspectos únicamente, crea entradas para los aspectos que quieras importar.
Crea un segmento de Cloud Storage para almacenar los archivos de importación de metadatos.

Componentes de una tarea de importación de metadatos

Cuando importe metadatos, tenga en cuenta los siguientes componentes de una tarea de metadatos:

Ámbito del trabajo: los grupos de entradas, los tipos de entradas y los tipos de aspectos que se incluirán en el trabajo.
Modo de sincronización: cómo se actualizan las entradas y los aspectos del trabajo.
Archivo de importación de metadatos: archivo que define los valores que se deben asignar a las entradas y los aspectos del trabajo. Puedes proporcionar varios archivos de importación de metadatos en el mismo trabajo de metadatos. Guardas los archivos en Cloud Storage.
Lógica de comparación: cómo determina Dataplex Universal Catalog qué entradas y aspectos se deben modificar.

Ámbito de la tarea

El ámbito del trabajo define los grupos de entradas, los tipos de entradas y los tipos de aspectos que quieres incluir en un trabajo de importación de metadatos. Cuando importa metadatos, modifica las entradas y los aspectos que pertenecen a los recursos del ámbito del trabajo.

Para definir el ámbito del trabajo, sigue estas directrices:

Grupos de entradas: especifica uno o varios grupos de entradas que se incluirán en el trabajo. El trabajo solo modifica las entradas y los aspectos que pertenecen a estos grupos de entradas. Los grupos de entradas y el trabajo deben estar en la misma región.
Tipos de entrada: especifica uno o varios tipos de entrada que se incluirán en el trabajo. El trabajo solo modifica las entradas y los aspectos que pertenecen a estos tipos de entrada. La ubicación de un tipo de entrada debe coincidir con la de la tarea o el tipo de entrada debe ser global.
Tipos de aspectos: especifica uno o varios tipos de aspectos que se incluirán en la tarea. El trabajo solo modifica los aspectos que pertenecen a estos tipos de aspectos. La ubicación de un tipo de aspecto debe coincidir con la de la tarea o el tipo de aspecto debe ser global.

El ámbito del trabajo debe incluir todos los tipos de entrada y de aspecto que especifique en el archivo de importación de metadatos.

El ámbito de la tarea se especifica al crear una tarea de metadatos.

Modo de sincronización

El modo de sincronización especifica cómo se actualizan las entradas y los aspectos de un trabajo de importación de metadatos. Proporciona un modo de sincronización para las entradas y los aspectos. En función de los recursos que quieras importar, se admiten las siguientes combinaciones de modos de sincronización.

Objetivo Modo de sincronización de entradas Modo de sincronización de la relación de aspecto Resultados

Importar entradas y sus aspectos

Objetivo	Modo de sincronización de entradas	Modo de sincronización de la relación de aspecto	Resultados
Importar entradas y sus aspectos	`FULL`	`INCREMENTAL`	Se modifican todas las entradas del ámbito del trabajo. Si una entrada existe en Dataplex Universal Catalog, pero no se incluye en el archivo de importación de metadatos, se elimina cuando ejecutas el trabajo de metadatos. Un aspecto solo se modifica si el archivo de importación de metadatos incluye una referencia al aspecto en los campos `updateMask` y `aspectKeys`. Consulta la estructura de un elemento de importación.
Importar solo aspectos	`NONE`	`INCREMENTAL`	Los aspectos se modifican si forman parte del ámbito del trabajo y si el archivo de importación de metadatos incluye una referencia a los aspectos en el campo `aspectKeys`. Consulta la estructura de un elemento de importación. El resto de los metadatos que pertenecen a las entradas del ámbito de la tarea no se modifican.

FULL

INCREMENTAL

Se modifican todas las entradas del ámbito del trabajo.

Si una entrada existe en Dataplex Universal Catalog, pero no se incluye en el archivo de importación de metadatos, se elimina cuando ejecutas el trabajo de metadatos.

Un aspecto solo se modifica si el archivo de importación de metadatos incluye una referencia al aspecto en los campos updateMask y aspectKeys. Consulta la estructura de un elemento de importación.

Importar solo aspectos

NONE

INCREMENTAL

Los aspectos se modifican si forman parte del ámbito del trabajo y si el archivo de importación de metadatos incluye una referencia a los aspectos en el campo aspectKeys. Consulta la estructura de un elemento de importación.

El resto de los metadatos que pertenecen a las entradas del ámbito de la tarea no se modifican.

El modo de sincronización se especifica al crear un trabajo de metadatos.

Archivo de importación de metadatos

El archivo de importación de metadatos es una colección de las entradas y los aspectos que quieres modificar. Define los valores que se deben asignar a todos los campos que pertenecen a estas entradas y aspectos. Prepara el archivo antes de ejecutar un trabajo de importación de metadatos.

Se aplican las siguientes directrices generales:

Puede proporcionar varios archivos de importación de metadatos en el mismo trabajo de metadatos.
Cuando ejecutas una tarea de metadatos de sincronización de entradas completa, las entradas que proporcionas en el archivo sustituyen por completo a todas las entradas de los recursos que se encuentren en el ámbito de la tarea. Esto significa que debes incluir valores para todas las entradas de un trabajo, no solo los valores que quieras añadir o actualizar. Para obtener una lista de las entradas actuales de tu proyecto y usarla como punto de partida, utiliza el método de la API entries.list.

Precaución: Si hay una entrada en Dataplex Universal Catalog, pero no se incluye en el archivo de importación de metadatos, se eliminará cuando ejecutes el trabajo de metadatos. Si el archivo de importación de metadatos no contiene datos, se eliminarán todas las entradas y los aspectos que pertenezcan al ámbito del trabajo.
Debes proporcionar un archivo de importación de metadatos como parte de una tarea de metadatos. Si quieres eliminar todos los datos de las entradas que están dentro del ámbito del trabajo, proporciona un archivo de importación de metadatos vacío.
Todas las entradas y los aspectos que incluyas en el archivo deben pertenecer a los grupos de entradas, los tipos de entradas y los tipos de aspectos que definas en el ámbito del trabajo.

Siga las directrices detalladas de las secciones siguientes para crear un archivo de importación de metadatos.

Estructura del archivo

Cada línea del archivo de importación de metadatos contiene un objeto JSON que corresponde a un elemento de importación. Un elemento de importación es un objeto que describe los valores que se van a modificar de una entrada y sus aspectos adjuntos.

Puedes proporcionar varios elementos de importación en un único archivo de importación de metadatos. Sin embargo, no proporciones el mismo elemento de importación más de una vez en una tarea de metadatos. Usa un carácter de nueva línea (0x0a) para separar cada elemento de importación.

Un archivo de importación de metadatos con un carácter de salto de línea entre cada elemento de importación tiene el siguiente aspecto:

{ "entry": { "name": "entry 1", #Information about entry 1 }
{ "entry": { "name": "entry 2", #Information about entry 2 }

Estructura de un elemento de importación

Cada elemento de importación del archivo de importación de metadatos puede incluir los siguientes campos (consulta ImportItem). El siguiente ejemplo tiene saltos de línea para que sea más fácil de leer, pero cuando guardes el archivo, incluye un carácter de nueva línea solo después de cada elemento de importación. No incluya saltos de línea entre los campos de un mismo elemento de importación.

{
  "entry": {
    "name": "ENTRY_NAME",
    "entryType": "ENTRY_TYPE",
    "entrySource": {
      "resource": "RESOURCE",
      "system": "SYSTEM",
      "platform": "PLATFORM",
      "displayName": "DISPLAY_NAME",
      "description": "DESCRIPTION",
      "createTime": "ENTRY_CREATE_TIMESTAMP",
      "updateTime": "ENTRY_UPDATE_TIMESTAMP"
    },
    "aspects": {
      "ASPECT": {
        "data": {
          "KEY": "VALUE"
        },
        "aspectSource": {
          "createTime": "ASPECT_CREATE_TIMESTAMP",
          "updateTime": "ASPECT_UPDATE_TIMESTAMP"
        }
      },
      # Additional aspect maps
    },
    "parentEntry": "PARENT_ENTRY",
    "fullyQualifiedName": "FULLY_QUALIFIED_NAME"
  },
  "updateMask": "UPDATE_MASK_FIELDS",
  "aspectKeys": [
    "ASPECT_KEY",
    # Additional aspect keys
  ],
}

Haz los cambios siguientes:

entry: información sobre una entrada y sus aspectos adjuntos. En un trabajo de importación de metadatos solo de aspectos, Dataplex Universal Catalog ignora todos los campos opcionales de una entrada, excepto los mapas de aspectos.
- ENTRY_NAME: nombre de recurso relativo de la entrada, con el formato projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID/entries/ENTRY_ID.
- ENTRY_TYPE: nombre de recurso relativo del tipo de entrada que se ha usado para crear esta entrada, con el formato projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID.
- entrySource: información del sistema de origen sobre el recurso de datos que representa la entrada:
  - RESOURCE: nombre del recurso en el sistema de origen.
  - SYSTEM: el nombre del sistema de origen.
  - PLATFORM: la plataforma que contiene el sistema de origen.
  - DISPLAY_NAME: un nombre visible fácil de usar.
  - DESCRIPTION: una descripción de la entrada.
  - ENTRY_CREATE_TIMESTAMP: la hora en la que se creó la entrada en el sistema de origen.
  - ENTRY_UPDATE_TIMESTAMP: la hora en la que se actualizó la entrada en el sistema de origen.
- aspects: los aspectos que están asociados a la entrada. El objeto aspect y sus datos se denominan mapa de aspectos.
  - ASPECT: un aspecto asociado a la entrada. En función de cómo se adjunte el aspecto a la entrada, utilice uno de los siguientes formatos:
    - Si el aspecto se adjunta directamente a la entrada, proporcione el nombre de recurso relativo de su tipo de aspecto, con el formato PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID.
    - Si el aspecto está asociado a la ruta de la entrada, proporciona la ruta del tipo de aspecto con el formato PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID@PATH.
  - KEY y VALUE: el contenido del aspecto, según su plantilla de metadatos de tipo de aspecto. El contenido debe estar codificado en UTF-8. El tamaño máximo del campo es de 120 KB. El diccionario data es obligatorio, aunque esté vacío.
  - ASPECT_CREATE_TIMESTAMP: la hora en la que se creó el aspecto en el sistema de origen.
  - ASPECT_UPDATE_TIMESTAMP: hora en la que se actualizó el aspecto en el sistema de origen.
- PARENT_ENTRY: el nombre del recurso de la entrada principal.
- FULLY_QUALIFIED_NAME: un nombre para la entrada al que pueda hacer referencia un sistema externo. Consulta Nombres completos.
UPDATE_MASK_FIELDS: los campos que se van a actualizar, en rutas relativas al recurso Entry. Separe cada campo con una coma.

En un trabajo de sincronización de entradas completo, Dataplex Universal Catalog incluye las rutas de todos los campos de una entrada que se pueden modificar, incluidos los aspectos. El campo updateMask se ignora cuando se crea o se vuelve a crear una entrada.

En un trabajo de metadatos de solo aspectos, asigna el valor aspects.
ASPECT_KEY: los aspectos que se van a modificar. Admite las siguientes sintaxis:
- ASPECT_TYPE_REFERENCE: coincide con el tipo de aspecto de los aspectos que se adjuntan directamente a la entrada.
- ASPECT_TYPE_REFERENCE@PATH: coincide con el tipo de aspecto y la ruta especificada.
- ASPECT_TYPE_REFERENCE@*: coincide con el tipo de aspecto de todas las rutas.
- *@PATH: coincide con todos los tipos de aspectos de la ruta especificada.
Sustituye ASPECT_TYPE_REFERENCE por una referencia al tipo de aspecto, con el formato PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID.

En un trabajo de sincronización de entradas completas, si dejas este campo vacío, se tratará como si especificaras exactamente los aspectos que están presentes en la entrada especificada. Dataplex Universal Catalog añade implícitamente las claves de todos los aspectos necesarios de una entrada.

Requisitos de los archivos

El archivo de importación de metadatos debe cumplir los siguientes requisitos:

El archivo debe tener el formato JSON Lines, que es un archivo JSON delimitado por líneas nuevas. Utiliza un carácter de nueva línea (0x0a) para separar cada elemento de importación.
El archivo debe usar la codificación de caracteres UTF-8.
Las extensiones de archivo admitidas son .jsonl y .json.
El tamaño de cada archivo de importación de metadatos debe ser inferior a 1 GiB. El tamaño total máximo de todos los datos de la tarea de metadatos es de 3 GB. Esto incluye todos los archivos y metadatos asociados al trabajo.
Los tipos de entrada y de aspecto que especifiques en el archivo deben formar parte del ámbito del trabajo de metadatos.
El archivo debe subirse a un segmento de Cloud Storage. No guardes el archivo en una carpeta llamada CLOUD_STORAGE_URI/deletions/.

Lógica de comparación

Dataplex Universal Catalog determina qué entradas y aspectos se deben modificar comparando los valores y las marcas de tiempo que proporcione en el archivo de importación de metadatos con los valores y las marcas de tiempo que ya haya en su proyecto.

A grandes rasgos, Dataplex Universal Catalog actualiza los valores de tu proyecto cuando al menos un cambio propuesto en el archivo de importación de metadatos modifica el estado de tu proyecto al ejecutar el trabajo, sin introducir datos obsoletos. El cambio propuesto debe mencionarse en el campo updateMask o en el campo aspectKeys del archivo de importación de metadatos.

La lógica de comparación varía en función del tipo de trabajo de importación de metadatos que ejecutes.

Tarea de sincronización completa de entradas

En un trabajo de sincronización de metadatos de entrada completa, Dataplex Universal Catalog hace una de las siguientes acciones por cada entrada que forma parte del ámbito del trabajo:

Crea una entrada y aspectos adjuntos. Si el archivo de importación de metadatos incluye una entrada que no existe en tu proyecto, Dataplex Universal Catalog crea la entrada y los aspectos adjuntos.
Elimina una entrada y los aspectos adjuntos. Si hay una entrada en tu proyecto, pero el archivo de importación de metadatos no la incluye, Dataplex Universal Catalog la elimina y también los aspectos asociados de tu proyecto.
Actualiza una entrada y los aspectos adjuntos. Si una entrada existe tanto en el archivo de importación de metadatos como en su proyecto, Dataplex Universal Catalog evalúa las marcas de tiempo de la fuente de la entrada y las marcas de tiempo de la fuente del aspecto asociadas a la entrada para determinar qué valores se deben modificar. A continuación, Dataplex Universal Catalog hace una o varias de las siguientes acciones:
- Vuelve a crear la entrada. Si la marca de tiempo de creación de la fuente de la entrada del archivo de importación de metadatos es más reciente que la marca de tiempo correspondiente de su proyecto, Dataplex Universal Catalog vuelve a crear la entrada en su proyecto.
- Actualiza la entrada. Si la marca de tiempo de la actualización de la fuente de la entrada del archivo de importación de metadatos es más reciente que la marca de tiempo correspondiente de su proyecto, Dataplex Universal Catalog actualiza la entrada de su proyecto.
- Crea un aspecto. Si un aspecto no existe en tu proyecto y se incluye en un mapa de aspectos, en el campo de máscara de actualización y en el campo de claves de aspecto del archivo de importación de metadatos, Dataplex Universal Catalog crea el aspecto.
- Elimina un aspecto. Si un aspecto existe en tu proyecto y se incluye en el campo update_mask y en el campo aspect_keys del archivo de importación de metadatos, pero no se incluye en un mapa de aspectos, Dataplex Universal Catalog elimina el aspecto.
- Actualiza un aspecto. Si un aspecto existe en tu proyecto y se incluye en un mapa de aspectos, en el campo de máscara de actualización y en el campo de claves de aspecto del archivo de importación de metadatos, y la marca de tiempo de actualización de la fuente del aspecto del archivo de importación de metadatos es más reciente que la marca de tiempo correspondiente de tu proyecto, Dataplex Universal Catalog actualiza el aspecto.
  
  Si no se proporciona una marca de tiempo de actualización de la fuente de aspectos en el archivo de importación de metadatos, pero la entrada correspondiente está marcada para una actualización, Dataplex Universal Catalog también actualiza el aspecto.
  
  Sin embargo, si al menos un aspecto del archivo de importación de metadatos tiene una marca de tiempo anterior a la marca de tiempo correspondiente de tu proyecto, Dataplex Universal Catalog no hará ningún cambio en la entrada adjunta.

Trabajo de aspecto

En un trabajo de metadatos de solo aspectos, Dataplex Universal Catalog hace una de las siguientes acciones por cada aspecto que forma parte del ámbito del trabajo:

Crea un aspecto. Si un aspecto no existe en tu proyecto y se incluye en un mapa de aspectos, en el campo de máscara de actualización y en el campo de claves de aspecto del archivo de importación de metadatos, Dataplex Universal Catalog crea el aspecto.
Elimina un aspecto. En el caso de los aspectos opcionales, si el aspecto existe en tu proyecto y se incluye en el campo update_mask y en el campo aspect_keys del archivo de importación de metadatos, pero no se incluye en un mapa de aspectos, Dataplex Universal Catalog elimina el aspecto.

Los aspectos obligatorios no se pueden eliminar.
Actualiza un aspecto. Si un aspecto existe en tu proyecto y se incluye en un mapa de aspectos, en el campo de máscara de actualización y en el campo de claves de aspecto del archivo de importación de metadatos, y la marca de tiempo de actualización de la fuente del aspecto del archivo de importación de metadatos es más reciente que la marca de tiempo correspondiente de tu proyecto, Dataplex Universal Catalog actualiza el aspecto.

Si no se proporciona una marca de tiempo de actualización de la fuente de aspectos en el archivo de importación de metadatos, Dataplex Universal Catalog también actualiza el aspecto.

Dataplex Universal Catalog actualiza los aspectos en función de la marca de tiempo de actualización de la fuente del aspecto, independientemente de la marca de tiempo de actualización de la fuente de la entrada correspondiente.

Crear un archivo de importación de metadatos

Antes de importar metadatos, crea un archivo de importación de metadatos para tu trabajo. Sigue estos pasos:

Prepara un archivo de importación de metadatos siguiendo las directrices que se describen anteriormente en este documento.
Sube el archivo a un segmento de Cloud Storage.

Puede proporcionar varios archivos de importación de metadatos en el mismo trabajo de metadatos. Para proporcionar varios archivos, guárdalos en el mismo segmento de Cloud Storage. Cuando ejecutas el trabajo, especificas un contenedor, no un archivo concreto. Dataplex Universal Catalog importa metadatos de todos los archivos que se guardan en el segmento, incluidos los que están en subcarpetas.

Ejecutar una tarea de importación de metadatos

Después de crear un archivo de importación de metadatos, ejecuta un trabajo de importación de metadatos mediante la API.

REST

Para importar metadatos, usa el método metadataJobs.create.

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

PROJECT_NUMBER: tu Google Cloud número de proyecto o ID de proyecto.
LOCATION_ID: la Google Cloud ubicación, como us-central1.
METADATA_JOB_ID: opcional. El ID de la tarea de metadatos.
CLOUD_STORAGE_URI: el URI del segmento o la carpeta de Cloud Storage que contiene los archivos de importación de metadatos. Para obtener más información sobre los requisitos de los archivos, consulte Archivo de importación de metadatos.
ENTRY_GROUP: el nombre de recurso relativo de los grupos de entradas que están incluidos en el trabajo, con el formato projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID. Para obtener más información, consulta Ámbito de trabajo.
ENTRY_TYPE: nombre de recurso relativo de un tipo de entrada que está en el ámbito del trabajo, con el formato projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID. Para obtener más información, consulta Ámbito de trabajo.
ASPECT_TYPE: nombre de recurso relativo de un tipo de aspecto que está en el ámbito del trabajo, con el formato projects/PROJECT_ID_OR_NUMBER/locations/LOCATION_ID/aspectTypes/ASPECT_TYPE_ID. Es opcional al crear una tarea de sincronización de entradas completas y obligatorio al crear una tarea de sincronización de aspectos. Para obtener más información, consulta Ámbito de trabajo.
ENTRY_SYNC_MODE: el modo de sincronización de la entrada, como FULL o NONE. Para obtener más información, consulta la sección Modo de sincronización.
LOG_LEVEL: el nivel de los registros que se van a capturar, como INFO o DEBUG. Para obtener más información, consulta el artículo Ver registros de trabajos y solucionar problemas.

Método HTTP y URL:

POST https://dataplex.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION_ID/metadataJobs?metadataJobId=METADATA_JOB_ID

Cuerpo JSON de la solicitud:

{
  "type": IMPORT,
  "import_spec": {
    "source_storage_uri": "gs://CLOUD_STORAGE_URI/",
    "scope": {
      "entryGroups": [
        "ENTRY_GROUP"
      ],
      "entry_types": [
        "ENTRY_TYPE"
      ],
      "aspect_types": [
        "ASPECT_TYPE"
      ]
    },
    "entry_sync_mode": ENTRY_SYNC_MODE,
    "aspect_sync_mode": INCREMENTAL,
    "log_level": LOG_LEVEL
  }
}

Para enviar tu solicitud, despliega una de estas opciones:

curl (Linux, macOS o Cloud Shell)

Nota: En el siguiente comando se presupone que has iniciado sesión en la CLI de gcloud con tu cuenta de usuario ejecutando gcloud init o gcloud auth login , o bien usando Cloud Shell, que inicia sesión automáticamente en la CLI de gcloud . Para comprobar qué cuenta está activa, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataplex.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION_ID/metadataJobs?metadataJobId=METADATA_JOB_ID"

PowerShell (Windows)

Nota: El siguiente comando presupone que has iniciado sesión en la CLI de gcloud con tu cuenta de usuario ejecutando gcloud init o gcloud auth login . Para comprobar qué cuenta está activa, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataplex.googleapis.com/v1/projects/PROJECT_NUMBER/locations/LOCATION_ID/metadataJobs?metadataJobId=METADATA_JOB_ID" | Select-Object -Expand Content

La respuesta identifica una operación de larga duración.

Obtener detalles sobre un trabajo de metadatos

Para obtener información sobre un trabajo de metadatos, como el estado del trabajo y el número de entradas que se han modificado, sigue estos pasos. Para obtener más información sobre cómo solucionar problemas de un trabajo fallido, consulta la sección Ver registros de trabajos y solucionar problemas de este documento.

REST

Para obtener información sobre una tarea de metadatos, usa el método metadataJobs.get.

Obtener una lista de trabajos de metadatos

Puedes obtener una lista de los trabajos de metadatos más recientes. Los trabajos antiguos que han alcanzado un estado terminal se eliminan periódicamente del sistema.

REST

Para obtener una lista de las tareas de metadatos más recientes, usa el método metadataJobs.list.

Cancelar una tarea de metadatos

Puedes cancelar un trabajo de metadatos que no quieras ejecutar.

REST

Para cancelar un trabajo de metadatos, usa el método metadataJobs.cancel.

Ver registros de tareas y solucionar problemas

Usa Cloud Logging para ver los registros de una tarea de metadatos. Para obtener más información, consulta Monitorizar los registros de Dataplex Universal Catalog.

El nivel de registro se configura al crear un trabajo de metadatos. Están disponibles los siguientes niveles de registro:

INFO: proporciona registros a nivel general del trabajo. Incluye registros agregados sobre los elementos de importación, pero no especifica qué elemento de importación tiene un error.
DEBUG: proporciona registros detallados de cada elemento importado. Usa el registro de nivel de depuración para solucionar problemas con elementos de importación específicos. Por ejemplo, usa el registro de nivel de depuración para identificar los recursos que faltan en el ámbito del trabajo, las entradas o los aspectos que no se ajustan al tipo de entrada o al tipo de aspecto asociados, u otras configuraciones incorrectas del archivo de importación de metadatos.

Nota: En función del tamaño de tu trabajo de metadatos y del número de registros que se generen, el registro de nivel de depuración puede conllevar costes adicionales. Para obtener más información, consulta los precios de Google Cloud Observability.

Errores de validación

Universal Catalog de Dataplex valida los archivos de importación de metadatos con los metadatos actuales de tu proyecto. Si hay un problema de validación, el estado del trabajo puede devolver uno de los siguientes estados:

FAILED: se produce cuando el archivo de importación de metadatos tiene un error. Dataplex Universal Catalog no importa ningún metadato y la tarea falla. Estos son algunos ejemplos de errores en el archivo de importación de metadatos:
- No se puede analizar un elemento del archivo para convertirlo en un elemento de importación válido
- Una entrada o un aspecto del archivo pertenece a un grupo de entradas, un tipo de entrada o un tipo de aspecto que no forma parte del ámbito del trabajo
- Se ha especificado el mismo nombre de entrada más de una vez en el trabajo
- Un tipo de aspecto especificado en un mapa de aspectos o en las claves de aspecto no usa el formato PROJECT_ID_OR_NUMBER.LOCATION_ID.ASPECT_TYPE_ID@OPTIONAL_PATH.
- Se ha marcado para eliminar un aspecto obligatorio
SUCCEEDED_WITH_ERRORS: se produce cuando el archivo de importación de metadatos se puede analizar correctamente, pero la importación de un elemento del archivo provocaría que una entrada de tu proyecto se encontrara en un estado incoherente. Dataplex Universal Catalog ignora estas entradas, pero importa el resto de los metadatos del archivo.

Usa los registros de tareas para solucionar el error.

Importar metadatos mediante una canalización personalizada Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Pasos generales

Antes de empezar

Roles obligatorios

Crear Google Cloud recursos

Componentes de una tarea de importación de metadatos

Ámbito de la tarea

Modo de sincronización

Archivo de importación de metadatos

Estructura del archivo

Estructura de un elemento de importación

Requisitos de los archivos

Lógica de comparación

Tarea de sincronización completa de entradas

Trabajo de aspecto

Crear un archivo de importación de metadatos

Ejecutar una tarea de importación de metadatos

REST

curl (Linux, macOS o Cloud Shell)

PowerShell (Windows)

Obtener detalles sobre un trabajo de metadatos

REST

Obtener una lista de trabajos de metadatos

REST

Cancelar una tarea de metadatos

REST

Ver registros de tareas y solucionar problemas

Errores de validación

Siguientes pasos

Importar metadatos mediante una canalización personalizada