En esta página se explica cómo crear un almacén de datos para contenido multimedia e importar datos en él.
Antes de empezar
Asegúrate de hacer lo siguiente:
Consulta los conceptos relacionados con los datos multimedia y el esquema:
Decide si vas a usar el esquema de Google predefinido para tus metadatos multimedia o tu propio esquema.
Si usas tu propio esquema, asegúrate de que tenga campos que se correspondan bien con las propiedades multimedia del esquema personalizado:
title
,url
,category
, etc.Coloca tus documentos multimedia en el esquema JSON y sube los datos a BigQuery o Cloud Storage.
Consulta el artículo Acerca de los eventos de usuario multimedia y prepara los eventos de usuario para importarlos. Los eventos de usuario son obligatorios en todas las aplicaciones multimedia.
Elige el procedimiento según tu fuente de datos
Para crear un almacén de datos multimedia e importar documentos, vaya a la sección de la fuente que quiera usar:
Importar de BigQuery
Consola
Para usar la consola Google Cloud para crear un almacén de datos multimedia e importar documentos y eventos de usuario desde BigQuery, sigue estos pasos:
En la Google Cloud consola, ve a la página Aplicaciones de IA.
Vaya a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona BigQuery.
Selecciona Media - BigQuery table with structured media data (Multimedia - Tabla de BigQuery con datos multimedia estructurados) como tipo de datos que vas a importar.
En el campo Ruta de BigQuery, haga clic en Examinar, seleccione los datos de BigQuery que haya preparado para la ingesta y, a continuación, haga clic en Seleccionar. También puede introducir la ubicación directamente en el campo Ruta de BigQuery.
Si sus datos están en el esquema predefinido de Google, elija Esquema predefinido de Google, haga clic en Continuar y vaya al paso 11.
Si tus datos están en tu propio esquema, elige Esquema personalizado y haz clic en Continuar.
Revisa el esquema detectado y usa el menú Propiedades clave para asignar propiedades a los campos del esquema.
Haz clic en Continuar.
No podrás continuar hasta que se asignen las propiedades de clave obligatorias, que se indican con marcas de verificación verdes
en lugar de marcas de advertencia naranjas .Asigna un nombre al almacén de datos y haz clic en Crear.
Importar desde Cloud Storage
Consola
Para usar la Google Cloud consola y crear un almacén de datos multimedia e importar documentos de Cloud Storage, sigue estos pasos:
En la Google Cloud consola, ve a la página Aplicaciones de IA.
Vaya a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona Cloud Storage.
Selecciona Datos multimedia estructurados (JSONL que contiene archivos multimedia) como tipo de datos que vas a importar.
En la sección Selecciona la carpeta o el archivo que quieras importar, elige Carpeta o Archivo.
Haz clic en Explorar, elige los datos que hayas preparado para la ingesta y, a continuación, haz clic en Seleccionar. También puedes introducir la ubicación directamente en el campo
gs://
.Si sus datos están en el esquema predefinido de Google, elija Esquema predefinido de Google, haga clic en Continuar y vaya al paso 11.
Si tus datos están en tu propio esquema, elige Esquema personalizado y haz clic en Continuar.
Revisa el esquema detectado y usa el menú Propiedades clave para asignar propiedades a los campos del esquema.
Haz clic en Continuar.
No podrás continuar hasta que se asignen las propiedades de clave obligatorias, que se indican con marcas de verificación verdes
en lugar de marcas de advertencia naranjas .Asigna un nombre al almacén de datos y haz clic en Crear.
Importar documentos mediante la API
Si utiliza el esquema predefinido de Google, puede importar sus documentos haciendo una solicitud POST
al método REST Documents:import
, con el objeto InlineSource
para especificar sus datos.
Para ver un ejemplo del formato de documento JSON, consulta Formato de documento JSON.
Requisitos de importación
Estos son los requisitos para importar documentos multimedia mediante la API:
Cada documento debe estar en una línea independiente.
El número máximo de documentos en una sola importación es de 100.
Procedimiento
Para importar documentos multimedia mediante la API, sigue estos pasos:
Crea un almacén de datos.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "MEDIA" }'
Haz los cambios siguientes:
PROJECT_ID
: el ID de tu proyecto de Google Cloud .DATA_STORE_ID
: el ID del almacén de datos de Vertex AI Search que quieres crear. Este ID solo puede contener letras en minúscula, números, guiones bajos y guiones.DATA_STORE_DISPLAY_NAME
: el nombre visible del almacén de datos de Vertex AI Search que quieres crear.
Crea el archivo JSON de tu documento y llámalo
./data.json
:{ "inlineSource": { "documents": [ { DOCUMENT_1 }, { DOCUMENT_2 } ] } }
Llama al método POST:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ --data @./data.json \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
Haz los cambios siguientes:
PROJECT_ID
: el ID de tu proyecto.DATA_STORE_ID
: el ID de tu almacén de datos.
Formato de documento JSON
En los siguientes ejemplos se muestran entradas Document
en formato JSON.
Proporciona todo el documento en una sola línea. Cada documento debe estar en una línea independiente.
Campos obligatorios:
{ "id": "sample-01", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Objeto completo:
{ "id": "child-sample-0", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Monitorizar la importación y ver los datos
Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del almacén de datos para ver los detalles en la página Datos.
Haga clic en la pestaña Actividad.
Cuando el estado de la columna de la pestaña Actividad cambie de En curso a Importación completada, la ingestión habrá finalizado.
En función del tamaño de los datos, la ingestión puede tardar varios minutos o varias horas.
Haz clic en Documentos para ver los datos que has importado.
Importar eventos de usuario
Para importar eventos de usuario a tu almacén de datos de medios, sigue estos pasos:
- Sigue las instrucciones de Importar historial de eventos de usuario.
Siguientes pasos
Mantén actualizados los datos de tus documentos.
Lo ideal es que actualice su almacén de datos a diario importando datos recientes. Si programa importaciones periódicas, evitará que la calidad del modelo se deteriore con el tiempo. Puedes usar Google Cloud Scheduler para automatizar las importaciones.
Puede actualizar solo los documentos nuevos o modificados, o bien importar todo el almacén de datos. Si importa documentos que ya están en su almacén de datos, no se volverán a añadir. Se actualiza cualquier documento que haya cambiado.
Mantenga actualizados los datos de eventos de usuario.
Es especialmente importante que mantengas actualizados los eventos de usuario. La aplicación de recomendaciones deja de funcionar si no hay suficientes eventos de usuario recientes para cumplir los requisitos de datos.
Para obtener información sobre cómo importar datos de eventos de usuario en tiempo real, consulte el artículo Registrar eventos de usuario en tiempo real.
Para obtener información sobre cómo monitorizar los requisitos de los eventos de usuario, consulta el artículo Comprobar la calidad de los datos de las recomendaciones de contenido multimedia.