En esta página, se explica cómo crear un almacén de datos para contenido multimedia y cómo importar datos a él.
Antes de comenzar
Asegúrate de hacer lo siguiente:
Revisa los conceptos relacionados con los datos de medios y el esquema:
Decide si usarás el esquema predefinido de Google para tus datos multimedia o tu propio esquema.
Si usas tu propio esquema, asegúrate de que tenga campos que se asignen bien a las propiedades de clave de contenido multimedia:
title
,url
,category
, etcétera.Coloca tus documentos multimedia en el esquema JSON y sube los datos a BigQuery o Cloud Storage.
Revisa Acerca de los eventos de usuario y prepara tus eventos de usuario para la importación. Los eventos del usuario son obligatorios para las recomendaciones de contenido multimedia y se recomiendan para la búsqueda de contenido multimedia.
Elige el procedimiento según tu fuente de datos
Para crear un almacén de datos multimedia y, luego, importar documentos, ve a la sección de la fuente que planeas usar:
Importa desde BigQuery
Console
Para usar la consola de Google Cloud y crear un almacén de datos multimedia, así como importar documentos y eventos de usuario desde BigQuery, sigue estos pasos:
En la consola de Google Cloud, ve a la página Agent Builder.
Ve a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona BigQuery.
Selecciona Multimedia: Tabla de BigQuery con datos estructurados de multimedia como el tipo de datos que importas.
En el campo Ruta de BigQuery, haz clic en Explorar, selecciona los datos de BigQuery que preparaste para transferir y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación directamente en el campo Ruta de BigQuery.
Si tus datos están en el esquema predefinido de Google, elige Esquema predefinido de Google, haz clic en Continuar y avanza al paso 11.
Si tus datos están en tu propio esquema, elige Esquema personalizado y haz clic en Continuar.
Revisa el esquema detectado y usa el menú Key properties para asignar propiedades a los campos de tu esquema.
Haga clic en Continuar.
No podrás continuar hasta que se asignen las propiedades clave requeridas, lo que se indica con marcas de verificación verdes
en lugar de marcas de advertencia naranjas .Ingresa un nombre para tu almacén de datos y haz clic en Crear.
Importar desde Cloud Storage
Console
Para usar la consola de Google Cloud y crear un almacén de datos multimedia e importar documentos desde Cloud Storage, sigue estos pasos:
En la consola de Google Cloud, ve a la página Agent Builder.
Ve a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona Cloud Storage.
Selecciona Datos estructurados de multimedia (JSONL que contiene archivos multimedia) como el tipo de datos que importas.
En la sección Selecciona una carpeta o un archivo que desees importar, selecciona Carpeta o Archivo.
Haz clic en Explorar y elige los datos que preparaste para transferir y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación directamente en el campo
gs://
.Si tus datos están en el esquema predefinido de Google, elige Esquema predefinido de Google, haz clic en Continuar y avanza al paso 11.
Si tus datos están en tu propio esquema, elige Esquema personalizado y haz clic en Continuar.
Revisa el esquema detectado y usa el menú Key properties para asignar propiedades a los campos de tu esquema.
Haga clic en Continuar.
No podrás continuar hasta que se asignen las propiedades clave requeridas, lo que se indica con marcas de verificación verdes
en lugar de marcas de advertencia naranjas .Ingresa un nombre para tu almacén de datos y haz clic en Crear.
Importa documentos con la API
Si usas el esquema predefinido de Google, puedes importar tus documentos realizando una solicitud POST
al método de REST Documents:import
con el objeto InlineSource
para especificar tus datos.
Para ver un ejemplo del formato de documento JSON, consulta Formato de documento JSON.
Requisitos de importación
Estos son los requisitos para importar documentos multimedia con la API:
Cada documento debe estar en su propia línea.
La cantidad máxima de documentos en una sola importación es de 100.
Procedimiento
Para importar documentos multimedia con la API, haz lo siguiente:
Crea un almacén de datos.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "MEDIA" }'
Reemplaza lo siguiente:
PROJECT_ID
: El ID del proyecto de Google Cloud.DATA_STORE_ID
: El ID del almacén de datos de Vertex AI Search que deseas crear. Este ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.DATA_STORE_DISPLAY_NAME
: Es el nombre visible del almacén de datos de Vertex AI Search que deseas crear.
Crea el archivo JSON para tu documento y llámalo
./data.json
:{ "inlineSource": { "documents": [ { DOCUMENT_1 }, { DOCUMENT_2 } ] } }
Llama al método POST:
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json; charset=utf-8" \ --data @./data.json \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
- PROJECT_ID: Es el ID del proyecto
- DATA_STORE_ID: Es el ID de tu almacén de datos.
Formato de documento JSON
En los siguientes ejemplos, se muestran entradas de Document
en formato JSON.
Proporciona un documento completo en una sola línea. Cada documento debe estar en su propia línea.
Campos obligatorios mínimos:
{ "id": "sample-01", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Objeto completo:
{ "id": "child-sample-0", "schemaId": "default_schema", "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}" }
Supervisa la importación y visualiza los datos
Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre de tu almacén de datos para ver los detalles en la página Datos.
Haz clic en la pestaña Actividad.
Cuando la columna de estado de la pestaña Actividad cambie de En curso a Importación completada, se habrá completado la transferencia.
Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.
Haz clic en Documentos para ver los datos que importaste.
Importar eventos de usuario
Los eventos del usuario son obligatorios si deseas usar tu almacén de datos con una app de recomendaciones de contenido multimedia.
Aunque los eventos del usuario no son obligatorios para las apps de búsqueda de contenido multimedia, incluye eventos del usuario para obtener resultados de la búsqueda de mejor calidad.
Para importar eventos de usuario a tu almacén de datos multimedia, sigue estos pasos:
- Sigue las instrucciones en Importa eventos históricos de usuarios.
¿Qué sigue?
Mantén actualizados los datos de tus documentos.
Lo ideal es que actualices tu almacén de datos a diario importando datos actualizados. La programación de importaciones periódicas evita que la calidad del modelo se deteriore con el tiempo. Puedes usar Google Cloud Scheduler para automatizar las importaciones.
Solo puedes actualizar los documentos nuevos o modificados, o puedes importar todo el almacén de datos. Si importas documentos que ya están en tu almacén de datos, no se vuelven a agregar. Se actualiza cualquier documento que haya cambiado.
Mantén actualizados tus datos de eventos de usuario.
Es particularmente importante que mantengas actualizados tus eventos de usuario. La app de recomendaciones deja de funcionar si no hay suficientes eventos de usuarios nuevos para cumplir con los requisitos de datos.
Para obtener información sobre cómo importar datos de eventos de usuarios en tiempo real, consulta Cómo registrar eventos de usuarios en tiempo real.
Para obtener información sobre cómo supervisar los requisitos de los eventos del usuario, consulta Cómo verificar la calidad de los datos de las recomendaciones de contenido multimedia.