Crea un almacén de datos multimedia

En esta página, se explica cómo crear un almacén de datos para contenido multimedia y cómo importar datos a él.

Antes de comenzar

Asegúrate de hacer lo siguiente:

Elige el procedimiento según tu fuente de datos

Para crear un almacén de datos multimedia y, luego, importar documentos, ve a la sección de la fuente que planeas usar:

Importa desde BigQuery

Console

Para usar la consola de Google Cloud y crear un almacén de datos multimedia, así como importar documentos y eventos de usuario desde BigQuery, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Agent Builder.

    Agent Builder

  2. Ve a la página Almacenes de datos.

  3. Haz clic en Crear almacén de datos.

  4. En la página Fuente, selecciona BigQuery.

  5. Selecciona Multimedia: Tabla de BigQuery con datos estructurados de multimedia como el tipo de datos que importas.

  6. En el campo Ruta de BigQuery, haz clic en Explorar, selecciona los datos de BigQuery que preparaste para transferir y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación directamente en el campo Ruta de BigQuery.

  7. Si tus datos están en el esquema predefinido de Google, elige Esquema predefinido de Google, haz clic en Continuar y avanza al paso 11.

  8. Si tus datos están en tu propio esquema, elige Esquema personalizado y haz clic en Continuar.

  9. Revisa el esquema detectado y usa el menú Key properties para asignar propiedades a los campos de tu esquema.

  10. Haga clic en Continuar.

    No podrás continuar hasta que se asignen las propiedades clave requeridas, lo que se indica con marcas de verificación verdes en lugar de marcas de advertencia naranjas .

  11. Ingresa un nombre para tu almacén de datos y haz clic en Crear.

Importar desde Cloud Storage

Console

Para usar la consola de Google Cloud y crear un almacén de datos multimedia e importar documentos desde Cloud Storage, sigue estos pasos:

  1. En la consola de Google Cloud, ve a la página Agent Builder.

    Agent Builder

  2. Ve a la página Almacenes de datos.

  3. Haz clic en Crear almacén de datos.

  4. En la página Fuente, selecciona Cloud Storage.

  5. Selecciona Datos estructurados de multimedia (JSONL que contiene archivos multimedia) como el tipo de datos que importas.

  6. En la sección Selecciona una carpeta o un archivo que desees importar, selecciona Carpeta o Archivo.

  7. Haz clic en Explorar y elige los datos que preparaste para transferir y, luego, haz clic en Seleccionar. Como alternativa, ingresa la ubicación directamente en el campo gs://.

  8. Si tus datos están en el esquema predefinido de Google, elige Esquema predefinido de Google, haz clic en Continuar y avanza al paso 11.

  9. Si tus datos están en tu propio esquema, elige Esquema personalizado y haz clic en Continuar.

  10. Revisa el esquema detectado y usa el menú Key properties para asignar propiedades a los campos de tu esquema.

  11. Haga clic en Continuar.

    No podrás continuar hasta que se asignen las propiedades clave requeridas, lo que se indica con marcas de verificación verdes en lugar de marcas de advertencia naranjas .

  12. Ingresa un nombre para tu almacén de datos y haz clic en Crear.

Importa documentos con la API

Si usas el esquema predefinido de Google, puedes importar tus documentos realizando una solicitud POST al método de REST Documents:import con el objeto InlineSource para especificar tus datos.

Para ver un ejemplo del formato de documento JSON, consulta Formato de documento JSON.

Requisitos de importación

Estos son los requisitos para importar documentos multimedia con la API:

  • Cada documento debe estar en su propia línea.

  • La cantidad máxima de documentos en una sola importación es de 100.

Procedimiento

Para importar documentos multimedia con la API, haz lo siguiente:

  1. Crea un almacén de datos.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    Reemplaza lo siguiente:

    • PROJECT_ID: El ID del proyecto de Google Cloud.
    • DATA_STORE_ID: El ID del almacén de datos de Vertex AI Search que deseas crear. Este ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.
    • DATA_STORE_DISPLAY_NAME: Es el nombre visible del almacén de datos de Vertex AI Search que deseas crear.
  2. Crea el archivo JSON para tu documento y llámalo ./data.json:

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. Llama al método POST:

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
    • PROJECT_ID: Es el ID del proyecto
    • DATA_STORE_ID: Es el ID de tu almacén de datos.

Formato de documento JSON

En los siguientes ejemplos, se muestran entradas de Document en formato JSON.

Proporciona un documento completo en una sola línea. Cada documento debe estar en su propia línea.

Campos obligatorios mínimos:

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Objeto completo:

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Supervisa la importación y visualiza los datos

  1. Para verificar el estado de la transferencia, ve a la página Almacenes de datos y haz clic en el nombre de tu almacén de datos para ver los detalles en la página Datos.

  2. Haz clic en la pestaña Actividad.

    Cuando la columna de estado de la pestaña Actividad cambie de En curso a Importación completada, se habrá completado la transferencia.

    Según el tamaño de tus datos, la transferencia puede tardar varios minutos o varias horas.

  3. Haz clic en Documentos para ver los datos que importaste.

Importar eventos de usuario

Los eventos del usuario son obligatorios si deseas usar tu almacén de datos con una app de recomendaciones de contenido multimedia.

Aunque los eventos del usuario no son obligatorios para las apps de búsqueda de contenido multimedia, incluye eventos del usuario para obtener resultados de la búsqueda de mejor calidad.

Para importar eventos de usuario a tu almacén de datos multimedia, sigue estos pasos:

¿Qué sigue?