Crear un almacén de datos multimedia

En esta página se explica cómo crear un almacén de datos para contenido multimedia e importar datos en él.

Antes de empezar

Asegúrate de hacer lo siguiente:

Elige el procedimiento según tu fuente de datos

Para crear un almacén de datos multimedia e importar documentos, vaya a la sección de la fuente que quiera usar:

Importar de BigQuery

Consola

Para usar la consola Google Cloud para crear un almacén de datos multimedia e importar documentos y eventos de usuario desde BigQuery, sigue estos pasos:

  1. En la Google Cloud consola, ve a la página Aplicaciones de IA.

    Aplicaciones de IA

  2. Vaya a la página Almacenes de datos.

  3. Haz clic en Crear almacén de datos.

  4. En la página Fuente, selecciona BigQuery.

  5. Selecciona Media - BigQuery table with structured media data (Multimedia - Tabla de BigQuery con datos multimedia estructurados) como tipo de datos que vas a importar.

  6. En el campo Ruta de BigQuery, haga clic en Examinar, seleccione los datos de BigQuery que haya preparado para la ingesta y, a continuación, haga clic en Seleccionar. También puede introducir la ubicación directamente en el campo Ruta de BigQuery.

  7. Si sus datos están en el esquema predefinido de Google, elija Esquema predefinido de Google, haga clic en Continuar y vaya al paso 11.

  8. Si tus datos están en tu propio esquema, elige Esquema personalizado y haz clic en Continuar.

  9. Revisa el esquema detectado y usa el menú Propiedades clave para asignar propiedades a los campos del esquema.

  10. Haz clic en Continuar.

    No podrás continuar hasta que se asignen las propiedades de clave obligatorias, que se indican con marcas de verificación verdes en lugar de marcas de advertencia naranjas .

  11. Asigna un nombre al almacén de datos y haz clic en Crear.

Importar desde Cloud Storage

Consola

Para usar la Google Cloud consola y crear un almacén de datos multimedia e importar documentos de Cloud Storage, sigue estos pasos:

  1. En la Google Cloud consola, ve a la página Aplicaciones de IA.

    Aplicaciones de IA

  2. Vaya a la página Almacenes de datos.

  3. Haz clic en Crear almacén de datos.

  4. En la página Fuente, selecciona Cloud Storage.

  5. Selecciona Datos multimedia estructurados (JSONL que contiene archivos multimedia) como tipo de datos que vas a importar.

  6. En la sección Selecciona la carpeta o el archivo que quieras importar, elige Carpeta o Archivo.

  7. Haz clic en Explorar, elige los datos que hayas preparado para la ingesta y, a continuación, haz clic en Seleccionar. También puedes introducir la ubicación directamente en el campo gs://.

  8. Si sus datos están en el esquema predefinido de Google, elija Esquema predefinido de Google, haga clic en Continuar y vaya al paso 11.

  9. Si tus datos están en tu propio esquema, elige Esquema personalizado y haz clic en Continuar.

  10. Revisa el esquema detectado y usa el menú Propiedades clave para asignar propiedades a los campos del esquema.

  11. Haz clic en Continuar.

    No podrás continuar hasta que se asignen las propiedades de clave obligatorias, que se indican con marcas de verificación verdes en lugar de marcas de advertencia naranjas .

  12. Asigna un nombre al almacén de datos y haz clic en Crear.

Importar documentos mediante la API

Si utiliza el esquema predefinido de Google, puede importar sus documentos haciendo una solicitud POST al método REST Documents:import, con el objeto InlineSource para especificar sus datos.

Para ver un ejemplo del formato de documento JSON, consulta Formato de documento JSON.

Requisitos de importación

Estos son los requisitos para importar documentos multimedia mediante la API:

  • Cada documento debe estar en una línea independiente.

  • El número máximo de documentos en una sola importación es de 100.

Procedimiento

Para importar documentos multimedia mediante la API, sigue estos pasos:

  1. Crea un almacén de datos.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    Haz los cambios siguientes:

    • PROJECT_ID: el ID de tu proyecto de Google Cloud .
    • DATA_STORE_ID: el ID del almacén de datos de Vertex AI Search que quieres crear. Este ID solo puede contener letras en minúscula, números, guiones bajos y guiones.
    • DATA_STORE_DISPLAY_NAME: el nombre visible del almacén de datos de Vertex AI Search que quieres crear.
  2. Crea el archivo JSON de tu documento y llámalo ./data.json:

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. Llama al método POST:

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"

    Haz los cambios siguientes:

    • PROJECT_ID: el ID de tu proyecto.
    • DATA_STORE_ID: el ID de tu almacén de datos.

Formato de documento JSON

En los siguientes ejemplos se muestran entradas Document en formato JSON.

Proporciona todo el documento en una sola línea. Cada documento debe estar en una línea independiente.

Campos obligatorios:

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Objeto completo:

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Monitorizar la importación y ver los datos

  1. Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del almacén de datos para ver los detalles en la página Datos.

  2. Haga clic en la pestaña Actividad.

    Cuando el estado de la columna de la pestaña Actividad cambie de En curso a Importación completada, la ingestión habrá finalizado.

    En función del tamaño de los datos, la ingestión puede tardar varios minutos o varias horas.

  3. Haz clic en Documentos para ver los datos que has importado.

Importar eventos de usuario

Para importar eventos de usuario a tu almacén de datos de medios, sigue estos pasos:

Siguientes pasos