Créer un datastore multimédia

Cette page explique comment créer un datastore multimédia et y importer des données.

Avant de commencer

Assurez-vous d'effectuer les opérations suivantes:

Choisissez la procédure en fonction de votre source de données

Pour créer un datastore multimédia et importer des documents, accédez à la section de la source que vous prévoyez d'utiliser :

Importer des données depuis BigQuery

Console

Pour utiliser la console Google Cloud afin de créer un data store multimédia et d'importer des documents et des événements utilisateur depuis BigQuery, procédez comme suit:

  1. Dans la console Google Cloud, accédez à la page Agent Builder.

    Agent Builder

  2. Accédez à la page Datastores.

  3. Cliquez sur Créer un datastore.

  4. Sur la page Source, sélectionnez BigQuery.

  5. Sélectionnez le genre Media - BigQuery table withstructured media data (Médias - Table BigQuery avec données multimédias structurées). de données que vous importez.

  6. Dans le champ Chemin d'accès BigQuery, cliquez sur Parcourir, puis sélectionnez les données BigQuery que vous préparés pour l'ingestion, puis cliquez sur Sélectionner. Vous pouvez également saisir l'emplacement directement dans le chemin d'accès BigQuery. .

  7. Si vos données se trouvent dans le schéma Google prédéfini, sélectionnez Schéma Google prédéfini, cliquez sur Continuer, puis passez à l'étape 11.

  8. Si vos données se trouvent dans votre propre schéma, sélectionnez Schéma personnalisé, puis cliquez sur Continuer.

  9. Examinez le schéma détecté et utilisez le menu Propriétés clés pour attribuer des propriétés aux champs de votre schéma.

  10. Cliquez sur Continuer.

    Vous ne pouvez pas continuer tant que les propriétés clés requises n'ont pas été mappées (indiquées par le symbole des coches vertes au lieu d'avertissements orange .

  11. Saisissez un nom pour votre data store, puis cliquez sur Créer.

Importer depuis Cloud Storage

Console

Pour créer un entrepôt de données multimédias et importer des documents à partir de Cloud Storage à l'aide de la console Google Cloud, procédez comme suit :

  1. Dans la console Google Cloud, accédez à la page Agent Builder.

    Agent Builder

  2. Accédez à la page Data stores.

  3. Cliquez sur Créer un datastore.

  4. Sur la page Source, sélectionnez Cloud Storage.

  5. Sélectionnez Données multimédias structurées (JSONL contenant des fichiers multimédias) comme type de données que vous importez.

  6. Dans la section Sélectionner un dossier ou un fichier à importer, sélectionnez Dossier ou Fichier.

  7. Cliquez sur Parcourir et sélectionnez les données dont vous disposez. préparé pour l'ingestion, puis cliquez sur Sélectionner. Vous pouvez également saisir le lieu directement dans le champ gs://.

  8. Si vos données se trouvent dans le schéma Google prédéfini, sélectionnez Google prédéfini schéma, cliquez sur Continuer et passez à l'étape 11.

  9. Si vos données se trouvent dans votre propre schéma, sélectionnez Schéma personnalisé, puis cliquez sur Continuer.

  10. Examinez le schéma détecté et utilisez le menu Propriétés clés pour attribuer des propriétés aux champs de votre schéma.

  11. Cliquez sur Continuer.

    Vous ne pouvez pas continuer tant que les propriétés clés requises n'ont pas été mappées (indiquées par le symbole des coches vertes au lieu d'avertissements orange .

  12. Attribuez un nom à votre data store, puis cliquez sur Créer.

Importer des documents à l'aide de l'API

Si vous utilisez le schéma prédéfini de Google, vous pouvez importer vos documents en envoyant une requête POST à la méthode REST Documents:import, à l'aide de l'objet InlineSource pour spécifier vos données.

Pour obtenir un exemple de format de document JSON, consultez Format de document JSON.

Exigences d'importation

Voici les conditions requises pour importer des documents multimédias à l'aide de l'API :

  • Chaque document doit figurer sur une ligne distincte.

  • Le nombre maximal de documents dans une même importation est de 100.

Procédure

Pour importer des documents multimédias à l'aide de l'API, procédez comme suit:

  1. Créer un data store

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    Remplacez les éléments suivants :

    • PROJECT_ID : ID de votre projet Google Cloud
    • DATA_STORE_ID: ID du data store Vertex AI Search que vous souhaitez créer. Cet ID ne peut contenir que des minuscules lettres, chiffres, traits de soulignement et traits d'union.
    • DATA_STORE_DISPLAY_NAME : nom à afficher du data store Vertex AI Search que vous souhaitez créer.
  2. Créez le fichier JSON de votre document et appelez-le ./data.json :

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. Appelez la méthode POST :

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
    • PROJECT_ID : ID de votre projet.
    • DATA_STORE_ID: ID de votre data store.

Format de document JSON

Les exemples suivants montrent des entrées Document au format JSON.

Indiquez l'intégralité du document sur une seule ligne. Chaque document doit être indépendant .

Champs obligatoires minimum :

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Objet complet :

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Surveiller l'importation et afficher les données

  1. Pour vérifier l'état de l'ingestion, accédez à la page Data stores (Data stores) et cliquez sur le nom de votre data store pour en afficher les détails sur la page Data (Données).

  2. Cliquez sur l'onglet Activité.

    Lorsque la colonne d'état de l'onglet Activité passe de En cours à Importation terminée, l'ingestion est terminée.

    Selon la taille de vos données, l'ingestion peut prendre de quelques minutes à plusieurs heures.

  3. Cliquez sur Documents pour afficher les données que vous avez importées.

Importer des événements utilisateur

Les événements utilisateur sont requis si vous souhaitez utiliser votre data store avec un média application de recommandations.

Bien que les événements utilisateur ne soient pas nécessaires pour les applications de recherche multimédia, inclure des événements utilisateur pour obtenir des résultats de recherche de meilleure qualité.

Pour importer des événements utilisateur dans votre data store multimédia:

Étape suivante

  • Créez une application de recommandations de médias ou de recherche de médias.

  • Actualisez régulièrement les données de vos documents.

    Idéalement, vous devriez mettre à jour votre data store quotidiennement, en important de nouvelles données. La programmation d'importations périodiques empêche la dégradation de la qualité du modèle au fil du temps. Vous pouvez utiliser Google Cloud Scheduler pour automatiser les importations.

    Vous ne pouvez mettre à jour que les documents nouveaux ou modifiés, ou importer l'intégralité du magasin de données. Si vous importez des documents qui figurent déjà dans votre entrepôt de données, ils ne sont pas ajoutés à nouveau. Tous les documents modifiés sont mis à jour.

  • Actualisez régulièrement vos données d'événements utilisateur.

    Il est particulièrement important que vos événements utilisateur restent à jour. La L'application de recommandations cesse de fonctionner si le nombre d'événements utilisateur récents est insuffisant aux exigences en termes de données.

    Pour plus d'informations sur l'importation de données d'événements utilisateur en temps réel, consultez la section Enregistrer les événements utilisateur en temps réel.

    Pour en savoir plus sur la surveillance des exigences liées aux événements utilisateur, consultez Vérifier la qualité des données pour les recommandations de contenus multimédias.