Mediendatenspeicher erstellen

Auf dieser Seite wird beschrieben, wie Sie einen Datenspeicher für Medien erstellen und Daten in diesen importieren.

Hinweis

Gehen Sie so vor:

Das Verfahren entsprechend Ihrer Datenquelle auswählen

Wenn Sie einen Mediendatenspeicher erstellen und Dokumente importieren möchten, rufen Sie den Abschnitt für die Quelle auf, die Sie verwenden möchten:

Aus BigQuery importieren

Console

So erstellen Sie mit der Google Cloud Console einen Mediendatenspeicher und importieren Dokumente und Nutzerereignisse aus BigQuery:

  1. Rufen Sie in der Google Cloud Console die Seite Agent Builder auf.

    Zum Agent Builder

  2. Rufen Sie die Seite Datenspeicher auf.

  3. Klicken Sie auf Datenspeicher erstellen.

  4. Wählen Sie auf der Seite Quelle die Option BigQuery aus.

  5. Wählen Sie als Datentyp für den Import Medien – BigQuery-Tabelle mit strukturierten Mediendaten aus.

  6. Klicken Sie im Feld BigQuery-Pfad auf Durchsuchen und wählen Sie BigQuery-Daten, die Sie für die Aufnahme vorbereitet haben. Klicken Sie dann auf Auswählen. Alternativ können Sie den Standort direkt in den BigQuery-Pfad eingeben. ein.

  7. Wenn Ihre Daten im vordefinierten Google-Schema vorliegen, wählen Sie Von Google vordefinierte schema, klicken Sie auf Weiter und fahren Sie mit Schritt 11 fort.

  8. Wenn sich Ihre Daten in einem eigenen Schema befinden, wählen Sie Benutzerdefiniertes Schema aus und klicken Sie auf Weiter.

  9. Prüfen Sie das erkannte Schema und weisen Sie es über das Menü Schlüsselattribute zu zu den Schemafeldern hinzufügen.

  10. Klicken Sie auf Weiter.

    Sie können erst fortfahren, wenn die erforderlichen Schlüssel-Properties zugeordnet sind. Sie werden durch grüne Häkchen  anstelle von orangen Warnhinweisen  angezeigt.

  11. Geben Sie einen Namen für den Datenspeicher ein und klicken Sie auf Erstellen.

Aus Cloud Storage importieren

Console

Mit der Google Cloud Console einen Mediendatenspeicher erstellen und Dokumente importieren aus Cloud Storage aus, führen Sie die folgenden Schritte aus:

  1. Rufen Sie in der Google Cloud Console die Seite Agent Builder auf.

    Zum Agent Builder

  2. Rufen Sie die Seite Datenspeicher auf.

  3. Klicken Sie auf Datenspeicher erstellen.

  4. Wählen Sie auf der Seite Quelle die Option Cloud Storage aus.

  5. Wählen Sie als Art Strukturierte Mediendaten (JSONL mit Mediendateien) aus. von Daten, die Sie importieren.

  6. Wählen Sie im Bereich Zu importierenden Ordner oder zu importierende Datei auswählen die Option Ordner oder Datei aus.

  7. Klicken Sie auf Durchsuchen, wählen Sie die Daten aus, die Sie für die Datenaufnahme vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Standort direkt in das Feld gs:// eingeben.

  8. Wenn Ihre Daten im vordefinierten Google-Schema vorliegen, wählen Sie Von Google vordefinierte schema, klicken Sie auf Weiter und fahren Sie mit Schritt 11 fort.

  9. Wenn sich Ihre Daten in einem eigenen Schema befinden, wählen Sie Benutzerdefiniertes Schema aus und klicken Sie auf Weiter.

  10. Prüfen Sie das erkannte Schema und weisen Sie es über das Menü Schlüsselattribute zu zu den Schemafeldern hinzufügen.

  11. Klicken Sie auf Weiter.

    Sie können erst fortfahren, wenn die erforderlichen Schlüssel-Properties zugeordnet sind. Sie werden durch grüne Häkchen  anstelle von orangen Warnhinweisen  angezeigt.

  12. Geben Sie einen Namen für den Datenspeicher ein und klicken Sie auf Erstellen.

Dokumente mithilfe der API importieren

Wenn Sie das vordefinierte Schema von Google verwenden, können Sie Ihre Dokumente importieren indem Sie eine POST-Anfrage an die Documents:import-REST-Methode unter Verwendung der InlineSource-Objekt, um Ihre Daten anzugeben.

Ein Beispiel für das JSON-Dokumentformat finden Sie unter JSON-Dokumentformat.

Anforderungen an den Import

Für das Importieren von Mediendokumenten mithilfe der API gelten folgende Anforderungen:

  • Jedes Dokument muss in einer eigenen Zeile stehen.

  • Pro Import können maximal 100 Dokumente hochgeladen werden.

Prozedur

So importierst du Mediendokumente über die API:

  1. Erstellen Sie einen Datenspeicher.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID ist die ID Ihres Google Cloud-Projekts.
    • DATA_STORE_ID: die ID des Vertex AI Search-Datenspeichers, den Sie erstellen möchten. Diese ID darf nur Kleinbuchstaben enthalten Buchstaben, Ziffern, Unterstriche und Bindestriche.
    • DATA_STORE_DISPLAY_NAME: der Anzeigename von Vertex AI Suchdatenspeicher, den Sie erstellen möchten.
  2. Erstellen Sie die JSON-Datei für Ihr Dokument und nennen Sie sie ./data.json:

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. Rufen Sie die Methode POST auf:

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
    • PROJECT_ID: Die ID Ihres Projekts.
    • DATA_STORE_ID: Die ID Ihres Datenspeichers.

JSON-Dokumentformat

Die folgenden Beispiele zeigen Document-Einträge im JSON-Format.

Stellen Sie das gesamte Dokument in einer einzigen Zeile bereit. Jedes Dokument sollte für sich stehen. Zeile.

Pflichtfelder:

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Vollständiges Objekt:

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Import- und Aufrufdaten überwachen

  1. Den Status der Aufnahme können Sie auf der Seite Datenspeicher prüfen. und klicken Sie auf den Namen des Datenspeichers, um Details dazu auf der Seite Daten anzuzeigen.

  2. Klicke auf den Tab Aktivität.

    Wenn sich der Status in der Spalte „Status“ auf dem Tab Aktivität von In Bearbeitung zu Import abgeschlossen ändert, ist die Datenaufnahme abgeschlossen.

    Je nach Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.

  3. Klicken Sie auf Dokumente, um die importierten Daten aufzurufen.

Nutzerereignisse importieren

Nutzerereignisse sind erforderlich, wenn Sie Ihren Datenspeicher mit einer Anwendung für Medienempfehlungen verwenden möchten.

Nutzerereignisse sind für Apps für Mediensuchen zwar nicht erforderlich, sie können aber die Qualität der Suchergebnisse verbessern.

So importieren Sie Nutzerereignisse in Ihren Mediendatenspeicher:

Nächste Schritte

  • Erstellen Sie eine App für Medienempfehlungen oder eine App für die Mediensuche.

  • Halten Sie Ihre Dokumentdaten auf dem neuesten Stand.

    Idealerweise sollten Sie Ihren Datenspeicher täglich aktualisieren, indem Sie neue Daten importieren. Durch die Planung regelmäßiger Importe wird verhindert, dass die Modellqualität im Laufe der Zeit sinkt. Sie können Google Cloud Scheduler verwenden, um Importe zu automatisieren.

    Sie können nur neue oder geänderte Dokumente aktualisieren oder den gesamten Datenspeicher importieren. Wenn Sie Dokumente importieren, die sich bereits in Ihrem Datenspeicher befinden, werden nicht mehr hinzugefügt. Alle geänderten Dokumente werden aktualisiert.

  • Halten Sie Ihre Nutzerereignisdaten auf dem neuesten Stand.

    Es ist besonders wichtig, dass Sie Ihre Nutzerereignisse auf dem neuesten Stand halten. Die Die Empfehlungs-App funktioniert nicht mehr, wenn nicht genügend neue Nutzerereignisse vorhanden sind, die Datenanforderungen erfüllen.

    Informationen zum Importieren von Nutzerereignisdaten in Echtzeit finden Sie unter Aufzeichnen Nutzerereignisse in Echtzeit.

    Informationen zum Überwachen der Anforderungen an Nutzerereignisse finden Sie unter Datenqualität für Medienempfehlungen prüfen.