Mediendatenspeicher erstellen

Auf dieser Seite wird beschrieben, wie Sie einen Datenspeicher für Media erstellen und Daten darin importieren.

Hinweise

Achten Sie auf Folgendes:

  • Sehen Sie sich die Konzepte zu Media-Daten und ‑Schema an:

  • Legen Sie fest, ob Sie das vordefinierte Google-Schema für Ihre Media-Daten oder Ihr eigenes Schema verwenden.

  • Wenn Sie ein eigenes Schema verwenden, muss es Felder enthalten, die gut den Media-Properties für das benutzerdefinierte Schema zugeordnet werden können: title, url, category usw.

  • Fügen Sie Ihre Media-Dokumente in das JSON-Schema ein und laden Sie die Daten in BigQuery oder Cloud Storage hoch.

  • Lesen Sie den Artikel Nutzerereignisse für Media und bereiten Sie Ihre Nutzerereignisse für den Import vor. Nutzerereignisse sind für alle Media-Apps erforderlich.

Vorgehensweise je nach Datenquelle auswählen

Wenn Sie einen Mediendatenspeicher erstellen und Dokumente importieren möchten, rufen Sie den Abschnitt für die Quelle auf, die Sie verwenden möchten:

Aus BigQuery importieren

Console

So erstellen Sie mit der Google Cloud -Console einen Mediendatenspeicher und importieren Dokumente und Nutzerereignisse aus BigQuery:

  1. Rufen Sie in der Google Cloud Console die Seite KI-Anwendungen auf.

    KI-Anwendungen

  2. Rufen Sie die Seite Datenspeicher auf.

  3. Klicken Sie auf Datenspeicher erstellen.

  4. Wählen Sie auf der Seite Quelle die Option BigQuery aus.

  5. Wählen Sie Media - BigQuery table with structured media data (Medien – BigQuery-Tabelle mit strukturierten Mediendaten) als Art der Daten aus, die Sie importieren.

  6. Klicken Sie im Feld BigQuery-Pfad auf Durchsuchen, wählen Sie die BigQuery-Daten aus, die Sie für den Import vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Speicherort direkt in das Feld BigQuery-Pfad eingeben.

  7. Wenn Ihre Daten im vordefinierten Google-Schema sind, wählen Sie Vordefiniertes Google-Schema aus, klicken Sie auf Weiter und fahren Sie mit Schritt 11 fort.

  8. Wenn sich Ihre Daten in einem eigenen Schema befinden, wählen Sie Benutzerdefiniertes Schema aus und klicken Sie auf Weiter.

  9. Überprüfen Sie das erkannte Schema und weisen Sie den Schemafeldern über das Menü Schlüsselattribute Attribute zu.

  10. Klicken Sie auf Weiter.

    Sie können erst fortfahren, wenn die erforderlichen Schlüssel-Properties zugeordnet sind. Das wird durch grüne Häkchen  anstelle von orangefarbenen Warnsymbolen  angezeigt.

  11. Geben Sie einen Namen für den Datenspeicher ein und klicken Sie auf Erstellen.

Aus Cloud Storage importieren

Console

So erstellen Sie mit der Google Cloud Console einen Media-Datenspeicher und importieren Dokumente aus Cloud Storage:

  1. Rufen Sie in der Google Cloud Console die Seite KI-Anwendungen auf.

    KI-Anwendungen

  2. Rufen Sie die Seite Datenspeicher auf.

  3. Klicken Sie auf Datenspeicher erstellen.

  4. Wählen Sie auf der Seite Quelle die Option Cloud Storage aus.

  5. Wählen Sie Strukturierte Mediendaten (JSONL mit Mediendateien) als Art der Daten aus, die Sie importieren.

  6. Wählen Sie im Bereich Ordner oder Datei für Import auswählen die Option Ordner oder Datei aus.

  7. Klicken Sie auf Durchsuchen, wählen Sie die Daten aus, die Sie aufnehmen möchten, und klicken Sie dann auf Auswählen. Alternativ können Sie den Standort direkt in das Feld gs:// eingeben.

  8. Wenn Ihre Daten im vordefinierten Google-Schema sind, wählen Sie Vordefiniertes Google-Schema aus, klicken Sie auf Weiter und fahren Sie mit Schritt 11 fort.

  9. Wenn sich Ihre Daten in einem eigenen Schema befinden, wählen Sie Benutzerdefiniertes Schema aus und klicken Sie auf Weiter.

  10. Überprüfen Sie das erkannte Schema und weisen Sie den Schemafeldern über das Menü Schlüsselattribute Attribute zu.

  11. Klicken Sie auf Weiter.

    Sie können erst fortfahren, wenn die erforderlichen Schlüssel-Properties zugeordnet sind. Das wird durch grüne Häkchen  anstelle von orangefarbenen Warnsymbolen  angezeigt.

  12. Geben Sie einen Namen für den Datenspeicher ein und klicken Sie auf Erstellen.

Dokumente mit der API importieren

Wenn Sie das vordefinierte Google-Schema verwenden, können Sie Ihre Dokumente importieren, indem Sie mithilfe des Objekts InlineSource eine POST-Anfrage an die REST-Methode Documents:import stellen, um Ihre Daten anzugeben.

Ein Beispiel für das JSON-Dokumentformat finden Sie unter JSON-Dokumentformat.

Anforderungen an den Import

Hier sind die Anforderungen für den Import von Mediendokumenten über die API:

  • Jedes Dokument muss in einer eigenen Zeile stehen.

  • Ein einzelner Import kann maximal 100 Dokumente enthalten.

Prozedur

So importieren Sie Media-Dokumente über die API:

  1. Datenspeicher erstellen.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die ID Ihres Google Cloud Projekts.
    • DATA_STORE_ID: Die ID des Vertex AI Search-Datenspeichers, den Sie erstellen möchten. Diese ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.
    • DATA_STORE_DISPLAY_NAME: Der Anzeigename des Vertex AI Search-Datenspeichers, den Sie erstellen möchten.
  2. Erstellen Sie die JSON-Datei für Ihr Dokument und nennen Sie sie ./data.json:

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. Rufen Sie die Methode POST auf:

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die Projekt-ID.
    • DATA_STORE_ID: die ID Ihres Datenspeichers.

JSON-Dokumentformat

Die folgenden Beispiele zeigen Document-Einträge im JSON-Format.

Geben Sie ein ganzes Dokument in einer einzigen Zeile an. Jedes Dokument sollte in einer eigenen Zeile stehen.

Pflichtfelder:

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Vollständiges Objekt:

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Import überwachen und Daten ansehen

  1. Wenn Sie den Status der Aufnahme prüfen möchten, rufen Sie die Seite Datenspeicher auf und klicken Sie auf den Namen des Datenspeichers, um Details dazu auf der Seite Daten aufzurufen.

  2. Klicken Sie auf den Tab Aktivitäten.

    Wenn sich die Statusspalte auf dem Tab Aktivität von Wird ausgeführt in Import abgeschlossen ändert, ist die Aufnahme abgeschlossen.

    Je nach Größe der Daten kann die Datenaufnahme einige Minuten oder mehrere Stunden dauern.

  3. Klicken Sie auf Dokumente, um die importierten Daten aufzurufen.

Nutzerereignisse importieren

So importieren Sie Nutzerereignisse in Ihren Media-Datenspeicher:

Nächste Schritte

  • Eine App für Medienempfehlungen oder eine App für die Mediensuche erstellen

  • Dokumentdaten auf dem neuesten Stand halten

    Idealerweise sollten Sie Ihren Datenspeicher täglich aktualisieren, indem Sie neue Daten importieren. Durch die Planung regelmäßiger Importe wird verhindert, dass die Modellqualität im Laufe der Zeit sinkt. Mit Google Cloud Scheduler können Sie Importe automatisieren.

    Sie können nur neue oder geänderte Dokumente aktualisieren oder den gesamten Datenspeicher importieren. Wenn Sie Dokumente importieren, die sich bereits in Ihrem Datenspeicher befinden, werden sie nicht noch einmal hinzugefügt. Jedes geänderte Dokument wird aktualisiert.

  • Halten Sie Ihre Nutzerereignisdaten auf dem neuesten Stand.

    Es ist besonders wichtig, dass Ihre Nutzerereignisse aktuell sind. Die Empfehlungs-App funktioniert nicht mehr, wenn nicht genügend neue Nutzerereignisse vorhanden sind, um die Datenanforderungen zu erfüllen.

    Informationen zum Importieren von Nutzerereignisdaten in Echtzeit finden Sie unter Nutzerereignisse in Echtzeit aufzeichnen.

    Informationen zum Überwachen der Anforderungen an Nutzerereignisse finden Sie unter Datenqualität für Media-Empfehlungen prüfen.