Daten für die Aufnahme vorbereiten

Wie Sie Daten vorbereiten, hängt von der Art der Daten und der Importmethode ab. Überlegen Sie zuerst, welche Art von Daten Sie importieren möchten:

Informationen zur Zusammenführung von Suchanfragen, bei der mehrere Datenspeicher mit einer einzigen generischen Suchanwendung verbunden werden können, finden Sie unter Mehrere Datenspeicher verbinden.

Websitedaten

Wenn Sie einen Datenspeicher für Websitedaten erstellen, geben Sie die URLs der Webseiten an, die Google für die Suche oder Empfehlung crawlen und indexieren soll.

Bevor Sie Ihre Websitedaten indexieren:

  • Legen Sie fest, welche URL-Muster in die Indexierung ein- und welche davon ausgeschlossen werden sollen.

    • Ausschlüsse für dynamische URLs vornehmen: Dynamische URLs ändern sich beim Ausliefern je nach Anfrage.

      Dazu gehören beispielsweise die URL-Muster für die Webseiten, die die Suchergebnisse liefern, z. B. www.example.com/search/*. Angenommen, ein Nutzer sucht nach dem Begriff Nobel prize. Die dynamische Such-URL könnte dann eine eindeutige URL sein: www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Wenn das URL-Muster www.example.com/search/* nicht ausgeschlossen ist, werden alle eindeutigen dynamischen Such-URLs, die diesem Muster folgen, indexiert. Dies führt zu einem überladenen Index und einer schlechteren Suchqualität.

    • Entfernen Sie doppelte URLs mithilfe von kanonischen URL-Mustern. So wird beim Crawling der Website eine einzelne kanonische URL für die Google Suche bereitgestellt und Unklarheiten werden beseitigt. Beispiele für die Kanonisierung und weitere Informationen finden Sie unter Was ist URL-Kanonisierung? und Kanonische URL mit rel="canonical" und anderen Methoden angeben.

  • Sie können URL-Muster aus derselben oder aus verschiedenen Domains einschließen, die indexiert werden müssen, und Muster ausschließen, die nicht indexiert werden dürfen. Die Anzahl der URL-Muster, die Sie ein- und ausschließen können, unterscheidet sich in folgender Weise:

    Indexierungstyp Eingeschlossene Websites Ausgeschlossene Websites
    Einfache Websitesuche Maximal 50 URL-Muster Maximal 50 URL-Muster
    Erweiterte Websiteindexierung Maximal 500 URL-Muster Maximal 500 URL-Muster

  • Prüfen Sie, ob die von Ihnen angegebenen Webseiten nicht durch robots.txt die Indexierung blockieren. Weitere Informationen finden Sie unter Einführung in robots.txt.

  • Wenn Sie die erweiterte Websiteindexierung verwenden möchten, müssen Sie die Domains für die URL-Muster in Ihrem Datenspeicher bestätigen können.

  • Fügen Sie Ihrem Datenspeicherschema strukturierte Daten in Form von meta-Tags und PageMaps hinzu, um die Indexierung zu optimieren, wie im Hilfeartikel Strukturierte Daten für die erweiterte Websiteindexierung verwenden beschrieben.

Unstrukturierte Daten

Vertex AI Search unterstützt die Suche in Dokumenten im HTML-, PDF- mit eingebettetem Text und TXT-Format. Die Formate PPTX und DOCX sind in der Vorabversion verfügbar.

Sie importieren Ihre Dokumente aus einem Cloud Storage-Bucket. Sie können den Import über die Google Cloud Console, die ImportDocuments-Methode oder die CRUD-Methode für die Datenaufnahme per Streaming durchführen. API-Referenzinformationen finden Sie unter DocumentService und documents.

In der folgenden Tabelle sind die Dateigrößenlimits für die einzelnen Dateitypen mit verschiedenen Konfigurationen aufgeführt. Weitere Informationen finden Sie unter Dokumente parsen und in Blöcke aufteilen. Sie können bis zu 100.000 Dateien gleichzeitig importieren.

Dateityp Standardimport Import mit layoutbasiertem Dokument-Chunking Mit Layout-Parser importieren
Textbasierte Dateien wie HTML, TXT, JSON, XHTML und XML < 2,5 MB < 10 MB < 10 MB
PPTX, DOCX und XLSX < 200 MB < 200 MB < 200 MB
PDF < 200 MB < 200 MB < 40 MB

Wenn Sie Ihre unstrukturierten Daten mit Einbettungen versehen möchten, lesen Sie den Hilfeartikel Benutzerdefinierte Einbettungen verwenden.

Wenn Sie PDFs haben, die nicht durchsuchbar sind (gescannte PDFs oder PDFs mit Text in Bildern, z. B. Infografiken), empfehlen wir, beim Erstellen des Datenspeichers die optische Zeichenerkennung (OCR) zu aktivieren. So können mit Vertex AI Search Elemente wie Textblöcke und Tabellen extrahiert werden. Wenn Sie suchbare PDFs haben, die hauptsächlich aus maschinenlesbarem Text bestehen und viele Tabellen enthalten, können Sie die OCR-Verarbeitung mit der Option für maschinenlesbaren Text aktivieren, um die Erkennung und das Parsen zu verbessern. Weitere Informationen finden Sie unter Dokumente analysieren und in kleinere Teile aufteilen.

Wenn Sie Vertex AI Search für die Retrieval-Augmented Generation (RAG) verwenden möchten, aktivieren Sie das Dokument-Chunking, wenn Sie Ihren Datenspeicher erstellen. Weitere Informationen finden Sie unter Dokumente parsen und in Blöcke aufteilen.

Sie können unstrukturierte Daten aus den folgenden Quellen importieren:

Cloud Storage

Sie können Daten mit oder ohne Metadaten aus Cloud Storage importieren.

Der Datenimport ist nicht rekursiv. Wenn sich also Ordner im angegebenen Bucket oder Ordner befinden, werden die Dateien in diesen Ordnern nicht importiert.

Wenn Sie Dokumente ohne Metadaten aus Cloud Storage importieren möchten, legen Sie sie direkt in einen Cloud Storage-Bucket ab. Die Dokument-ID ist ein Beispiel für Metadaten.

Zum Testen können Sie die folgenden öffentlich zugänglichen Cloud Storage-Ordner mit PDFs verwenden:

  • gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
  • gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
  • gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
  • gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Wenn Sie Daten mit Metadaten aus Cloud Storage importieren möchten, legen Sie eine JSON-Datei mit den Metadaten in einen Cloud Storage-Bucket ab, dessen Speicherort Sie beim Import angeben.

Ihre unstrukturierten Dokumente können sich im selben Cloud Storage-Bucket wie Ihre Metadaten oder in einem anderen befinden.

Die Metadatendatei muss eine JSON Lines- oder eine NDJSON-Datei sein. Die Dokument-ID ist ein Beispiel für Metadaten. Jede Zeile der Metadatendatei muss einem der folgenden JSON-Formate entsprechen:

  • Mit jsonData:
    • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
  • Mit structData:
    • { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Verwenden Sie das Feld uri in jeder Zeile, um auf den Cloud Storage-Speicherort des Dokuments zu verweisen.

Hier ist ein Beispiel für eine NDJSON-Metadatendatei für ein unstrukturiertes Dokument. In diesem Beispiel verweist jede Zeile der Metadatendatei auf ein PDF-Dokument und enthält die Metadaten für dieses Dokument. In den ersten beiden Zeilen wird jsonData und in den zweiten beiden Zeilen structData verwendet. Bei structData müssen Anführungszeichen, die in Anführungszeichen stehen, nicht maskiert werden.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Weitere Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen.

BigQuery

Wenn Sie Metadaten aus BigQuery importieren möchten, erstellen Sie eine BigQuery-Tabelle mit Metadaten. Die Dokument-ID ist ein Beispiel für Metadaten.

Speichern Sie Ihre unstrukturierten Dokumente in einem Cloud Storage-Bucket.

Verwenden Sie das folgende BigQuery-Schema. Verwenden Sie das Feld uri in jedem Eintrag, um auf den Cloud Storage-Speicherort des Dokuments zu verweisen.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Weitere Informationen finden Sie in der BigQuery-Dokumentation unter Tabellen erstellen und verwenden.

Weitere Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen.

Google Drive

Die Synchronisierung von Daten aus Google Drive wird für die allgemeine Suche unterstützt.

Wenn Sie Daten aus Google Drive importieren möchten, müssen Sie Google Identity als Identitätsanbieter in Vertex AI Agent Builder einrichten. Informationen zum Einrichten der Zugriffssteuerung finden Sie unter Zugriffssteuerung für Datenquellen verwenden.

Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen.

Strukturierte Daten

Bereiten Sie Ihre Daten gemäß der Importmethode vor, die Sie verwenden möchten. Wenn Sie Mediendaten aufnehmen möchten, lesen Sie auch den Hilfeartikel Strukturierte Mediendaten.

Sie können strukturierte Daten aus den folgenden Quellen importieren:

Wenn Sie strukturierte Daten aus BigQuery oder Cloud Storage importieren, haben Sie die Möglichkeit, die Daten mit Metadaten zu importieren. (Strukturierte Daten mit Metadaten werden auch als erweiterte strukturierte Daten bezeichnet.)

BigQuery

Sie können strukturierte Daten aus BigQuery-Datasets importieren.

Das Schema wird automatisch erkannt. Nach dem Importieren empfiehlt Google, das automatisch erkannte Schema zu bearbeiten, um wichtige Properties wie Titel zuzuordnen. Wenn Sie den Import über die API anstelle der Google Cloud Console vornehmen, können Sie ein eigenes Schema als JSON-Objekt angeben. Weitere Informationen finden Sie unter Schema angeben oder automatisch erkennen.

Beispiele für öffentlich verfügbare strukturierte Daten finden Sie in den öffentlichen BigQuery-Datasets.

Wenn Sie Einbettungen in Ihre strukturierten Daten einfügen möchten, lesen Sie den Hilfeartikel Benutzerdefinierte Einbettungen verwenden.

Wenn Sie strukturierte Daten mit Metadaten importieren, müssen Sie zwei Felder in Ihre BigQuery-Tabellen aufnehmen:

  • Ein id-Feld zur Identifizierung des Dokuments. Wenn Sie strukturierte Daten ohne Metadaten importieren, wird id für Sie generiert. Wenn Sie Metadaten einfügen, können Sie den Wert von id angeben.

  • Ein jsonData-Feld, das die Daten enthält. Beispiele für jsonData-Strings finden Sie im Abschnitt Cloud Storage.

Verwenden Sie das folgende BigQuery-Schema für strukturierte Daten mit Metadatenimporten:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Eine Anleitung zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen.

Cloud Storage

Strukturierte Daten in Cloud Storage müssen entweder im JSON Lines- oder im NDJSON-Format vorliegen. Jede Datei darf maximal 2 GB groß sein. Sie können bis zu 100 Dateien gleichzeitig importieren.

Beispiele für öffentlich verfügbare strukturierte Daten finden Sie in den folgenden Ordnern in Cloud Storage, die NDJSON-Dateien enthalten:

  • gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
  • gs://cloud-samples-data/gen-app-builder/search/austin_311

Wenn Sie Einbettungen in Ihre strukturierten Daten einfügen möchten, lesen Sie den Hilfeartikel Benutzerdefinierte Einbettungen verwenden.

Hier ein Beispiel für eine NDJSON-Metadatendatei mit strukturierten Daten. Jede Zeile der Datei stellt ein Dokument dar und besteht aus einer Reihe von Feldern.

{"hotel_id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"hotel_id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"hotel_id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Weitere Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen.

Informationen zum Formatieren von FAQ-Daten in CSV-Dateien für Chat-Apps finden Sie in der Dialogflow CX-Dokumentation unter Strukturierter Datenspeicher.

Lokale JSON-Daten

Sie können ein JSON-Dokument oder -Objekt direkt über die API hochladen.

Google empfiehlt, ein eigenes Schema als JSON-Objekt anzugeben, um bessere Ergebnisse zu erzielen. Wenn Sie kein eigenes Schema angeben, wird es automatisch erkannt. Nach dem Importieren empfehlen wir, das automatisch erkannte Schema zu bearbeiten, um wichtige Properties wie Titel zuzuordnen. Weitere Informationen finden Sie unter Schema angeben oder automatisch erkennen.

Wenn Sie Einbettungen in Ihre strukturierten Daten einfügen möchten, lesen Sie den Hilfeartikel Benutzerdefinierte Einbettungen verwenden.

Weitere Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen.

Strukturierte Mediendaten

Wenn Sie strukturierte Mediendaten wie Videos, Nachrichten oder Musik aufnehmen möchten, beachten Sie Folgendes:

Datenquellen von Drittanbietern

Das Einlesen von Daten aus Drittanbieterquellen ist eine Vorabversion mit Zulassungsliste.

Verbindungen zu Datenquellen von Drittanbietern werden für die allgemeine Suche unterstützt.

Wenn Sie eine Drittanbieterdatenquelle verbinden, werden die Daten zuerst aufgenommen und dann mit einer von Ihnen angegebenen Häufigkeit mit Vertex AI Search synchronisiert.

Bevor Sie die Verbindung zur Datenquelle einrichten, müssen Sie die Zugriffssteuerung für die Datenquelle einrichten. Informationen zum Einrichten der Zugriffssteuerung finden Sie unter Zugriffssteuerung für Datenquellen verwenden.

Informationen zu den erforderlichen Anmeldedaten für die Verbindung einer Datenquelle finden Sie in der Dokumentation zur Verbindung der Datenquelle des Drittanbieters, von der Sie Daten aufnehmen möchten:

Healthcare FHIR-Daten

Wenn Sie FHIR-Daten aus der Cloud Healthcare API aufnehmen möchten, müssen folgende Voraussetzungen erfüllt sein:

  • Speicherort: Der Quell-FHIR-Speicher muss sich in einem Cloud Healthcare API-Dataset befinden, das sich an den Speicherorten us-central1, us oder eu befindet. Weitere Informationen finden Sie unter Datasets in der Cloud Healthcare API erstellen und verwalten.
  • FHIR-Speichertyp: Der Quell-FHIR-Speicher muss ein R4-Datenspeicher sein. Sie können die Versionen Ihrer FHIR-Speicher prüfen, indem Sie die FHIR-Speicher in Ihrem Dataset auflisten. Informationen zum Erstellen eines FHIR-R4-Speichers finden Sie unter FHIR-Speicher erstellen.
  • Importkontingent: Der Quell-FHIR-Speicher darf weniger als eine Million FHIR-Ressourcen enthalten. Wenn es mehr als eine Million FHIR-Ressourcen gibt, wird der Importvorgang angehalten, sobald dieses Limit erreicht ist. Weitere Informationen finden Sie unter Kontingente und Limits.
  • Die Dateien, auf die in einer DocumentReference-Ressource verwiesen wird, müssen PDF-, RTF- oder Bilddateien sein, die in Cloud Storage gespeichert sind. Der Link zu den referenzierten Dateien muss im Feld content[].attachment.url der Ressource im Standardpfadformat von Cloud Storage enthalten sein: gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE.
  • Liste der FHIR R4-Ressourcen, die von Vertex AI Search unterstützt werden Weitere Informationen finden Sie in der Referenz für das FHIR R4-Datenschema für die Gesundheitsversorgung.