Daten für die Aufnahme vorbereiten

Wie Sie Daten vorbereiten, hängt von der Art der Daten und der gewählten Importmethode ab. Beginnen Sie mit der Art von Daten, die Sie importieren möchten:

Informationen zur zusammengeführten Suche, bei der mehrere Datenspeicher die mit einer einzelnen generischen Such-App verknüpft sind, finden Sie unter Mehrere Daten verknüpfen Geschäfte.

Websitedaten

Wenn Sie einen Datenspeicher für Websitedaten erstellen, geben Sie die URLs Seiten, die Google für die Suche oder Empfehlung crawlen und indexieren soll.

Vor der Indexierung Ihrer Websitedaten:

  • Legen Sie fest, welche URL-Muster in die Indexierung ein- und welche davon ausgeschlossen werden sollen.

    • Ausschlüsse für dynamische URLs vornehmen: Dynamische URLs ändern sich beim Ausliefern je nach Anfrage.

      Dazu gehören beispielsweise die URL-Muster für die Webseiten, die die Suchergebnisse liefern, z. B. www.example.com/search/*. Angenommen, ein Nutzer sucht nach dem Begriff Nobel prize. Die dynamische Such-URL könnte eine eindeutige URL sein: www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Wenn das URL-Muster www.example.com/search/* nicht ausgeschlossen ist, werden alle eindeutigen dynamischen Such-URLs, die diesem Muster folgen, indexiert. Dies führt zu einem aufgeblähten Index und einer verschlechterten Suchqualität.

    • Entfernen Sie doppelte URLs mithilfe von kanonischen URL-Mustern. So wird beim Crawling der Website eine einzelne kanonische URL für die Google Suche bereitgestellt und Unklarheiten werden beseitigt. Beispiele für die Kanonisierung und mehr finden Sie unter Was ist URL-Kanonisierung und Eine kanonische URL mit rel="canonical" angeben und andere Methoden.

  • Sie können URL-Muster entweder von derselben oder von unterschiedlichen Domains einfügen, indexiert werden müssen und Muster ausschließen, die nicht indexiert werden dürfen. Die Anzahl der URL-Muster, die Sie ein- und ausschließen können, unterscheidet sich in folgender Weise:

    Indexierungstyp Eingeschlossene Websites Ausgeschlossene Websites
    Einfache Websitesuche Maximal 50 URL-Muster Maximal 50 URL-Muster
    Erweiterte Websiteindexierung Maximal 500 URL-Muster Maximal 500 URL-Muster

  • Prüfen Sie, ob die von Ihnen angegebenen Webseiten nicht durch robots.txt die Indexierung blockieren. Weitere Informationen finden Sie unter Einführung in robots.txt.

  • Wenn Sie die erweiterte Websiteindexierung verwenden möchten, müssen Sie die Domains für die URL-Muster in Ihrem Datenspeicher bestätigen können.

  • Fügen Sie Ihrem Datenspeicherschema strukturierte Daten in Form von meta-Tags und PageMaps hinzu, um die Indexierung zu optimieren, wie im Hilfeartikel Strukturierte Daten für die erweiterte Websiteindexierung verwenden beschrieben.

Weitere Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen.

Unstrukturierte Daten

Vertex AI Search unterstützt die Suche in Dokumenten im HTML-, PDF- mit eingebettetem Text und TXT-Format. Die Formate PPTX und DOCX sind in der Vorabversion verfügbar.

Sie importieren Ihre Dokumente aus einem Cloud Storage-Bucket. Sie können Importe über die Google Cloud Console durchführen, indem Sie ImportDocuments-Methode oder durch Streamingaufnahme mithilfe von CRUD-Methoden erstellen. API-Referenzinformationen finden Sie unter DocumentService. und documents.

HTML- und TXT-Dateien dürfen maximal 2,5 MB groß sein. PDF-, PPTX- und DOCX-Dateien darf maximal 100 MB groß sein. Sie können bis zu 100.000 Dateien gleichzeitig importieren.

Wenn Sie beabsichtigen, Einbettungen in Ihre unstrukturierten Daten einzubinden, lesen Sie den Abschnitt Benutzerdefinierte Einbettungen verwenden

Bei nicht durchsuchbaren PDFs (gescannte PDFs oder PDFs mit Text in Bildern) wie Infografiken), empfehlen wir, die optische Zeichenerkennung (OCR-Verarbeitung) bei der Erstellung des Datenspeichers. So können mit Vertex AI Search Elemente wie Textblöcke und Tabellen extrahiert werden. Wenn Sie durchsuchbare PDFs haben, die hauptsächlich aus maschinenlesbaren Text enthält und viele Tabellen enthalten, können Sie die OCR-Verarbeitung mit die Option für maschinenlesbaren Text aktiviert, um die Erkennung und . Weitere Informationen finden Sie unter Parsen und Chunken Dokumente.

Wenn Sie Vertex AI Search für die Retrieval-Augmented Generation (RAG) verwenden möchten, aktivieren Sie das Dokument-Chunking, wenn Sie Ihren Datenspeicher erstellen. Weitere Informationen finden Sie unter Dokumente parsen und in Blöcke aufteilen.

Sie können unstrukturierte Daten aus den folgenden Quellen importieren:

Cloud Storage

Sie können Daten mit oder ohne Metadaten aus Cloud Storage importieren.

Der Datenimport ist nicht rekursiv. Wenn sich also Ordner im angegebenen Bucket oder Ordner befinden, werden die Dateien in diesen Ordnern nicht importiert.

Wenn Sie Dokumente ohne Metadaten aus Cloud Storage importieren möchten, legen Sie sie direkt in einen Cloud Storage-Bucket ab. Die Dokument-ID ist ein Beispiel von Metadaten.

Zum Testen können Sie die folgenden öffentlich zugänglichen Cloud Storage-Ordner mit PDFs verwenden:

  • gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
  • gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
  • gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
  • gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Wenn Sie Daten mit Metadaten aus Cloud Storage importieren möchten, legen Sie eine JSON-Datei ab der die Metadaten in einem Cloud Storage-Bucket enthält, dessen Speicherort Sie während des Imports bereitgestellt werden.

Die unstrukturierten Dokumente können sich im selben Cloud Storage-Bucket befinden wie Ihr Metadaten oder einer anderen.

Die Metadatendatei muss eine JSON-Zeilen oder eine NDJSON-Datei sein. Die Dokument-ID ist ein Beispiel für Metadaten. Jede Zeile der Metadatendatei muss einer der folgenden JSON-Formaten:

  • Mit jsonData:
    • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
  • Mit structData:
    • { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Verwenden Sie das Feld uri in jeder Zeile, um auf den Cloud Storage-Speicherort des Dokuments zu verweisen.

Hier ist ein Beispiel für eine NDJSON-Metadatendatei für ein unstrukturiertes Dokument. In diesem Beispiel verweist jede Zeile der Metadatendatei auf ein PDF-Dokument und enthält die Metadaten für dieses Dokument. In den ersten beiden Zeilen wird jsonData und in den zweiten beiden Zeilen structData verwendet. Mit structData ist kein Escape-Anführungszeichen in Anführungszeichen gesetzt werden.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Weitere Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen.

BigQuery

Wenn Sie Metadaten aus BigQuery importieren möchten, erstellen Sie eine BigQuery-Tabelle mit Metadaten. Die Dokument-ID ist ein Beispiel für Metadaten.

Legen Sie Ihre unstrukturierten Dokumente in einem Cloud Storage-Bucket ab.

Verwenden Sie das folgende BigQuery-Schema. Verwenden Sie das Feld uri in jedem Eintrag, um auf den Cloud Storage-Speicherort des Dokuments zu verweisen.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Weitere Informationen finden Sie unter Tabellen erstellen und verwenden. in der BigQuery-Dokumentation.

Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen

Google Drive

Die Synchronisierung von Daten aus Google Drive wird für die allgemeine Suche unterstützt.

Wenn Sie Daten aus Google Drive importieren möchten, müssen Sie Google Identity einrichten als Identitätsanbieter in Vertex AI Agent Builder. Informationen zu Einrichten der Zugriffssteuerung (siehe Zugriff auf Datenquellen verwenden) steuern können.

Weitere Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen.

Strukturierte Daten

Bereiten Sie Ihre Daten gemäß der Importmethode vor, die Sie verwenden möchten. Wenn Sie Mediadaten aufnehmen möchten, siehe auch Strukturierte Mediendaten.

Du kannst strukturierte Daten aus den folgenden Quellen importieren:

Wenn Sie strukturierte Daten aus BigQuery oder Cloud Storage importieren, haben Sie die Möglichkeit, die Daten mit Metadaten zu importieren. (Strukturiert mit Metadaten werden auch als erweiterte strukturierte Daten bezeichnet.

BigQuery

Sie können strukturierte Daten aus BigQuery-Datasets importieren.

Das Schema wird automatisch erkannt. Nach dem Import empfiehlt Google, dass Sie Sie können das automatisch erkannte Schema bearbeiten, um wichtige Attribute wie Titel zuzuordnen. Wenn Sie mit der API statt über die Google Cloud Console importieren möchten, haben Sie die Möglichkeit, um Ihr eigenes Schema als JSON-Objekt bereitzustellen. Weitere Informationen finden Sie unter Schema angeben oder automatisch erkennen.

Beispiele für öffentlich verfügbare strukturierte Daten finden Sie in der Öffentliche BigQuery-Datasets:

Wenn du beabsichtigst, Einbettungen in deine strukturierten Daten zu integrieren, siehe Benutzerdefinierte Einbettungen verwenden

Wenn Sie strukturierte Daten mit Metadaten importieren, müssen Sie zwei Felder in Ihre BigQuery-Tabellen aufnehmen:

  • Ein id-Feld zur Identifizierung des Dokuments. Wenn Sie strukturierte Daten importieren ohne Metadaten, dann wird die id für Sie generiert. Wenn Sie Metadaten einfügen, können Sie den Wert von id angeben.

  • Ein jsonData-Feld, das die Daten enthält. Beispiele für jsonData-Strings: Weitere Informationen finden Sie im vorherigen Abschnitt zu Cloud Storage.

Verwenden Sie das folgende BigQuery-Schema für strukturierte Daten mit Metadaten Importe:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Eine Anleitung zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen. oder Empfehlungsdatenspeicher erstellen.

Cloud Storage

Strukturierte Daten in Cloud Storage müssen entweder im JSON Lines- oder im NDJSON-Format vorliegen. Jede Datei darf maximal 2 GB groß sein. Sie können bis zu 100 Dateien importieren auf einmal ansehen.

Beispiele für öffentlich verfügbare strukturierte Daten finden Sie in den folgenden Ordnern in Cloud Storage, die NDJSON-Dateien enthalten:

  • gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
  • gs://cloud-samples-data/gen-app-builder/search/austin_311

Wenn Sie Einbettungen in Ihre strukturierten Daten einfügen möchten, lesen Sie den Hilfeartikel Benutzerdefinierte Einbettungen verwenden.

Hier ist ein Beispiel für eine NDJSON-Metadatendatei mit strukturierten Daten. Jede Zeile von Die Datei stellt ein Dokument dar und besteht aus einer Reihe von Feldern.

{"hotel_id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"hotel_id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"hotel_id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen

Lokale JSON-Daten

Sie können ein JSON-Dokument oder -Objekt direkt über die API hochladen.

Google empfiehlt, Ihr eigenes Schema als JSON-Objekt anzugeben, um bessere Ergebnisse zu erzielen. Wenn Sie kein eigenes Schema angeben, wird das Schema automatisch erkannt. Nachher importieren möchten, empfehlen wir, das automatisch erkannte Schema zu bearbeiten, um den Schlüssel wie z. B. Titel. Weitere Informationen finden Sie unter Schema angeben oder automatisch erkennen.

Wenn du beabsichtigst, Einbettungen in deine strukturierten Daten zu integrieren, siehe Benutzerdefinierte Einbettungen verwenden

Weitere Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen.

Strukturierte Mediendaten

Wenn Sie strukturierte Mediendaten wie Videos, Nachrichten oder Musik aufnehmen möchten, beachten Sie Folgendes:

Datenquellen von Drittanbietern

Das Einlesen von Daten aus Drittanbieterquellen ist eine Vorabversion mit Zulassungsliste.

Verbindungen zu Datenquellen von Drittanbietern werden für die allgemeine Suche unterstützt.

Wenn Sie eine Drittanbieterdatenquelle verbinden, werden die Daten zuerst aufgenommen und dann mit einer von Ihnen angegebenen Häufigkeit mit Vertex AI Search synchronisiert.

Bevor Sie die Verbindung zur Datenquelle einrichten, müssen Sie die Zugriffssteuerung für die Datenquelle einrichten. Informationen zum Einrichten der Zugriffssteuerung finden Sie unter Zugriffssteuerung für Datenquellen verwenden.

Informationen zu den erforderlichen Anmeldedaten für die Verbindung einer Datenquelle finden Sie in der Dokumentation zur Verbindung der Datenquelle des Drittanbieters, von der Sie Daten aufnehmen möchten:

Healthcare FHIR-Daten

Wenn Sie FHIR-Daten aus der Cloud Healthcare API aufnehmen möchten, müssen folgende Voraussetzungen erfüllt sein:

  • Speicherort: Der Quell-FHIR-Speicher muss sich in einem Cloud Healthcare API-Dataset befinden, das sich an den Speicherorten us-central1, us oder eu befindet. Weitere Informationen finden Sie unter Datasets in der Cloud Healthcare API erstellen und verwalten.
  • FHIR-Speichertyp: Der Quell-FHIR-Speicher muss ein R4-Datenspeicher sein. Sie können die Versionen Ihrer FHIR-Speicher prüfen, indem Sie die FHIR-Speicher in Ihrem Dataset auflisten Informationen zum Erstellen eines FHIR R4-Speichers finden Sie unter FHIR-Speicher erstellen.
  • Importkontingent: Der Quell-FHIR-Speicher darf weniger als eine Million FHIR-Ressourcen enthalten. Bei mehr als 1 Million FHIR-Ressourcen wird der Importvorgang beendet. nachdem dieses Limit erreicht ist. Weitere Informationen finden Sie unter Kontingente und Limits.
  • Die Dateien, auf die in einer DocumentReference-Ressource verwiesen wird, müssen PDF-, RTF- oder Bilddateien sein, die in Cloud Storage gespeichert sind. Der Link zu den Dateien, auf die verwiesen wird, muss im Feld content[].attachment.url angegeben werden der Ressource im Cloud Storage-Standardpfadformat: gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE.
  • Liste der FHIR R4-Ressourcen, die von Vertex AI Search unterstützt werden Weitere Informationen finden Sie in der Referenz für das FHIR R4-Datenschema für die Gesundheitsversorgung.