Wie Sie Daten vorbereiten, hängt von der Art der Daten und der gewählten Importmethode ab. Beginnen Sie mit der Art von Daten, die Sie importieren möchten:
- Websitedaten
- Unstrukturierte Daten
- Strukturierte Daten
- Datenquellen von Drittanbietern
- Strukturierte Mediendaten
- FHIR-Daten aus dem Gesundheitswesen
Informationen zur zusammengeführten Suche, bei der mehrere Datenspeicher die mit einer einzelnen generischen Such-App verknüpft sind, finden Sie unter Mehrere Daten verknüpfen Geschäfte.
Websitedaten
Wenn Sie einen Datenspeicher für Websitedaten erstellen, geben Sie die URLs Seiten, die Google für die Suche oder Empfehlung crawlen und indexieren soll.
Vor der Indexierung Ihrer Websitedaten:
Legen Sie fest, welche URL-Muster in die Indexierung ein- und welche davon ausgeschlossen werden sollen.
Ausschlüsse für dynamische URLs vornehmen: Dynamische URLs ändern sich beim Ausliefern je nach Anfrage.
Dazu gehören beispielsweise die URL-Muster für die Webseiten, die die Suchergebnisse liefern, z. B.
www.example.com/search/*
. Angenommen, ein Nutzer sucht nach dem BegriffNobel prize
. Die dynamische Such-URL könnte eine eindeutige URL sein:www.example.com/search?q=nobel%20prize/UNIQUE_STRING
. Wenn das URL-Musterwww.example.com/search/*
nicht ausgeschlossen ist, werden alle eindeutigen dynamischen Such-URLs, die diesem Muster folgen, indexiert. Dies führt zu einem aufgeblähten Index und einer verschlechterten Suchqualität.Entfernen Sie doppelte URLs mithilfe von kanonischen URL-Mustern. So wird beim Crawling der Website eine einzelne kanonische URL für die Google Suche bereitgestellt und Unklarheiten werden beseitigt. Beispiele für die Kanonisierung und mehr finden Sie unter Was ist URL-Kanonisierung und Eine kanonische URL mit rel="canonical" angeben und andere Methoden.
Sie können URL-Muster entweder von derselben oder von unterschiedlichen Domains einfügen, indexiert werden müssen und Muster ausschließen, die nicht indexiert werden dürfen. Die Anzahl der URL-Muster, die Sie ein- und ausschließen können, unterscheidet sich in folgender Weise:
Indexierungstyp Eingeschlossene Websites Ausgeschlossene Websites Einfache Websitesuche Maximal 50 URL-Muster Maximal 50 URL-Muster Erweiterte Websiteindexierung Maximal 500 URL-Muster Maximal 500 URL-Muster Prüfen Sie, ob die von Ihnen angegebenen Webseiten nicht durch robots.txt die Indexierung blockieren. Weitere Informationen finden Sie unter Einführung in robots.txt.
Wenn Sie die erweiterte Websiteindexierung verwenden möchten, müssen Sie die Domains für die URL-Muster in Ihrem Datenspeicher bestätigen können.
Fügen Sie Ihrem Datenspeicherschema strukturierte Daten in Form von
meta
-Tags und PageMaps hinzu, um die Indexierung zu optimieren, wie im Hilfeartikel Strukturierte Daten für die erweiterte Websiteindexierung verwenden beschrieben.
Weitere Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen.
Unstrukturierte Daten
Vertex AI Search unterstützt die Suche in Dokumenten im HTML-, PDF- mit eingebettetem Text und TXT-Format. Die Formate PPTX und DOCX sind in der Vorabversion verfügbar.
Sie importieren Ihre Dokumente aus einem Cloud Storage-Bucket. Sie können Importe über die Google Cloud Console durchführen, indem Sie
ImportDocuments
-Methode oder durch Streamingaufnahme
mithilfe von CRUD-Methoden erstellen.
API-Referenzinformationen finden Sie unter DocumentService.
und documents
.
HTML- und TXT-Dateien dürfen maximal 2,5 MB groß sein. PDF-, PPTX- und DOCX-Dateien darf maximal 100 MB groß sein. Sie können bis zu 100.000 Dateien gleichzeitig importieren.
Wenn Sie beabsichtigen, Einbettungen in Ihre unstrukturierten Daten einzubinden, lesen Sie den Abschnitt Benutzerdefinierte Einbettungen verwenden
Bei nicht durchsuchbaren PDFs (gescannte PDFs oder PDFs mit Text in Bildern) wie Infografiken), empfehlen wir, die optische Zeichenerkennung (OCR-Verarbeitung) bei der Erstellung des Datenspeichers. So können mit Vertex AI Search Elemente wie Textblöcke und Tabellen extrahiert werden. Wenn Sie durchsuchbare PDFs haben, die hauptsächlich aus maschinenlesbaren Text enthält und viele Tabellen enthalten, können Sie die OCR-Verarbeitung mit die Option für maschinenlesbaren Text aktiviert, um die Erkennung und . Weitere Informationen finden Sie unter Parsen und Chunken Dokumente.
Wenn Sie Vertex AI Search für die Retrieval-Augmented Generation (RAG) verwenden möchten, aktivieren Sie das Dokument-Chunking, wenn Sie Ihren Datenspeicher erstellen. Weitere Informationen finden Sie unter Dokumente parsen und in Blöcke aufteilen.
Sie können unstrukturierte Daten aus den folgenden Quellen importieren:
Cloud Storage
Sie können Daten mit oder ohne Metadaten aus Cloud Storage importieren.
Der Datenimport ist nicht rekursiv. Wenn sich also Ordner im angegebenen Bucket oder Ordner befinden, werden die Dateien in diesen Ordnern nicht importiert.
Wenn Sie Dokumente ohne Metadaten aus Cloud Storage importieren möchten, legen Sie sie direkt in einen Cloud Storage-Bucket ab. Die Dokument-ID ist ein Beispiel von Metadaten.
Zum Testen können Sie die folgenden öffentlich zugänglichen Cloud Storage-Ordner mit PDFs verwenden:
gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224
Wenn Sie Daten mit Metadaten aus Cloud Storage importieren möchten, legen Sie eine JSON-Datei ab der die Metadaten in einem Cloud Storage-Bucket enthält, dessen Speicherort Sie während des Imports bereitgestellt werden.
Die unstrukturierten Dokumente können sich im selben Cloud Storage-Bucket befinden wie Ihr Metadaten oder einer anderen.
Die Metadatendatei muss eine JSON-Zeilen oder eine NDJSON-Datei sein. Die Dokument-ID ist ein Beispiel für Metadaten. Jede Zeile der Metadatendatei muss einer der folgenden JSON-Formaten:
- Mit
jsonData
:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
- Mit
structData
:{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Verwenden Sie das Feld uri
in jeder Zeile, um auf den Cloud Storage-Speicherort des Dokuments zu verweisen.
Hier ist ein Beispiel für eine NDJSON-Metadatendatei für ein unstrukturiertes Dokument. In diesem Beispiel verweist jede Zeile der Metadatendatei auf ein PDF-Dokument und enthält die Metadaten für dieses Dokument. In den ersten beiden Zeilen wird jsonData
und in den zweiten beiden Zeilen structData
verwendet. Mit structData
ist kein
Escape-Anführungszeichen in Anführungszeichen gesetzt werden.
{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}
Weitere Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen.
BigQuery
Wenn Sie Metadaten aus BigQuery importieren möchten, erstellen Sie eine BigQuery-Tabelle mit Metadaten. Die Dokument-ID ist ein Beispiel für Metadaten.
Legen Sie Ihre unstrukturierten Dokumente in einem Cloud Storage-Bucket ab.
Verwenden Sie das folgende BigQuery-Schema. Verwenden Sie das Feld uri
in jedem Eintrag, um auf den Cloud Storage-Speicherort des Dokuments zu verweisen.
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
},
{
"name": "content",
"type": "RECORD",
"mode": "NULLABLE",
"fields": [
{
"name": "mimeType",
"type": "STRING",
"mode": "NULLABLE"
},
{
"name": "uri",
"type": "STRING",
"mode": "NULLABLE"
}
]
}
]
Weitere Informationen finden Sie unter Tabellen erstellen und verwenden. in der BigQuery-Dokumentation.
Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen
Google Drive
Die Synchronisierung von Daten aus Google Drive wird für die allgemeine Suche unterstützt.
Wenn Sie Daten aus Google Drive importieren möchten, müssen Sie Google Identity einrichten als Identitätsanbieter in Vertex AI Agent Builder. Informationen zu Einrichten der Zugriffssteuerung (siehe Zugriff auf Datenquellen verwenden) steuern können.
Weitere Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen.
Strukturierte Daten
Bereiten Sie Ihre Daten gemäß der Importmethode vor, die Sie verwenden möchten. Wenn Sie Mediadaten aufnehmen möchten, siehe auch Strukturierte Mediendaten.
Du kannst strukturierte Daten aus den folgenden Quellen importieren:
- BigQuery
- Cloud Storage
- Lokale JSON-Daten
- Datenquellen von Drittanbietern (Vorabversion mit Zulassungsliste)
Wenn Sie strukturierte Daten aus BigQuery oder Cloud Storage importieren, haben Sie die Möglichkeit, die Daten mit Metadaten zu importieren. (Strukturiert mit Metadaten werden auch als erweiterte strukturierte Daten bezeichnet.
BigQuery
Sie können strukturierte Daten aus BigQuery-Datasets importieren.
Das Schema wird automatisch erkannt. Nach dem Import empfiehlt Google, dass Sie Sie können das automatisch erkannte Schema bearbeiten, um wichtige Attribute wie Titel zuzuordnen. Wenn Sie mit der API statt über die Google Cloud Console importieren möchten, haben Sie die Möglichkeit, um Ihr eigenes Schema als JSON-Objekt bereitzustellen. Weitere Informationen finden Sie unter Schema angeben oder automatisch erkennen.
Beispiele für öffentlich verfügbare strukturierte Daten finden Sie in der Öffentliche BigQuery-Datasets:
Wenn du beabsichtigst, Einbettungen in deine strukturierten Daten zu integrieren, siehe Benutzerdefinierte Einbettungen verwenden
Wenn Sie strukturierte Daten mit Metadaten importieren, müssen Sie zwei Felder in Ihre BigQuery-Tabellen aufnehmen:
Ein
id
-Feld zur Identifizierung des Dokuments. Wenn Sie strukturierte Daten importieren ohne Metadaten, dann wird dieid
für Sie generiert. Wenn Sie Metadaten einfügen, können Sie den Wert vonid
angeben.Ein
jsonData
-Feld, das die Daten enthält. Beispiele fürjsonData
-Strings: Weitere Informationen finden Sie im vorherigen Abschnitt zu Cloud Storage.
Verwenden Sie das folgende BigQuery-Schema für strukturierte Daten mit Metadaten Importe:
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
}
]
Eine Anleitung zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen. oder Empfehlungsdatenspeicher erstellen.
Cloud Storage
Strukturierte Daten in Cloud Storage müssen entweder im JSON Lines- oder im NDJSON-Format vorliegen. Jede Datei darf maximal 2 GB groß sein. Sie können bis zu 100 Dateien importieren auf einmal ansehen.
Beispiele für öffentlich verfügbare strukturierte Daten finden Sie in den folgenden Ordnern in Cloud Storage, die NDJSON-Dateien enthalten:
gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311
Wenn Sie Einbettungen in Ihre strukturierten Daten einfügen möchten, lesen Sie den Hilfeartikel Benutzerdefinierte Einbettungen verwenden.
Hier ist ein Beispiel für eine NDJSON-Metadatendatei mit strukturierten Daten. Jede Zeile von Die Datei stellt ein Dokument dar und besteht aus einer Reihe von Feldern.
{"hotel_id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"hotel_id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"hotel_id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}
Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen
Lokale JSON-Daten
Sie können ein JSON-Dokument oder -Objekt direkt über die API hochladen.
Google empfiehlt, Ihr eigenes Schema als JSON-Objekt anzugeben, um bessere Ergebnisse zu erzielen. Wenn Sie kein eigenes Schema angeben, wird das Schema automatisch erkannt. Nachher importieren möchten, empfehlen wir, das automatisch erkannte Schema zu bearbeiten, um den Schlüssel wie z. B. Titel. Weitere Informationen finden Sie unter Schema angeben oder automatisch erkennen.
Wenn du beabsichtigst, Einbettungen in deine strukturierten Daten zu integrieren, siehe Benutzerdefinierte Einbettungen verwenden
Weitere Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen.
Strukturierte Mediendaten
Wenn Sie strukturierte Mediendaten wie Videos, Nachrichten oder Musik aufnehmen möchten, beachten Sie Folgendes:
- Informationen zu Ihrer Importmethode (BigQuery oder Cloud Storage): Strukturierte Daten
- Erforderliche Schemas und Felder für Mediendokumente und Datenspeicher: Mediendokumente und Datenspeicher
- Anforderungen und Schemas für Nutzerereignisse: Nutzerereignisse
- Informationen zu den Arten von Medienempfehlungen: Arten von Medienempfehlungen
Datenquellen von Drittanbietern
Das Einlesen von Daten aus Drittanbieterquellen ist eine Vorabversion mit Zulassungsliste.
Verbindungen zu Datenquellen von Drittanbietern werden für die allgemeine Suche unterstützt.
Wenn Sie eine Drittanbieterdatenquelle verbinden, werden die Daten zuerst aufgenommen und dann mit einer von Ihnen angegebenen Häufigkeit mit Vertex AI Search synchronisiert.
Bevor Sie die Verbindung zur Datenquelle einrichten, müssen Sie die Zugriffssteuerung für die Datenquelle einrichten. Informationen zum Einrichten der Zugriffssteuerung finden Sie unter Zugriffssteuerung für Datenquellen verwenden.
Informationen zu den erforderlichen Anmeldedaten für die Verbindung einer Datenquelle finden Sie in der Dokumentation zur Verbindung der Datenquelle des Drittanbieters, von der Sie Daten aufnehmen möchten:
Healthcare FHIR-Daten
Wenn Sie FHIR-Daten aus der Cloud Healthcare API aufnehmen möchten, müssen folgende Voraussetzungen erfüllt sein:
- Speicherort: Der Quell-FHIR-Speicher muss sich in einem Cloud Healthcare API-Dataset befinden, das sich an den Speicherorten
us-central1
,us
odereu
befindet. Weitere Informationen finden Sie unter Datasets in der Cloud Healthcare API erstellen und verwalten. - FHIR-Speichertyp: Der Quell-FHIR-Speicher muss ein R4-Datenspeicher sein. Sie können die Versionen Ihrer FHIR-Speicher prüfen, indem Sie die FHIR-Speicher in Ihrem Dataset auflisten Informationen zum Erstellen eines FHIR R4-Speichers finden Sie unter FHIR-Speicher erstellen.
- Importkontingent: Der Quell-FHIR-Speicher darf weniger als eine Million FHIR-Ressourcen enthalten. Bei mehr als 1 Million FHIR-Ressourcen wird der Importvorgang beendet. nachdem dieses Limit erreicht ist. Weitere Informationen finden Sie unter Kontingente und Limits.
- Die Dateien, auf die in einer
DocumentReference
-Ressource verwiesen wird, müssen PDF-, RTF- oder Bilddateien sein, die in Cloud Storage gespeichert sind. Der Link zu den Dateien, auf die verwiesen wird, muss im Feldcontent[].attachment.url
angegeben werden der Ressource im Cloud Storage-Standardpfadformat:gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE
. - Liste der FHIR R4-Ressourcen, die von Vertex AI Search unterstützt werden Weitere Informationen finden Sie in der Referenz für das FHIR R4-Datenschema für die Gesundheitsversorgung.