Diese Seite wurde von der Cloud Translation API übersetzt.

Daten für benutzerdefinierte Datenquellen vorbereiten

Unternehmen haben oft selbst entwickelte benutzerdefinierte Anwendungen. Wenn Gemini Enterprise eine Verbindung zu den Datenquellen in diesen benutzerdefinierten Anwendungen herstellen soll, müssen Sie die Daten zuerst vorbereiten. Wie Sie Daten vorbereiten, hängt von der Art der Daten ab, die Sie aus Ihrer benutzerdefinierten Datenquelle importieren, und von der Art des Imports. Beginnen Sie damit, welche Art von Daten Sie importieren möchten:

Unstrukturierte Daten
Strukturierte Daten

Informationen zu Einschränkungen bei der zusammengeführten Suche, bei der mehrere Datenspeicher mit einer einzelnen App verbunden werden können, finden Sie unter Mehrere Datenspeicher verbinden.

Unstrukturierte Daten

Gemini Enterprise unterstützt die Suche in Dokumenten im HTML-, PDF-Format mit eingebettetem Text und TXT-Format. PPTX- und DOCX-Formate sind in der Vorabversion verfügbar.

In der folgenden Tabelle sind die Dateigrößenbeschränkungen für die einzelnen Dateitypen mit verschiedenen Konfigurationen aufgeführt. Weitere Informationen finden Sie unter Dokumente parsen und in Chunks aufteilen. Sie können jeweils bis zu 100.000 Dateien importieren.

Dateityp	Standardimport
Textbasierte Dateien wie HTML, TXT, JSON, XHTML und XML	< 200 MB
PPTX, DOCX und XLSX	< 200 MB
PDF	< 200 MB

Wenn Sie Einbettungen in Ihre unstrukturierten Daten einfügen möchten, lesen Sie den Abschnitt Benutzerdefinierte Einbettungen verwenden.

Wenn Sie nicht durchsuchbare PDFs haben (gescannte PDFs oder PDFs mit Text in Bildern, z. B. Infografiken), empfehlen wir, den Layout-Parser beim Erstellen des Datenspeichers zu aktivieren. So kann Gemini Enterprise Elemente wie Textblöcke und Tabellen extrahieren. Wenn Sie durchsuchbare PDFs haben, die hauptsächlich aus maschinenlesbarem Text bestehen und viele Tabellen enthalten, können Sie die OCR-Verarbeitung mit der Option für maschinenlesbaren Text aktivieren, um die Erkennung und das Parsen zu verbessern. Weitere Informationen finden Sie unter Dokumente parsen und in Chunks aufteilen.

Wenn Sie Gemini Enterprise für Retrieval Augmented Generation (RAG) verwenden möchten, aktivieren Sie das Aufteilen von Dokumenten in Chunks, wenn Sie den Datenspeicher erstellen. Weitere Informationen finden Sie unter Dokumente parsen und in Chunks aufteilen.

Sie können unstrukturierte Daten aus den folgenden Quellen importieren:

Cloud Storage
BigQuery
Google Drive

Cloud Storage

Sie können Daten mit oder ohne Metadaten aus Cloud Storage importieren. Dazu haben Sie folgende Möglichkeiten: Google Cloud Console, ImportDocuments-Methode oder Streaming-Aufnahme über CRUD-Methoden. Informationen zur API-Referenz finden Sie unter DocumentService und documents.

Der Datenimport ist rekursiv. Wenn Sie also einen Bucket oder Ordner angeben, werden Dateien in diesen Ordnern importiert.

Wenn Sie Dokumente ohne Metadaten aus Cloud Storage importieren möchten, legen Sie die Dokumente direkt in einem Cloud Storage-Bucket ab. Die Dokument-ID ist ein Beispiel für Metadaten.

Zum Testen können Sie die folgenden öffentlich verfügbaren Cloud Storage-Ordner mit PDFs verwenden:

gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Wenn Sie Daten mit Metadaten aus Cloud Storage importieren möchten, legen Sie eine JSON-Datei mit den Metadaten in einen Cloud Storage-Bucket, dessen Speicherort Sie beim Import angeben.

Ihre unstrukturierten Dokumente können sich im selben Cloud Storage-Bucket wie Ihre Metadaten oder in einem anderen befinden.

Die Metadatendatei muss eine JSON Lines- oder NDJSON-Datei sein. Die Dokument-ID ist ein Beispiel für Metadaten. Jede Zeile der Metadatendatei muss einem der folgenden JSON-Formate entsprechen:

mit jsonData:

{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

mit structData:

{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Verwenden Sie das Feld uri in jeder Zeile, um auf den Cloud Storage-Speicherort des Dokuments zu verweisen.

Hier sehen Sie ein Beispiel für eine NDJSON-Metadatendatei für ein unstrukturiertes Dokument. In diesem Beispiel verweist jede Zeile der Metadatendatei auf ein PDF-Dokument und enthält die Metadaten für dieses Dokument. In den ersten beiden Zeilen wird jsonData und in den zweiten beiden Zeilen structData verwendet. Bei structData müssen Sie Anführungszeichen, die innerhalb von Anführungszeichen stehen, nicht maskieren.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Informationen zum Erstellen eines Datenspeichers finden Sie unter Google-Datenquelle verbinden.

BigQuery

Wenn Sie Metadaten aus BigQuery importieren möchten, gehen Sie so vor:

Erstellen Sie eine BigQuery-Tabelle, die Metadaten enthält. Die Dokument-ID ist ein Beispiel für Metadaten.
Legen Sie Ihre unstrukturierten Dokumente in einen Cloud Storage-Bucket.

Sie können Daten über die Google Cloud -Konsole, mit der Methode ImportDocuments oder durch Streaming-Aufnahme über CRUD-Methoden importieren. Informationen zur API-Referenz finden Sie unter DocumentService und documents.

Verwenden Sie das folgende BigQuery-Schema. Verwenden Sie das Feld uri in jedem Datensatz, um auf den Cloud Storage-Speicherort des Dokuments zu verweisen.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Weitere Informationen finden Sie in der BigQuery-Dokumentation unter Tabellen erstellen und verwenden.

Informationen zum Erstellen eines Datenspeichers finden Sie unter Google-Datenquelle verbinden.

Google Drive

Die Synchronisierung von Daten aus Google Drive wird für die Suche unterstützt.

Wenn Sie Daten aus Google Drive importieren möchten, müssen Sie Google Identity als Identitätsanbieter in Gemini Enterprise einrichten. Informationen zum Einrichten der Zugriffssteuerung finden Sie unter Identität und Berechtigungen.

Informationen zum Erstellen eines Datenspeichers finden Sie unter Google-Datenquelle verbinden.

Strukturierte Daten

Bereiten Sie Ihre Daten entsprechend der Importmethode vor, die Sie verwenden möchten.

Sie können strukturierte Daten aus den folgenden Quellen importieren:

BigQuery
Cloud Storage
Lokale JSON-Daten

Wenn Sie strukturierte Daten aus BigQuery oder Cloud Storage importieren, haben Sie die Möglichkeit, die Daten mit Metadaten zu importieren. (Strukturierte Daten mit Metadaten werden auch als erweiterte strukturierte Daten bezeichnet.)

BigQuery

Sie können strukturierte Daten aus BigQuery-Datasets importieren.

Das Schema wird automatisch erkannt. Nach dem Import empfiehlt Google, das automatisch erkannte Schema zu bearbeiten, um wichtige Attribute wie Titel zuzuordnen. Wenn Sie den Import über die API statt über die Google Cloud Konsole vornehmen, können Sie Ihr eigenes Schema als JSON-Objekt angeben. Weitere Informationen finden Sie unter Schema bereitstellen oder automatisch erkennen lassen.

Beispiele für öffentlich verfügbare strukturierte Daten finden Sie unter Öffentliche BigQuery-Datasets.

Wenn Sie Einbettungen in Ihre strukturierten Daten einfügen möchten, lesen Sie den Abschnitt Benutzerdefinierte Einbettungen verwenden.

Wenn Sie strukturierte Daten mit Metadaten importieren möchten, müssen Sie zwei Felder in Ihre BigQuery-Tabellen aufnehmen:

Ein id-Feld zur Identifizierung des Dokuments. Wenn Sie strukturierte Daten ohne Metadaten importieren, wird die id für Sie generiert. Wenn Sie Metadaten einfügen, können Sie den Wert von id angeben.
Ein jsonData-Feld, das die Daten enthält. Beispiele für jsonData-Strings finden Sie im vorherigen Abschnitt Cloud Storage.

Verwenden Sie das folgende BigQuery-Schema für den Import strukturierter Daten mit Metadaten:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Informationen zum Erstellen eines Datenspeichers finden Sie unter Google-Datenquelle verbinden.

Cloud Storage

Strukturierte Daten in Cloud Storage müssen entweder im JSON Lines- oder im NDJSON-Format vorliegen. Jede Datei darf maximal 2 GB groß sein. Sie können bis zu 1.000 Dateien in einer einzelnen Importanfrage importieren.

Beispiele für öffentlich verfügbare strukturierte Daten finden Sie in den folgenden Ordnern in Cloud Storage, die NDJSON-Dateien enthalten:

gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311

Wenn Sie Einbettungen in Ihre strukturierten Daten einfügen möchten, lesen Sie den Abschnitt Benutzerdefinierte Einbettungen verwenden.

Hier sehen Sie ein Beispiel für eine NDJSON-Metadatendatei mit strukturierten Daten. Jede Zeile der Datei stellt ein Dokument dar und besteht aus einer Reihe von Feldern.

{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Informationen zum Erstellen eines Datenspeichers finden Sie unter Google-Datenquelle verbinden.

Lokale JSON-Daten

Sie können ein JSON-Dokument oder -Objekt direkt über die API hochladen.

Google empfiehlt, Ihr eigenes Schema als JSON-Objekt bereitzustellen, um bessere Ergebnisse zu erzielen. Wenn Sie kein eigenes Schema angeben, wird das Schema automatisch erkannt. Nach dem Import empfehlen wir, das automatisch erkannte Schema zu bearbeiten, um wichtige Eigenschaften wie Titel zuzuordnen. Weitere Informationen finden Sie unter Schema bereitstellen oder automatisch erkennen lassen.

Wenn Sie Einbettungen in Ihre strukturierten Daten einfügen möchten, lesen Sie den Abschnitt Benutzerdefinierte Einbettungen verwenden.

Informationen zum Erstellen eines Datenspeichers finden Sie unter Google-Datenquelle verbinden.