Dokumente parsen und in Blöcke aufteilen

Auf dieser Seite wird beschrieben, wie Sie mit der Vertex AI Search Ihre Dokumente parsen und in Blöcke aufteilen.

Sie können die Einstellungen für das Parsen oder Chunking konfigurieren, um Folgendes zu tun:

  • Angeben, wie Vertex AI Search Inhalte analysiert. Sie können beim Hochladen in Vertex AI Search angeben, wie unstrukturierte Inhalte geparst werden sollen. Vertex AI Search bietet einen digitalen Parser, einen OCR-Parser für PDFs und einen Layout-Parser. Sie können auch Ihre eigenen geparsten Dokumente mitbringen. Der Layout-Parser wird empfohlen, wenn Sie umfangreiche Inhalte und strukturelle Elemente wie Abschnitte, Absätze, Tabellen und Listen aus Dokumenten für die Suche und Antwortgenerierung extrahieren möchten.

    Weitere Informationen finden Sie unter Inhaltserkennung durch Parsen verbessern.

  • Vertex AI Search für die Retrieval-Augmented Generation (RAG) verwenden Sie können die Ausgabe von LLMs mit relevanten Daten verbessern, die Sie in Ihre Vertex AI Search App hochgeladen haben. Dazu aktivieren Sie das Dokument-Chunking, mit dem Ihre Daten als Chunks indexiert werden, um die Relevanz zu verbessern und die Rechenlast für LLMs zu verringern. Außerdem aktivieren Sie den Layout-Parser, der Dokumentelemente wie Überschriften und Listen erkennt, um die Segmentierung von Dokumenten zu verbessern.

    Informationen zum Chunking für RAG und zum Zurückgeben von Chunks in Suchanfragen finden Sie unter Dokumente für RAG in Chunks aufteilen.

Dokumente parsen

Sie können das Parsen von Inhalten auf folgende Arten steuern:

  • Parsertyp angeben Sie können den zu verwendenden Parsetyp je nach Dateityp angeben:

    • Digitaler Parser Der digitale Parser ist standardmäßig für alle Dateitypen aktiviert, sofern kein anderer Parsertyp angegeben wird. Der digitale Parser verarbeitet aufgenommene Dokumente, wenn für den Datenspeicher kein anderer Standardparser angegeben ist oder der angegebene Parser den Dateityp eines aufgenommenen Dokuments nicht unterstützt.
    • OCR-Parsing für PDFs Wenn Sie gescannte PDFs oder PDFs mit Text in Bildern hochladen möchten, können Sie den OCR-Parser aktivieren, um die PDF-Indexierung zu verbessern. Weitere Informationen finden Sie in diesem Dokument im Abschnitt OCR-Parser für PDFs.
    • Layout-Parser Aktivieren Sie den Layout-Parser für HTML-, PDF- oder DOCX-Dateien, wenn Sie Vertex AI Search für RAG verwenden möchten. Informationen zu diesem Parser und dazu, wie Sie ihn aktivieren, finden Sie unter Chunk-Dokumente für RAG.
  • Eigenes geparstes Dokument verwenden (Vorabversion mit Zulassungsliste) Wenn Sie Ihre unstrukturierten Dokumente bereits geparst haben, können Sie diese vorab geparsten Inhalte in Vertex AI Search importieren. Weitere Informationen finden Sie unter Eigenes geparstes Dokument verwenden.

Vergleich der Parserverfügbarkeit

In der folgenden Tabelle sind die Verfügbarkeit der einzelnen Parser nach Dokumentdateitypen aufgeführt. Außerdem wird angezeigt, welche Elemente die einzelnen Parser erkennen und parsen können.

Dateityp Digitaler Parser OCR-Parser Layout-Parser
HTML Erkennt Absatzelemente Erkennt Absätze, Tabellen, Listen, Titel und Überschriften
PDF Erkennt Absatzelemente (digitaler Text) Erkennt Absatzelemente Erkennt Absätze, Tabellen, Titel und Überschriften
DOCX (Vorabversion) Erkennt Absatzelemente Erkennt Absätze, Tabellen, Listen, Titel und Überschriften
PPTX (Vorabversion) Erkennt Absatzelemente Erkennt Absätze, Tabellen, Listen, Titel und Überschriften
TXT Erkennt Absatzelemente Erkennt Absätze, Tabellen, Titel und Überschriften
XLSX (Vorabversion) Erkennt Absatzelemente Erkennt Absätze, Tabellen, Titel und Überschriften

Digitaler Parser

Der digitale Parser extrahiert maschinenlesbaren Text aus Dokumenten. Es erkennt Textblöcke, aber keine Dokumentelemente wie Tabellen, Listen und Überschriften.

Der digitale Parser wird als Standard verwendet, wenn Sie beim Erstellen des Datenspeichers keinen anderen Parser als Standard angeben oder ein angegebener Parser keinen Dateityp unterstützt, der hochgeladen wird.

OCR-Parser für PDFs

Wenn Sie PDFs haben, die nicht durchsuchbar sind (gescannte PDFs oder PDFs mit Text in Bildern, z. B. Infografiken), empfiehlt Google, beim Erstellen des Datenspeichers die optische Zeichenerkennung (OCR) zu aktivieren. So kann Vertex AI Search Absatzelemente extrahieren.

Wenn Sie suchbare PDFs oder andere digitale Formate haben, die hauptsächlich aus maschinenlesbarem Text bestehen, müssen Sie in der Regel nicht den OCR-Parser verwenden. Wenn Sie jedoch PDFs haben, die sowohl nicht suchbaren Text (z. B. gescannten Text oder Infografiken) als auch maschinenlesbaren Text enthalten, können Sie das Feld useNativeText auf „wahr“ setzen, wenn Sie den OCR-Parser angeben. In diesem Fall wird maschinenlesbarer Text mit OCR-Parse-Ausgaben zusammengeführt, um die Qualität der Textextraktion zu verbessern.

OCR-Verarbeitungsfunktionen sind für allgemeine Suchanwendungen mit unstrukturierten Datenspeichern verfügbar.

Der OCR-Prozessor kann maximal 500 Seiten pro PDF-Datei analysieren. Bei längeren PDFs werden die ersten 500 Seiten vom OCR-Prozessor und der Rest vom Standard-Parser geparst.

Layout-Parser

Mit dem Layout-Parsing kann Vertex AI Search Layouts für PDF- und HTML-Dateien erkennen. Die Unterstützung für DOCX-Dateien befindet sich in der Vorabversion. Vertex AI Search kann dann Inhaltselemente wie Textblöcke, Tabellen, Listen und strukturelle Elemente wie Titel und Überschriften erkennen und anhand dieser die Struktur und Hierarchie eines Dokuments definieren.

Sie können das Layout-Parsing entweder für alle Dateitypen aktivieren oder angeben, für welche Dateitypen es aktiviert werden soll. Der Layout-Parser erkennt Inhaltselemente wie Absätze, Tabellen, Listen und Strukturelemente wie Titel, Überschriften, Kopfzeilen und Fußnoten.

Der Layout-Parser ist nur verfügbar, wenn für RAG das Dokument-Chunking verwendet wird. Wenn das Dokument-Chunking aktiviert ist, teilt Vertex AI Search Dokumente bei der Datenaufnahme in Chunks auf und kann Dokumente als Chunks zurückgeben. Durch die Erkennung des Dokumentlayouts wird ein inhaltsbezogener Textabschnitt möglich und die Suche und Antwortgenerierung im Zusammenhang mit Dokumentelementen wird verbessert. Weitere Informationen zum Aufteilen von Dokumenten für die RAG finden Sie unter Dokumente für die RAG in Chunks aufteilen.

Standardparser angeben

Wenn Sie beim Erstellen eines Datenspeichers das Objekt documentProcessingConfig einschließen, können Sie einen Standardparser für diesen Datenspeicher angeben. Wenn Sie documentProcessingConfig.defaultParsingConfig nicht angeben, wird der digitale Parser verwendet. Der digitale Parser wird auch verwendet, wenn der angegebene Parser für einen Dateityp nicht verfügbar ist.

REST

So legen Sie einen Standardparser fest:

  1. Wenn Sie mit der API einen Suchdatenspeicher erstellen, geben Sie documentProcessingConfig.defaultParsingConfig in die Anfrage zum Erstellen des Datenspeichers ein. Sie können den OCR-Parser, den Layout-Parser oder den digitalen Parser angeben:

    • So legen Sie den OCR-Parser für PDFs fest:

      "documentProcessingConfig": {
        "defaultParsingConfig": {
          "ocrParsingConfig": {
            "useNativeText": "NATIVE_TEXT_BOOLEAN"
          }
        }
      }
      
      • NATIVE_TEXT_BOOLEAN: Optional. Nur festlegen, wenn Sie PDFs aufnehmen. Wenn diese Option auf true festgelegt ist, wird die Verarbeitung maschinenlesbarer Texte für den OCR-Parser aktiviert. Der Standardwert ist false.
    • So legen Sie den Layout-Parser fest:

      "documentProcessingConfig": {
        "defaultParsingConfig": {
          "layoutParsingConfig": {}
        }
      }
      
    • So legen Sie den digitalen Parser fest:

       "documentProcessingConfig": {
          "defaultParsingConfig": { "digitalParsingConfig": {} }
       }
      

Beispiel

Im folgenden Beispiel wird beim Erstellen des Datenspeichers angegeben, dass der OCR-Parser der Standardparser sein soll. Da der OCR-Parser nur für PDF-Dateien gilt, werden alle aufgenommenen PDF-Dateien vom OCR-Parser verarbeitet. Alle anderen Dateitypen werden vom digitalen Parser verarbeitet.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1alpha/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "defaultParsingConfig": {
      "ocrParsingConfig": {
        "useNativeText": "false"
      }
    }
  }
}'

Parser-Überschreibungen für Dateitypen angeben

Sie können angeben, dass ein bestimmter Dateityp (PDF, HTML oder DOCX) von einem anderen Parser als dem Standardparser geparst werden soll. Geben Sie dazu das Feld documentProcessingConfig in die Anfrage zum Erstellen des Datenspeichers ein und geben Sie den Override-Parser an. Wenn Sie keinen Standardparser angeben, wird der digitale Parser verwendet.

REST

So geben Sie ein dateitypspezifisches Parser-Überschreiben an:

  1. Wenn Sie mit der API einen Suchdatenspeicher erstellen, geben Sie documentProcessingConfig.defaultParsingConfig in die Anfrage zum Erstellen des Datenspeichers ein.

    Sie können einen Parser für pdf, html oder docx angeben:

    "documentProcessingConfig": {
      "parsingConfigOverrides": {
        "FILE_TYPE": { PARSING_CONFIG },
      }
     }
    

    Ersetzen Sie Folgendes:

    • FILE_TYPE: Zulässige Werte sind pdf, html und docx.
    • PARSING_CONFIG: Geben Sie die Konfiguration für den Parser an, die Sie auf den Dateityp anwenden möchten. Sie können den OCR-Parser, den Layout-Parser oder den digitalen Parser angeben:

      • So legen Sie den OCR-Parser für PDFs fest:

        "ocrParsingConfig": {
          "useNativeText": "NATIVE_TEXT_BOOLEAN"
        }
        
        • NATIVE_TEXT_BOOLEAN: Optional. Nur festlegen, wenn Sie PDFs hochladen. Wenn dieser Wert auf true festgelegt ist, wird die Verarbeitung von maschinenlesbaren Texten für den OCR-Parser aktiviert. Der Standardwert ist false.
      • So legen Sie den Layout-Parser fest:

        "layoutParsingConfig": {}
        
      • So legen Sie den digitalen Parser fest:

        "documentProcessingConfig": {
          "defaultParsingConfig": { "digitalParsingConfig": {} }
        }
        

Beispiel

Im folgenden Beispiel wird beim Erstellen des Datenspeichers angegeben, dass PDF-Dateien vom OCR-Parser und HTML-Dateien vom Layout-Parser verarbeitet werden sollen. In diesem Fall werden alle Dateien außer PDF- und HTML-Dateien vom digitalen Parser verarbeitet.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1alpha/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "parsingConfigOverrides": {
      "pdf": {
        "ocrParsingConfig": {
            "useNativeText": "false"
          },
      },
      "html": {
         "layoutParsingConfig": {}
      }
    }
  }
}'

Geparste Dokumente im JSON-Format abrufen

Sie können ein geparstes Dokument im JSON-Format abrufen, indem Sie die Methode getProcessedDocument aufrufen und PARSED_DOCUMENT als verarbeiteten Dokumenttyp angeben. Wenn Sie geparste Dokumente in JSON-Format abrufen, kann das hilfreich sein, wenn Sie das geparste Dokument an anderer Stelle hochladen oder geparste Dokumente mit der Funktion Eigenes geparstes Dokument hochladen wieder in Vertex AI Agent Builder importieren möchten.

REST

So rufen Sie geparste Dokumente im JSON-Format ab:

  1. Rufen Sie die Methode getProcessedDocument auf:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID:getProcessedDocument?processed_document_type=PARSED_DOCUMENT"
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: Die ID Ihres Projekts.
    • DATA_STORE_ID: Die ID Ihres Datenspeichers.
    • DOCUMENT_ID: Die ID des Dokuments, das abgerufen werden soll.

Eigenes geparstes Dokument verwenden

Sie können bereits geparste, unstrukturierte Dokumente in Vertex AI Search-Datenspeicher importieren. Anstatt ein Roh-PDF-Dokument zu importieren, können Sie die PDF-Datei beispielsweise selbst parsen und das Parseergebnis importieren. So können Sie Ihre Dokumente strukturiert importieren und dafür sorgen, dass bei der Suche und Antwortgenerierung Informationen zum Layout und zu den Elementen des Dokuments berücksichtigt werden.

Ein geparstes, unstrukturiertes Dokument wird durch JSON dargestellt, das das unstrukturierte Dokument mit einer Sequenz von Text-, Tabellen- und Listenblöcken beschreibt. JSON-Dateien mit Ihren geparsten Daten aus unstrukturierten Dokumenten werden auf die gleiche Weise importiert wie andere Arten von unstrukturierten Dokumenten, z. B. PDFs. Wenn diese Funktion aktiviert ist, wird eine JSON-Datei, die hochgeladen und entweder durch einen application/json-MIME-Typ oder eine .JSON-Erweiterung identifiziert wird, als geparstes Dokument behandelt.

Wenden Sie sich an Ihr Google Konten-Team, um diese Funktion zu aktivieren und weitere Informationen zu erhalten.

Dokumente in RAG-Chunks aufteilen

Standardmäßig ist Vertex AI Search für den Dokumentabruf optimiert. Dabei gibt Ihre Suchanwendung mit jedem Suchergebnis ein Dokument wie eine PDF-Datei oder eine Webseite zurück.

Funktionen zum Aufteilen von Dokumenten sind für allgemeine Suchanwendungen mit unstrukturierten Datenspeichern verfügbar.

Vertex AI Search kann stattdessen für RAG optimiert werden, wobei Ihre Suchanwendung hauptsächlich dazu verwendet wird, die LLM-Ausgabe mit Ihren benutzerdefinierten Daten zu ergänzen. Wenn das Dokument-Chunking aktiviert ist, gliedert Vertex AI Search Ihre Dokumente in Chunks auf. In den Suchergebnissen kann Ihre Such-App relevante Datenblöcke anstelle vollständiger Dokumente zurückgeben. Die Verwendung von gechunkten Daten für RAG erhöht die Relevanz für LLM-Antworten und reduziert die Rechenlast für LLMs.

So verwenden Sie Vertex AI Search für RAG:

  1. Aktivieren Sie die Dokumentaufteilung, wenn Sie den Datenspeicher erstellen.

    Alternativ können Sie eigene Chunks hochladen (Vorschau mit Zulassungsliste), wenn Sie Ihre eigenen Dokumente bereits in Chunks aufgeteilt haben.

  2. So kannst du Chunks abrufen und ansehen:

  3. Gib in Suchanfragen Chunks zurück.

Beschränkungen

Für das Chunking gelten die folgenden Einschränkungen:

  • Die Dokumentaufteilung kann nach dem Erstellen des Datenspeichers nicht mehr aktiviert oder deaktiviert werden.
  • Wenn die Dokumentaufteilung aktiviert ist, können Sie Suchanfragen für Dokumente statt für Chunks aus einem Datenspeicher stellen. Datenspeicher mit aktiviertem Dokument-Chunking sind jedoch nicht für die Rückgabe von Dokumenten optimiert. Dokumente werden zurückgegeben, indem Blöcke in Dokumente zusammengefasst werden.
  • Wenn das Dokument-Chunking aktiviert ist, werden Suchzusammenfassungen und die Suche mit Folgefragen in der öffentlichen Vorschau unterstützt, aber nicht in der GA-Version.

Optionen für die Dokumentaufteilung

In diesem Abschnitt werden die Optionen beschrieben, die Sie angeben müssen, um das Dokument-Chunking zu aktivieren.

Aktivieren Sie beim Erstellen des Datenspeichers die folgenden Optionen, damit Vertex AI Search Ihre Dokumente als Chunks indexieren kann.

  • Layoutorientierte Dokumentaufteilung Wenn Sie diese Option aktivieren möchten, fügen Sie das Feld documentProcessingConfig in die Anfrage zum Erstellen des Datenspeichers ein und geben Sie ChunkingConfig.LayoutBasedChunkingConfig an.

    Wenn die layoutbezogene Dokumentaufteilung aktiviert ist, erkennt Vertex AI Search das Layout eines Dokuments und berücksichtigt es beim Aufteilen. Dadurch wird die semantische Kohärenz verbessert und es werden weniger Störfaktoren in den Inhalten berücksichtigt, wenn sie für das Abrufen und die LLM-Generierung verwendet werden. Der gesamte Text in einem Block stammt aus derselben Layoutentität, z. B. Überschriften, Zwischenüberschriften und Listen.

  • Layout-Parsing Wenn Sie diese Option aktivieren möchten, geben Sie beim Erstellen des Datenspeichers ParsingConfig.LayoutParsingConfig an.

    Der Layout-Parser erkennt Layouts für PDF-, HTML- und DOCX-Dateien. Es werden Elemente wie Textblöcke, Tabellen, Listen, Titel und Überschriften erkannt und verwendet, um die Struktur und Hierarchie eines Dokuments zu definieren.

    Weitere Informationen zum Layout-Parsing finden Sie unter Layout-Parsing.

Dokumentaufteilung aktivieren

Sie können die Dokumentaufteilung aktivieren, indem Sie das Objekt documentProcessingConfig in Ihre Anfrage zum Erstellen des Datenspeichers einfügen und die layoutbezogene Dokumentaufteilung und das Layout-Parsing aktivieren.

REST

So aktivieren Sie die Dokumentaufteilung:

  1. Wenn Sie mit der API einen Suchdatenspeicher erstellen, schließen Sie das documentProcessingConfig.chunkingConfig-Objekt in die Anfrage zum Erstellen des Datenspeichers ein.

     "documentProcessingConfig": {
       "chunkingConfig": {
           "layoutBasedChunkingConfig": {
               "chunkSize": CHUNK_SIZE_LIMIT,
               "includeAncestorHeadings": HEADINGS_BOOLEAN,
           }
       },
       "defaultParsingConfig": {
         "layoutParsingConfig": {}
       }
     }
    

    Ersetzen Sie Folgendes:

    • CHUNK_SIZE_LIMIT: Optional. Das Tokengrößenlimit für jeden Block. Der Standardwert ist 500. Unterstützte Werte sind 100–500 (einschließlich).
    • HEADINGS_BOOLEAN: Optional. Bestimmt, ob Überschriften in jedem Block enthalten sind. Der Standardwert ist false. Wenn Sie Titel und Überschriften auf allen Ebenen an Blöcke aus der Mitte des Dokuments anhängen, kann dies dazu beitragen, den Verlust von Kontext bei der Blockabruf- und -bewertung zu verhindern.

Eigene Chunks verwenden (Vorabversion mit Zulassungsliste)

Wenn Sie Ihre eigenen Dokumente bereits in kleinere Teile aufgeteilt haben, können Sie diese in Vertex AI Search hochladen, anstatt die Optionen für das Aufteilen von Dokumenten zu aktivieren.

Das Hochladen eigener Chunks ist eine Vorabversion mit Zulassungsliste. Wenden Sie sich an Ihr Google-Kontoteam, um diese Funktion zu verwenden.

Blöcke eines Dokuments auflisten

Wenn Sie alle Chunks für ein bestimmtes Dokument auflisten möchten, rufen Sie die Methode Chunks.list auf.

REST

So listen Sie die Blöcke für ein Dokument auf:

  1. Rufen Sie die Methode Chunks.list auf.

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks"
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: Die ID Ihres Projekts.
    • DATA_STORE_ID: Die ID Ihres Datenspeichers.
    • DOCUMENT_ID: Die ID des Dokuments, aus dem die Segmente aufgelistet werden sollen.

Chunks in JSON aus einem verarbeiteten Dokument abrufen

Sie können alle Chunks aus einem bestimmten Dokument im JSON-Format abrufen, indem Sie die Methode getProcessedDocument aufrufen. Das Abrufen von Chunks im JSON-Format kann hilfreich sein, wenn Sie Chunks an anderer Stelle hochladen oder Chunks mit der Funktion Eigene Chunks hochladen wieder in Vertex AI Agent Builder importieren möchten.

REST

So rufen Sie JSON-Chunks für ein Dokument ab:

  1. Rufen Sie die Methode getProcessedDocument auf:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks:getProcessedDocument?processed_document_type=CHUNKED_DOCUMENT"
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: Die ID Ihres Projekts.
    • DATA_STORE_ID: Die ID Ihres Datenspeichers.
    • DOCUMENT_ID: Die ID des Dokuments, aus dem die Segmente abgerufen werden sollen.

Bestimmte Textabschnitte abrufen

Wenn Sie einen bestimmten Block abrufen möchten, rufen Sie die Methode Chunks.get auf.

REST

So rufen Sie einen bestimmten Datenblock ab:

  1. Rufen Sie die Methode Chunks.get auf.

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks/CHUNK_ID"
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: Die ID Ihres Projekts.
    • DATA_STORE_ID: Die ID Ihres Datenspeichers.
    • DOCUMENT_ID: Die ID des Dokuments, aus dem der Block stammt.
    • CHUNK_ID: Die ID des zu retournierenden Chunks.

Nachdem Sie bestätigt haben, dass Ihre Daten richtig gechunkt wurden, kann die Vertex AI Search gechunkte Daten in den Suchergebnissen zurückgeben.

Die Antwort enthält einen Teil, der für die Suchanfrage relevant ist. Außerdem können Sie angeben, dass benachbarte Blöcke zurückgegeben werden sollen, die vor und nach dem relevanten Block im Quelldokument erscheinen. Nebeneinanderliegende Segmente können Kontext und Genauigkeit hinzufügen.

REST

So rufen Sie gechunkte Daten ab:

  1. Geben Sie bei einer Suchanfrage ContentSearchSpec.SearchResultMode als chunks an.

    contentSearchSpec": {
      "searchResultMode": "RESULT_MODE",
      "chunkSpec": {
           "numPreviousChunks": NUMBER_OF_PREVIOUS_CHUNKS,
           "numNextChunks": NUMBER_OF_NEXT_CHUNKS
       }
    }
    
    • RESULT_MODE: Bestimmt, ob Suchergebnisse als vollständige Dokumente oder in Teilen zurückgegeben werden. Damit Blöcke abgerufen werden können, muss die Dokumentaufteilung für den Datenspeicher aktiviert sein. Zulässige Werte sind documents und chunks. Wenn das Dokument-Chunking für Ihren Datenspeicher aktiviert ist, ist der Standardwert chunks.
    • NUMBER_OF_PREVIOUS_CHUNKS: Die Anzahl der zu retournierenden Chunks, die unmittelbar vor dem relevanten Chunk liegen. Der maximal zulässige Wert ist 5.
    • NUMBER_OF_NEXT_CHUNKS: Die Anzahl der zu retournierenden Blöcke, die direkt auf den relevanten Block folgen. Der maximal zulässige Wert ist 5.

Beispiel

Im folgenden Beispiel für eine Suchanfrage wird SearchResultMode auf chunks festgelegt, ein vorheriger und ein nächster Block angefordert und die Anzahl der Ergebnisse mit pageSize auf einen einzelnen relevanten Block beschränkt.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1alpha/projects/exampleproject/locations/global/collections/default_collection/dataStores/datastore123/servingConfigs/default_search:search" \
-d '{
  "query": "animal",
  "pageSize": 1,
  "contentSearchSpec": {
    "searchResultMode": "CHUNKS",
    "chunkSpec": {
           "numPreviousChunks": 1,
           "numNextChunks": 1
       }
  }
}'

Das folgende Beispiel zeigt die Antwort, die für die Beispielabfrage zurückgegeben wird. Die Antwort enthält die relevanten Segmente, die vorherigen und nächsten Segmente, die Metadaten des ursprünglichen Dokuments und den Bereich der Dokumentseiten, aus dem die einzelnen Segmente stammen.

Antwort

{
  "results": [
    {
      "chunk": {
        "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c17",
        "id": "c17",
        "content": "\n# ESS10: Stakeholder Engagement and Information Disclosure\nReaders should also refer to ESS10 and its guidance notes, plus the template available for a stakeholder engagement plan. More detail on stakeholder engagement in projects with risks related to animal health is contained in section 4 below. The type of stakeholders (men and women) that can be engaged by the Borrower as part of the project's environmental and social assessment and project design and implementation are diverse and vary based on the type of intervention. The stakeholders can include: Pastoralists, farmers, herders, women's groups, women farmers, community members, fishermen, youths, etc. Cooperatives members, farmer groups, women's livestock associations, water user associations, community councils, slaughterhouse workers, traders, etc. Veterinarians, para-veterinary professionals, animal health workers, community animal health workers, faculties and students in veterinary colleges, etc. 8 \n# 4. Good Practice in Animal Health Risk Assessment and Management\n\n# Approach\nRisk assessment provides the transparent, adequate and objective evaluation needed by interested parties to make decisions on health-related risks associated with project activities involving live animals. As the ESF requires, it is conducted throughout the project cycle, to provide or indicate likelihood and impact of a given hazard, identify factors that shape the risk, and find proportionate and appropriate management options. The level of risk may be reduced by mitigation measures, such as infrastructure (e.g., diagnostic laboratories, border control posts, quarantine stations), codes of practice (e.g., good animal husbandry practices, on-farm biosecurity, quarantine, vaccination), policies and regulations (e.g., rules for importing live animals, ban on growth hormones and promotors, feed standards, distance required between farms, vaccination), institutional capacity (e.g., veterinary services, surveillance and monitoring), changes in individual behavior (e.g., hygiene, hand washing, care for animals). Annex 2 provides examples of mitigation practices. This list is not an exhaustive one but a compendium of most practiced interventions and activities. The cited measures should take into account social, economic, as well as cultural, gender and occupational aspects, and other factors that may affect the acceptability of mitigation practices by project beneficiaries and other stakeholders. Risk assessment is reviewed and updated through the project cycle (for example to take into account increased trade and travel connectivity between rural and urban settings and how this may affect risks of disease occurrence and/or outbreak). Projects monitor changes in risks (likelihood and impact) b               by using data, triggers or indicators. ",
        "documentMetadata": {
          "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
          "title": "AnimalHealthGoodPracticeNote"
        },
        "pageSpan": {
          "pageStart": 14,
          "pageEnd": 15
        },
        "chunkMetadata": {
          "previousChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c16",
              "id": "c16",
              "content": "\n# ESS6: Biodiversity Conservation and Sustainable Management of Living Natural Resources\nThe risks associated with livestock interventions under ESS6 include animal welfare (in relation to housing, transport, and slaughter); diffusion of pathogens from domestic animals to wildlife, with risks for endemic species and biodiversity (e.g., sheep and goat plague in Mongolia affecting the saiga, an endemic species of wild antelope); the introduction of new breeds with potential risk of introducing exotic or new diseases; and the release of new species that are not endemic with competitive advantage, potentially putting endemic species at risk of extinction. Animal welfare relates to how an animal is coping with the conditions in which it lives. An animal is in a good state of welfare if it is healthy, comfortable, well nourished, safe, able to express innate behavior, 7 Good Practice Note - Animal Health and related risks and is not suffering from unpleasant states such as pain, fear or distress. Good animal welfare requires appropriate animal care, disease prevention and veterinary treatment; appropriate shelter, management and nutrition; humane handling, slaughter or culling. The OIE provides standards for animal welfare on farms, during transport and at the time of slaughter, for their welfare and for purposes of disease control, in its Terrestrial and Aquatic Codes. The 2014 IFC Good Practice Note: Improving Animal Welfare in Livestock Operations is another example of practical guidance provided to development practitioners for implementation in investments and operations. Pastoralists rely heavily on livestock as a source of food, income and social status. Emergency projects to restock the herds of pastoralists affected by drought, disease or other natural disaster should pay particular attention to animal welfare (in terms of transport, access to water, feed, and animal health) to avoid potential disease transmission and ensure humane treatment of animals. Restocking also entails assessing the assets of pastoralists and their ability to maintain livestock in good conditions (access to pasture and water, social relationship, technical knowledge, etc.). Pastoralist communities also need to be engaged by the project to determine the type of animals and breed and the minimum herd size to be considered for restocking. \n# Box 5. Safeguarding the welfare of animals and related risks in project activities\nIn Haiti, the RESEPAG project (Relaunching Agriculture: Strengthening Agriculture Public Services) financed housing for goats and provided technical recommendations for improving their welfare, which is critical to avoid the respiratory infections, including pneumonia, that are serious diseases for goats. To prevent these diseases, requires optimal sanitation and air quality in herd housing. This involves ensuring that buildings have adequate ventilation and dust levels are reduced to minimize the opportunity for infection. Good nutrition, water and minerals are also needed to support the goats' immune function. The project paid particular attention to: (i) housing design to ensure good ventilation; (ii) locating housing close to water sources and away from human habitation and noisy areas; (iii) providing mineral blocks for micronutrients; (iv) ensuring availability of drinking water and clean food troughs. ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 13,
                "pageEnd": 14
              }
            }
          ],
          "nextChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c18",
              "id": "c18",
              "content": "\n# Scoping of risks\nEarly scoping of risks related to animal health informs decisions to initiate more comprehensive risk assessment according to the type of livestock interventions and activities. It can be based on the following considerations: • • • • Type of livestock interventions supported by the project (such as expansion of feed resources, improvement of animal genetics, construction/upgrading and management of post-farm-gate facilities, etc. – see also Annex 2); Geographic scope and scale of the livestock interventions; Human and animal populations that are likely to be affected (farmers, women, children, domestic animals, wildlife, etc.); and Changes in the project or project context (such as emerging disease outbreak, extreme weather or climatic conditions) that would require a re-assessment of risk levels, mitigation measures and their likely effect on risk reduction. Scenario planning can also help to identify project-specific vulnerabilities, country-wide or locally, and help shape pragmatic analyses that address single or multiple hazards. In this process, some populations may be identified as having disproportionate exposure or vulnerability to certain risks because of occupation, gender, age, cultural or religious affiliation, socio-economic or health status. For example, women and children may be the main caretakers of livestock in the case of 9 Good Practice Note - Animal Health and related risks household farming, which puts them into close contact with animals and animal products. In farms and slaughterhouses, workers and veterinarians are particularly exposed, as they may be in direct contact with sick animals (see Box 2 for an illustration). Fragility, conflict, and violence (FCV) can exacerbate risk, in terms of likelihood and impact. Migrants new to a geographic area may be immunologically naïve to endemic zoonotic diseases or they may inadvertently introduce exotic diseases; and refugees or internally displaced populations may have high population density with limited infrastructure, leaving them vulnerable to disease exposure. Factors such as lack of access to sanitation, hygiene, housing, and health and veterinary services may also affect disease prevalence, contributing to perpetuation of poverty in some populations. Risk assessment should identify populations at risk and prioritize vulnerable populations and circumstances where risks may be increased. It should be noted that activities that seem minor can still have major consequences. See Box 6 for an example illustrating how such small interventions in a project may have large-scale consequences. It highlights the need for risk assessment, even for simple livestock interventions and activities, and how this can help during the project cycle (from concept to implementation). ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 15,
                "pageEnd": 16
              }
            }
          ]
        }
      }
    }
  ],
  "totalSize": 61,
  "attributionToken": "jwHwjgoMCICPjbAGEISp2J0BEiQ2NjAzMmZhYS0wMDAwLTJjYzEtYWQxYS1hYzNlYjE0Mzc2MTQiB0dFTkVSSUMqUMLwnhXb7Ygtq8SKLa3Eii3d7Ygtj_enIqOAlyLm7Ygtt7eMLduPmiKN96cijr6dFcXL8xfdj5oi9-yILdSynRWCspoi-eyILYCymiLk7Ygt",
  "nextPageToken": "ANxYzNzQTMiV2MjFWLhFDZh1SMjNmMtADMwATL5EmZyMDM2YDJaMQv3yagQYAsciPgIwgExEgC",
  "guidedSearchResult": {},
  "summary": {}
}

Nächste Schritte