Analizza e suddividi i documenti

Questa pagina descrive come utilizzare Vertex AI Search per analizzare e dividere i documenti in blocchi.

Puoi configurare le impostazioni di analisi o suddivisione in blocchi per:

  • Specifica come Vertex AI Search analizza i contenuti. Puoi specificare come analizzare i contenuti non strutturati quando li carichi su Vertex AI Search. Vertex AI Search fornisce un parser digitale, un parser OCR per i PDF e un parser di layout. Puoi anche portare i tuoi documenti analizzati. Il parser del layout è consigliato quando hai contenuti avanzati ed elementi strutturali come sezioni, paragrafi, tabelle, immagini ed elenchi da estrarre dai documenti per la ricerca e la generazione di risposte.

    Consulta Migliorare il rilevamento dei contenuti con l'analisi.

  • Utilizza Vertex AI Search per la Retrieval-Augmented Generation (RAG). Migliora l'output degli LLM con dati pertinenti che hai caricato nella tua app Vertex AI Search. Per farlo, attiva la suddivisione dei documenti in blocchi, che indicizza i dati come blocchi per migliorare la pertinenza e ridurre il carico computazionale per gli LLM. Verrà attivato anche il parser del layout, che rileva gli elementi del documento come intestazioni ed elenchi, per migliorare la suddivisione dei documenti.

    Per informazioni sulla suddivisione in blocchi per RAG e su come restituire i blocchi nelle richieste di ricerca, consulta Suddividere i documenti in blocchi per RAG.

Analizza i documenti

Puoi controllare l'analisi dei contenuti nei seguenti modi:

  • Specifica il tipo di parser. Puoi specificare il tipo di analisi da applicare a seconda del tipo di file:

    • Analizzatore digitale. Il parser digitale è attivo per impostazione predefinita per tutti i tipi di file, a meno che non venga specificato un tipo di parser diverso. L'analizzatore sintattico digitale elabora i documenti importati se non è specificato un altro analizzatore sintattico predefinito per il datastore o se l'analizzatore sintattico specificato non supporta il tipo di file di un documento importato.
    • Analisi OCR per i PDF. Se prevedi di caricare PDF scansionati o PDF con testo all'interno delle immagini, puoi attivare il parser OCR per migliorare l'indicizzazione dei PDF. Consulta la sezione Parser OCR per PDF di questo documento.
    • Parser del layout. Attiva il parser di layout per i file HTML, PDF o DOCX se prevedi di utilizzare Vertex AI Search per RAG. Consulta Dividere i documenti in blocchi per RAG per informazioni su questo parser e su come attivarlo.
  • Aggiungi il tuo documento analizzato. (Anteprima con lista consentita) Se hai già analizzato i tuoi documenti non strutturati, puoi importare i contenuti pre-analizzati in Vertex AI Search. Vedi Importare un documento analizzato.

Confronto della disponibilità dei parser

La tabella seguente elenca la disponibilità di ciascun parser in base ai tipi di file di documenti e mostra quali elementi ciascun parser può rilevare e analizzare.

Tipo di file Analizzatore digitale Parser OCR Parser del layout
HTML Rileva gli elementi del paragrafo Non applicabile Rileva gli elementi paragrafo, tabella, immagine, elenco, titolo e intestazione
PDF Rileva gli elementi di paragrafo (testo digitale) Rileva gli elementi del paragrafo Rileva elementi di paragrafo, tabella, immagine, titolo e intestazione
DOCX (anteprima) Rileva gli elementi del paragrafo Non applicabile Rileva elementi di paragrafo, tabella, immagine, elenco, titolo e intestazione
PPTX (anteprima) Rileva gli elementi del paragrafo Non applicabile Rileva elementi di paragrafo, tabella, immagine, elenco, titolo e intestazione
TXT Rileva gli elementi del paragrafo Non applicabile Non applicabile
XLSX (anteprima) Rileva gli elementi del paragrafo Non applicabile Rileva elementi di paragrafo, tabella, titolo e intestazione

Analizzatore digitale

L'analizzatore digitale estrae il testo leggibile dalla macchina dai documenti. Rileva blocchi di testo, ma non elementi del documento come tabelle, elenchi e intestazioni.

Il parser digitale viene utilizzato come predefinito se non ne specifichi uno diverso come predefinito durante la creazione dell&#39datastoreo dati o se un parser specificato non supporta un tipo di file che viene caricato.

Parser OCR per PDF

Se hai PDF non ricercabili (PDF scansionati o PDF con testo all'interno delle immagini, come le infografiche), Google consiglia di attivare l'elaborazione del riconoscimento ottico dei caratteri (OCR) durante la creazione dell'datastore. In questo modo, Vertex AI Search può estrarre gli elementi del paragrafo.

Se hai PDF ricercabili o altri formati digitali composti principalmente da testo leggibile automaticamente, in genere non devi utilizzare il parser OCR. Tuttavia, se hai PDF con testo non ricercabile (ad esempio testo scansionato o infografiche) e testo leggibile automaticamente, puoi impostare il campo useNativeText su true quando specifichi il parser OCR. In questo caso, il testo leggibile dalla macchina viene unito agli output di analisi OCR per migliorare la qualità dell'estrazione del testo.

Le funzionalità di elaborazione OCR sono disponibili per le app di ricerca personalizzate con datastore non strutturati.

Il processore OCR può analizzare le prime 500 pagine di un file PDF. Le pagine oltre il limite di 500 non vengono elaborate.

Parser del layout

L'analisi del layout consente a Vertex AI Search di rilevare i layout per PDF e HTML. Il supporto dei file DOCX è in anteprima. Vertex AI Search può quindi identificare elementi dei contenuti come blocchi di testo, tabelle, elenchi ed elementi strutturali come titoli e intestazioni e utilizzarli per definire l'organizzazione e la gerarchia di un documento.

Puoi attivare l'analisi del layout per tutti i tipi di file o specificare per quali tipi di file attivarla. Il parser del layout rileva elementi dei contenuti come paragrafi, tabelle, elenchi ed elementi strutturali come titoli, intestazioni, intestazioni, note a piè di pagina.

Il parser del layout è disponibile solo quando utilizzi il chunking dei documenti per RAG. Quando la suddivisione dei documenti è attivata, Vertex AI Search suddivide i documenti in blocchi al momento dell'importazione e può restituirli come blocchi. Il rilevamento del layout del documento consente la suddivisione in blocchi sensibili al contesto e migliora la ricerca e la generazione di risposte relative agli elementi del documento. Per saperne di più sulla suddivisione dei documenti in blocchi per RAG, consulta Suddividere i documenti in blocchi per RAG.

Annotazione immagini (funzionalità in anteprima)

Se l'annotazione delle immagini è attivata, quando viene rilevata un'immagine in un documento di origine, una descrizione (annotazione) dell'immagine e l'immagine stessa vengono assegnate a un chunk. L'annotazione determina se il chunk deve essere restituito in un risultato di ricerca. Se viene generata una risposta, l'annotazione può essere una fonte per la risposta.

Il parser del layout può rilevare i seguenti tipi di immagini: BMP, GIF, JPEG, PNG e TIFF.

Annotazione della tabella

Se l'annotazione della tabella è abilitata, quando viene rilevata una tabella in un documento di origine, una descrizione (annotazione) della tabella e la tabella stessa vengono assegnate a un chunk. L'annotazione determina se il chunk deve essere restituito in un risultato di ricerca. Se viene generata una risposta, l'annotazione può essere una fonte per la risposta.

Escludere i contenuti HTML

Quando utilizzi il parser di layout per i documenti HTML, puoi escludere parti specifiche dei contenuti HTML dall'elaborazione. Per migliorare la qualità dei dati per le applicazioni di ricerca e le applicazioni RAG, puoi escludere il testo standard o sezioni come menu di navigazione, intestazioni, piè di pagina o barre laterali.

A questo scopo, layoutParsingConfig fornisce i seguenti campi:

  • excludeHtmlElements: elenco dei tag HTML da escludere. I contenuti all'interno di questi tag vengono esclusi.
  • excludeHtmlClasses: elenco degli attributi di classe HTML da escludere. Gli elementi HTML contenenti questi attributi di classe, insieme ai relativi contenuti, vengono esclusi.
  • excludeHtmlIds: elenco degli attributi ID elemento HTML da escludere. Gli elementi HTML con questi attributi ID, insieme ai loro contenuti, vengono esclusi.

Specificare un parser predefinito

Se includi l'oggetto documentProcessingConfig quando crei un datastore, puoi specificare un parser predefinito per quel datastore. Se non includi documentProcessingConfig.defaultParsingConfig, viene utilizzato il parser digitale. Il parser digitale viene utilizzato anche se il parser specificato non è disponibile per un tipo di file.

REST

Per specificare un parser predefinito:

  1. Quando crei un datastore di ricerca utilizzando l'API, includi documentProcessingConfig.defaultParsingConfig nella richiesta di creazione del datastore. Puoi specificare il parser OCR, il parser di layout o il parser digitale:

    • Per specificare il parser OCR per i PDF:

      "documentProcessingConfig": {
        "defaultParsingConfig": {
          "ocrParsingConfig": {
            "useNativeText": "NATIVE_TEXT_BOOLEAN"
          }
        }
      }
      
      • NATIVE_TEXT_BOOLEAN è facoltativo. Impostalo solo se importi PDF. Se impostato su true, attiva l'elaborazione del testo leggibile dalla macchina per il parser OCR. Il valore predefinito è false.
    • Per specificare il parser del layout:

      "documentProcessingConfig": {
        "defaultParsingConfig": {
          "layoutParsingConfig": {}
        }
      }
      
    • Per specificare il parser digitale:

       "documentProcessingConfig": {
          "defaultParsingConfig": { "digitalParsingConfig": {} }
       }
      

Console

Quando crei un datastore di ricerca tramite la console, puoi specificare il parser predefinito.

Esempio

L'esempio seguente specifica durante la creazione datastore'archivio che il parser OCR sarà il parser predefinito. Poiché l'analizzatore sintattico OCR si applica solo ai file PDF, tutti i file PDF importati verranno elaborati dall'analizzatore sintattico OCR e tutti gli altri tipi di file verranno elaborati dall'analizzatore sintattico digitale.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "defaultParsingConfig": {
      "ocrParsingConfig": {
        "useNativeText": "false"
      }
    }
  }
}'

Specifica gli override del parser per i tipi di file

Puoi specificare che un particolare tipo di file (PDF, HTML o DOCX) deve essere analizzato da un parser diverso da quello predefinito. Per farlo, includi il campo documentProcessingConfig nella richiesta di creazione del datastore e specifica il parser di override. Se non specifichi un parser predefinito, viene utilizzato il parser digitale.

REST

Per specificare un override dell'analizzatore specifico per il tipo di file:

  1. Quando crei un datastore di ricerca utilizzando l'API, includi documentProcessingConfig.defaultParsingConfig nella richiesta di creazione del datastore.

    Puoi specificare un parser per pdf, html o docx:

    "documentProcessingConfig": {
      "parsingConfigOverrides": {
        "FILE_TYPE": { PARSING_CONFIG },
      }
     }
    

    Sostituisci quanto segue:

    • FILE_TYPE: i valori accettati sono pdf, html e docx.
    • PARSING_CONFIG: specifica la configurazione del parser che vuoi applicare al tipo di file. Puoi specificare il parser OCR, il parser di layout o il parser digitale:

      • Per specificare il parser OCR per i PDF:

        "ocrParsingConfig": {
          "useNativeText": "NATIVE_TEXT_BOOLEAN"
        }
        
        • NATIVE_TEXT_BOOLEAN: (Facoltativo). Imposta solo se stai importando PDF. Se impostato su true, attiva l'elaborazione del testo leggibile dalla macchina per il parser OCR. Il valore predefinito è false.
      • Per specificare il parser del layout:

        "layoutParsingConfig": {}
        
      • Per specificare il parser digitale:

        "documentProcessingConfig": {
          "defaultParsingConfig": { "digitalParsingConfig": {} }
        }
        

Console

Quando crei un datastore di ricerca tramite la console, puoi specificare gli override del parser per tipi di file specifici.

Esempio

L'esempio seguente specifica durante la creazione datastore che i file PDF devono essere elaborati dal parser OCR e che i file HTML devono essere elaborati dal parser di layout. In questo caso, tutti i file diversi da PDF e HTML verranno elaborati dal parser digitale.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "parsingConfigOverrides": {
      "pdf": {
        "ocrParsingConfig": {
            "useNativeText": "false"
          },
      },
      "html": {
         "layoutParsingConfig": {}
      }
    }
  }
}'

Modificare l'analisi dei documenti per i datastore esistenti

Se hai già un datastore, puoi modificare il parser predefinito e aggiungere eccezioni al formato dei file. Tuttavia, le impostazioni del parser aggiornate si applicano solo ai nuovi documenti importati nell&#39datastorei. I documenti già presenti nel datastore non vengono analizzati nuovamente con le nuove impostazioni.

Per modificare le impostazioni di analisi dei documenti per un datastore:

  1. Nella Google Cloud console, vai alla pagina AI Applications.

    Applicazioni di AI

  2. Nel menu di navigazione, fai clic su Datastore.

  3. Nella colonna Nome, fai clic sul datastore da modificare.

  4. Nella scheda Configurazione dell'elaborazione, modifica le impostazioni di Analisi dei documenti.

    Le impostazioni di Chunking dei documenti non possono essere modificate. Se il datastore non ha il chunking dei documenti attivato, non puoi scegliere il parser di layout.

  5. Fai clic su Invia.

Configurare il parser del layout per escludere i contenuti HTML

Puoi configurare il parser del layout per escludere i contenuti HTML specificando excludeHtmlElements, excludeHtmlClasses o excludeHtmlIds in documentProcessingConfig.defaultParsingConfig.layoutParsingConfig.

REST

Per escludere determinati contenuti HTML dall'elaborazione da parte del parser del layout:

  1. Quando crei un datastore di ricerca utilizzando l'API, includi documentProcessingConfig.defaultParsingConfig.layoutParsingConfig nella richiesta di creazione del datastore.

  2. Per escludere tipi di tag HTML specifici, utilizza:

    "documentProcessingConfig": {
      "defaultParsingConfig": {
       "layoutParsingConfig": {
        "excludeHtmlElements": ["HTML_TAG_1","HTML_TAG_2","HTML_TAG_N"]
       }
      }
     }
    

    Sostituisci le variabili HTML_TAG con i nomi dei tag, ad esempio nav e footer.

  3. Per escludere attributi di classe di elementi HTML specifici, utilizza:

    "documentProcessingConfig": {
      "defaultParsingConfig": {
       "layoutParsingConfig": {
        "excludeHtmlClasses": ["HTML_CLASS_1","HTML_CLASS_2","HTML_CLASS_N"]
       }
      }
     }
    

    Sostituisci le variabili HTML_CLASS con gli attributi della classe, ad esempio overlay e screenreader.

  4. Per escludere attributi ID di elementi HTML specifici, utilizza:

    "documentProcessingConfig": {
      "defaultParsingConfig": {
       "layoutParsingConfig": {
        "excludeHtmlIds": ["HTML_ID_1","HTML_ID_2","HTML_ID_N"]
       }
      }
     }
    

    Sostituisci le variabili HTML_ID con gli attributi ID, ad esempio cookie-banner.

Esempio

Questo esempio specifica che quando i file HTML vengono elaborati dal parser del layout, il parser ignora quanto segue:

  • Tag degli elementi HTML, header, footer, nav e aside

  • Attributi della classe dell'elemento HTML di tipo overlays e screenreader

  • Qualsiasi elemento con l'ID attributo cookie-banner

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "defaultParsingConfig": {
      "layoutParsingConfig": {
       "excludeHtmlElements": ["header", "footer", "nav", "aside"],
       "excludeHtmlClasses": ["overlays", "screenreader"],
       "excludeHtmlIds": ["cookie-banner"]
      }
    }
  }
}'

Recuperare i documenti analizzati in formato JSON

Puoi ottenere un documento analizzato in formato JSON chiamando il metodo getProcessedDocument e specificando PARSED_DOCUMENT come tipo di documento elaborato. Ricevere documenti analizzati in formato JSON può essere utile se devi caricare il documento analizzato altrove o se decidi di reimportare i documenti analizzati in AI Applications utilizzando la funzionalità Porta il tuo documento analizzato.

REST

Per ottenere i documenti analizzati in formato JSON, segui questo passaggio:

  1. Chiama il metodo getProcessedDocument:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID:getProcessedDocument?processed_document_type=PARSED_DOCUMENT"
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID del tuo progetto.
    • DATA_STORE_ID: l'ID del tuo datastore.
    • DOCUMENT_ID: l'ID del documento da recuperare.

Porta il tuo documento analizzato

Puoi importare documenti non strutturati pre-analizzati nei datastore di Vertex AI Search. Ad esempio, anziché importare un documento PDF non elaborato, puoi analizzare il PDF e importare il risultato dell'analisi. In questo modo puoi importare i documenti in modo strutturato, assicurandoti che la ricerca e la generazione di risposte abbiano informazioni sul layout e sugli elementi del documento.

Un documento non strutturato analizzato è rappresentato da JSON che descrive il documento non strutturato utilizzando una sequenza di blocchi di testo, tabelle ed elenchi. Importa i file JSON con i dati dei documenti non strutturati analizzati nello stesso modo in cui importi altri tipi di documenti non strutturati, come i PDF. Quando questa funzionalità è attivata, ogni volta che viene caricato e identificato un file JSON da un tipo MIME application/json o da un'estensione .JSON, viene trattato come un documento analizzato.

Per attivare questa funzionalità e per informazioni su come utilizzarla, contatta il team dell'Account Google.

Dividere i documenti in blocchi per RAG

Per impostazione predefinita, Vertex AI Search è ottimizzato per il recupero di documenti, in cui l'app di ricerca restituisce un documento come un PDF o una pagina web con ogni risultato di ricerca.

Le funzionalità di suddivisione dei documenti sono disponibili per le app di ricerca personalizzate con datastore non strutturati.

Vertex AI Search può invece essere ottimizzato per RAG, dove l'app di ricerca viene utilizzata principalmente per aumentare l'output LLM con i tuoi dati personalizzati. Quando la suddivisione dei documenti è attivata, Vertex AI Search suddivide i documenti in blocchi. Nei risultati di ricerca, l'app di ricerca può restituire blocchi di dati pertinenti anziché documenti completi. L'utilizzo di dati suddivisi in blocchi per la RAG aumenta la pertinenza delle risposte degli LLM e riduce il carico di calcolo per gli LLM.

Per utilizzare Vertex AI Search per RAG:

  1. Attiva il chunking dei documenti quando crei il datastore.

    In alternativa, carica i tuoi chunk (anteprima con lista consentita) se hai già suddiviso i tuoi documenti.

  2. Recupera e visualizza i chunk nei seguenti modi:

  3. Restituisci i chunk nelle richieste di ricerca.

Limitazioni

Al chunking si applicano le seguenti limitazioni:

  • Il chunking dei documenti non può essere attivato o disattivato dopo la creazione del datastore.
  • Puoi effettuare richieste di ricerca di documenti anziché di chunk da un datastore con il chunking dei documenti attivato. Tuttavia, gli spazi di archiviazione dei dati con la suddivisione dei documenti attivata non sono ottimizzati per la restituzione dei documenti. I documenti vengono restituiti aggregando i blocchi in documenti.
  • Quando la suddivisione dei documenti è attivata, i riepiloghi della ricerca e la ricerca con follow-up sono supportati in Anteprima pubblica, ma non come GA.

Opzioni di chunking dei documenti

Questa sezione descrive le opzioni che specifichi per attivare la suddivisione dei documenti.

Durante la creazione del datastore, attiva le seguenti opzioni in modo che Vertex AI Search possa indicizzare i documenti come blocchi.

  • Chunking dei documenti in base al layout. Per attivare questa opzione, includi il campo documentProcessingConfig nella richiesta di creazione del datastore e specifica ChunkingConfig.LayoutBasedChunkingConfig.

    Quando la suddivisione dei documenti in blocchi in base al layout è attiva, Vertex AI Search rileva il layout di un documento e lo prende in considerazione durante la suddivisione in blocchi. In questo modo migliora la coerenza semantica e riduce il rumore nei contenuti quando vengono utilizzati per il recupero e la generazione di LLM. Tutto il testo di un blocco proviene dalla stessa entità di layout, ad esempio titoli, sottotitoli ed elenchi.

  • Analisi del layout. Per attivare questa opzione, specifica ParsingConfig.LayoutParsingConfig durante la creazione del datastore.

    Il parser del layout rileva i layout per i file PDF, HTML e DOCX. Identifica elementi come blocchi di testo, tabelle, elenchi, titoli e intestazioni e li utilizza per definire l'organizzazione e la gerarchia di un documento.

    Per saperne di più sull'analisi del layout, consulta Analisi del layout.

Attivare il chunking dei documenti

Puoi attivare il chunking dei documenti includendo l'oggetto documentProcessingConfig nella richiesta di creazione del datastore e attivando il chunking dei documenti in base al layout e l'analisi del layout.

REST

Per attivare il chunking dei documenti:

  1. Quando crei un datastore di ricerca utilizzando l'API, includi l'oggetto documentProcessingConfig.chunkingConfig nella richiesta di creazione del datastore.

     "documentProcessingConfig": {
       "chunkingConfig": {
           "layoutBasedChunkingConfig": {
               "chunkSize": CHUNK_SIZE_LIMIT,
               "includeAncestorHeadings": HEADINGS_BOOLEAN,
           }
       },
       "defaultParsingConfig": {
         "layoutParsingConfig": {}
       }
     }
    

    Sostituisci quanto segue:

    • CHUNK_SIZE_LIMIT: (Facoltativo). Il limite di dimensioni dei token per ogni chunk. Il valore predefinito è 500. I valori supportati sono 100-500 (inclusi).
    • HEADINGS_BOOLEAN: (Facoltativo). Determina se le intestazioni sono incluse in ogni blocco. Il valore predefinito è false. L'aggiunta di titoli e intestazioni a tutti i livelli ai chunk dalla parte centrale del documento può aiutare a evitare la perdita di contesto nel recupero e nel ranking dei chunk.

Console

Quando crei un datastore di ricerca tramite la console, puoi attivare il chunking dei documenti.

Bring Your Own Chunks (anteprima con lista consentita)

Se hai già suddiviso i tuoi documenti in blocchi, puoi caricarli in Vertex AI Search anziché attivare le opzioni di suddivisione dei documenti.

La funzionalità Bring Your Own Chunks è una funzionalità in anteprima con lista consentita. Per utilizzare questa funzionalità, contatta il team del tuo Account Google.

Elencare i segmenti di un documento

Per elencare tutti i chunk di un documento specifico, chiama il metodo Chunks.list.

REST

Per elencare i chunk di un documento:

  1. Chiama il metodo Chunks.list:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks"
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID del tuo progetto.
    • DATA_STORE_ID: l'ID del tuo datastore.
    • DOCUMENT_ID: L'ID del documento da cui elencare i chunk.

Ottenere blocchi in formato JSON da un documento elaborato

Puoi ottenere tutti i chunk di un documento specifico in formato JSON chiamando il metodo getProcessedDocument. Ricevere i chunk in formato JSON può essere utile se devi caricarli altrove o se decidi di reimportarli nelle applicazioni AI utilizzando la funzionalità Porta i tuoi chunk.

REST

Per ottenere i blocchi JSON per un documento, segui questo passaggio:

  1. Chiama il metodo getProcessedDocument:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID:getProcessedDocument?processed_document_type=CHUNKED_DOCUMENT"
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID del tuo progetto.
    • DATA_STORE_ID: l'ID del tuo datastore.
    • DOCUMENT_ID: l'ID del documento da cui ottenere i chunk.

Ottenere segmenti specifici

Per ottenere un chunk specifico, chiama il metodo Chunks.get.

REST

Per ottenere un segmento specifico:

  1. Chiama il metodo Chunks.get:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks/CHUNK_ID"
    

    Sostituisci quanto segue:

    • PROJECT_ID: l'ID del tuo progetto.
    • DATA_STORE_ID: l'ID del tuo datastore.
    • DOCUMENT_ID: l'ID del documento da cui proviene il chunk.
    • CHUNK_ID: l'ID del blocco da restituire.

Dopo aver confermato che i dati sono stati suddivisi correttamente, la tua Vertex AI Search può restituire i dati suddivisi nei risultati di ricerca.

La risposta restituisce un blocco pertinente alla query di ricerca. Inoltre, puoi scegliere di restituire i segmenti adiacenti che compaiono prima e dopo il segmento pertinente nel documento di origine. I chunk adiacenti possono aggiungere contesto e precisione.

REST

Per ottenere dati suddivisi in blocchi:

  1. Quando effettui una richiesta di ricerca, specifica ContentSearchSpec.SearchResultMode come chunks.

    contentSearchSpec": {
      "searchResultMode": "RESULT_MODE",
      "chunkSpec": {
           "numPreviousChunks": NUMBER_OF_PREVIOUS_CHUNKS,
           "numNextChunks": NUMBER_OF_NEXT_CHUNKS
       }
    }
    
    • RESULT_MODE: Determina se i risultati di ricerca vengono restituiti come documenti completi o in blocchi. Per ottenere i chunk, il datastore deve avere attivato il chunking dei documenti. I valori accettati sono documents e chunks. Se la suddivisione dei documenti è attivata per il tuo datastore, il valore predefinito è chunks.
    • NUMBER_OF_PREVIOUS_CHUNKS: Il numero di segmenti da restituire che precedono immediatamente il segmento pertinente. Il valore massimo consentito è 5.
    • NUMBER_OF_NEXT_CHUNKS: il numero di segmenti da restituire che seguono immediatamente il segmento pertinente. Il valore massimo consentito è 5.

Esempio

Il seguente esempio di richiesta di query di ricerca imposta SearchResultMode su chunks, richiede un blocco precedente e uno successivo e limita il numero di risultati a un singolo blocco pertinente utilizzando pageSize.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1/projects/exampleproject/locations/global/collections/default_collection/dataStores/datastore123/servingConfigs/default_search:search" \
-d '{
  "query": "animal",
  "pageSize": 1,
  "contentSearchSpec": {
    "searchResultMode": "CHUNKS",
    "chunkSpec": {
           "numPreviousChunks": 1,
           "numNextChunks": 1
       }
  }
}'

L'esempio seguente mostra la risposta restituita per la query di esempio. La risposta contiene i chunk pertinenti, i chunk precedenti e successivi, i metadati del documento originale e l'intervallo di pagine del documento da cui è stato derivato ogni chunk.

Risposta

{
  "results": [
    {
      "chunk": {
        "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c17",
        "id": "c17",
        "content": "\n# ESS10: Stakeholder Engagement and Information Disclosure\nReaders should also refer to ESS10 and its guidance notes, plus the template available for a stakeholder engagement plan. More detail on stakeholder engagement in projects with risks related to animal health is contained in section 4 below. The type of stakeholders (men and women) that can be engaged by the Borrower as part of the project's environmental and social assessment and project design and implementation are diverse and vary based on the type of intervention. The stakeholders can include: Pastoralists, farmers, herders, women's groups, women farmers, community members, fishermen, youths, etc. Cooperatives members, farmer groups, women's livestock associations, water user associations, community councils, slaughterhouse workers, traders, etc. Veterinarians, para-veterinary professionals, animal health workers, community animal health workers, faculties and students in veterinary colleges, etc. 8 \n# 4. Good Practice in Animal Health Risk Assessment and Management\n\n# Approach\nRisk assessment provides the transparent, adequate and objective evaluation needed by interested parties to make decisions on health-related risks associated with project activities involving live animals. As the ESF requires, it is conducted throughout the project cycle, to provide or indicate likelihood and impact of a given hazard, identify factors that shape the risk, and find proportionate and appropriate management options. The level of risk may be reduced by mitigation measures, such as infrastructure (e.g., diagnostic laboratories, border control posts, quarantine stations), codes of practice (e.g., good animal husbandry practices, on-farm biosecurity, quarantine, vaccination), policies and regulations (e.g., rules for importing live animals, ban on growth hormones and promotors, feed standards, distance required between farms, vaccination), institutional capacity (e.g., veterinary services, surveillance and monitoring), changes in individual behavior (e.g., hygiene, hand washing, care for animals). Annex 2 provides examples of mitigation practices. This list is not an exhaustive one but a compendium of most practiced interventions and activities. The cited measures should take into account social, economic, as well as cultural, gender and occupational aspects, and other factors that may affect the acceptability of mitigation practices by project beneficiaries and other stakeholders. Risk assessment is reviewed and updated through the project cycle (for example to take into account increased trade and travel connectivity between rural and urban settings and how this may affect risks of disease occurrence and/or outbreak). Projects monitor changes in risks (likelihood and impact) b               by using data, triggers or indicators. ",
        "documentMetadata": {
          "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
          "title": "AnimalHealthGoodPracticeNote"
        },
        "pageSpan": {
          "pageStart": 14,
          "pageEnd": 15
        },
        "chunkMetadata": {
          "previousChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c16",
              "id": "c16",
              "content": "\n# ESS6: Biodiversity Conservation and Sustainable Management of Living Natural Resources\nThe risks associated with livestock interventions under ESS6 include animal welfare (in relation to housing, transport, and slaughter); diffusion of pathogens from domestic animals to wildlife, with risks for endemic species and biodiversity (e.g., sheep and goat plague in Mongolia affecting the saiga, an endemic species of wild antelope); the introduction of new breeds with potential risk of introducing exotic or new diseases; and the release of new species that are not endemic with competitive advantage, potentially putting endemic species at risk of extinction. Animal welfare relates to how an animal is coping with the conditions in which it lives. An animal is in a good state of welfare if it is healthy, comfortable, well nourished, safe, able to express innate behavior, 7 Good Practice Note - Animal Health and related risks and is not suffering from unpleasant states such as pain, fear or distress. Good animal welfare requires appropriate animal care, disease prevention and veterinary treatment; appropriate shelter, management and nutrition; humane handling, slaughter or culling. The OIE provides standards for animal welfare on farms, during transport and at the time of slaughter, for their welfare and for purposes of disease control, in its Terrestrial and Aquatic Codes. The 2014 IFC Good Practice Note: Improving Animal Welfare in Livestock Operations is another example of practical guidance provided to development practitioners for implementation in investments and operations. Pastoralists rely heavily on livestock as a source of food, income and social status. Emergency projects to restock the herds of pastoralists affected by drought, disease or other natural disaster should pay particular attention to animal welfare (in terms of transport, access to water, feed, and animal health) to avoid potential disease transmission and ensure humane treatment of animals. Restocking also entails assessing the assets of pastoralists and their ability to maintain livestock in good conditions (access to pasture and water, social relationship, technical knowledge, etc.). Pastoralist communities also need to be engaged by the project to determine the type of animals and breed and the minimum herd size to be considered for restocking. \n# Box 5. Safeguarding the welfare of animals and related risks in project activities\nIn Haiti, the RESEPAG project (Relaunching Agriculture: Strengthening Agriculture Public Services) financed housing for goats and provided technical recommendations for improving their welfare, which is critical to avoid the respiratory infections, including pneumonia, that are serious diseases for goats. To prevent these diseases, requires optimal sanitation and air quality in herd housing. This involves ensuring that buildings have adequate ventilation and dust levels are reduced to minimize the opportunity for infection. Good nutrition, water and minerals are also needed to support the goats' immune function. The project paid particular attention to: (i) housing design to ensure good ventilation; (ii) locating housing close to water sources and away from human habitation and noisy areas; (iii) providing mineral blocks for micronutrients; (iv) ensuring availability of drinking water and clean food troughs. ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 13,
                "pageEnd": 14
              }
            }
          ],
          "nextChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c18",
              "id": "c18",
              "content": "\n# Scoping of risks\nEarly scoping of risks related to animal health informs decisions to initiate more comprehensive risk assessment according to the type of livestock interventions and activities. It can be based on the following considerations: • • • • Type of livestock interventions supported by the project (such as expansion of feed resources, improvement of animal genetics, construction/upgrading and management of post-farm-gate facilities, etc. – see also Annex 2); Geographic scope and scale of the livestock interventions; Human and animal populations that are likely to be affected (farmers, women, children, domestic animals, wildlife, etc.); and Changes in the project or project context (such as emerging disease outbreak, extreme weather or climatic conditions) that would require a re-assessment of risk levels, mitigation measures and their likely effect on risk reduction. Scenario planning can also help to identify project-specific vulnerabilities, country-wide or locally, and help shape pragmatic analyses that address single or multiple hazards. In this process, some populations may be identified as having disproportionate exposure or vulnerability to certain risks because of occupation, gender, age, cultural or religious affiliation, socio-economic or health status. For example, women and children may be the main caretakers of livestock in the case of 9 Good Practice Note - Animal Health and related risks household farming, which puts them into close contact with animals and animal products. In farms and slaughterhouses, workers and veterinarians are particularly exposed, as they may be in direct contact with sick animals (see Box 2 for an illustration). Fragility, conflict, and violence (FCV) can exacerbate risk, in terms of likelihood and impact. Migrants new to a geographic area may be immunologically naïve to endemic zoonotic diseases or they may inadvertently introduce exotic diseases; and refugees or internally displaced populations may have high population density with limited infrastructure, leaving them vulnerable to disease exposure. Factors such as lack of access to sanitation, hygiene, housing, and health and veterinary services may also affect disease prevalence, contributing to perpetuation of poverty in some populations. Risk assessment should identify populations at risk and prioritize vulnerable populations and circumstances where risks may be increased. It should be noted that activities that seem minor can still have major consequences. See Box 6 for an example illustrating how such small interventions in a project may have large-scale consequences. It highlights the need for risk assessment, even for simple livestock interventions and activities, and how this can help during the project cycle (from concept to implementation). ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 15,
                "pageEnd": 16
              }
            }
          ]
        }
      }
    }
  ],
  "totalSize": 61,
  "attributionToken": "jwHwjgoMCICPjbAGEISp2J0BEiQ2NjAzMmZhYS0wMDAwLTJjYzEtYWQxYS1hYzNlYjE0Mzc2MTQiB0dFTkVSSUMqUMLwnhXb7Ygtq8SKLa3Eii3d7Ygtj_enIqOAlyLm7Ygtt7eMLduPmiKN96cijr6dFcXL8xfdj5oi9-yILdSynRWCspoi-eyILYCymiLk7Ygt",
  "nextPageToken": "ANxYzNzQTMiV2MjFWLhFDZh1SMjNmMtADMwATL5EmZyMDM2YDJaMQv3yagQYAsciPgIwgExEgC",
  "guidedSearchResult": {},
  "summary": {}
}

Passaggi successivi