Analiza y divide documentos

En esta página, se describe cómo usar la Búsqueda de Vertex AI para analizar y dividir tus documentos.

Puedes configurar el análisis o el fragmentación para lo siguiente:

  • Especifica cómo Vertex AI Search analiza el contenido. Puedes especificar cómo analizar el contenido no estructurado cuando lo subes a Vertex AI Search. Vertex AI Search proporciona un analizador digital, un analizador de OCR para PDF y un analizador de diseño. También puedes usar tus propios documentos analizados. Se recomienda el analizador de diseño cuando tienes contenido enriquecido y elementos estructurales, como secciones, párrafos, tablas y listas, que se deben extraer de los documentos para la búsqueda y la generación de respuestas.

    Consulta Cómo mejorar la detección de contenido con el análisis.

  • Usa Vertex AI Search para la generación mejorada por recuperación (RAG). Mejora el resultado de los LLM con datos relevantes que subiste a tu app de Vertex AI Search. Para ello, activarás el fragmentado de documentos, que indexa tus datos como fragmentos para mejorar la relevancia y disminuir la carga computacional de los LLM. También activarás el analizador de diseño, que detecta elementos de documentos, como encabezados y listas, para mejorar la forma en que se dividen los documentos.

    Para obtener información sobre el fragmentación de RAG y cómo mostrar fragmentos en las solicitudes de búsqueda, consulta Fragmenta documentos para RAG.

Analiza documentos

Puedes controlar el análisis de contenido de las siguientes maneras:

  • Especifica el tipo de analizador. Puedes especificar el tipo de análisis que se aplicará según el tipo de archivo:

    • Analizador digital. El analizador digital está activado de forma predeterminada para todos los tipos de archivos, a menos que se especifique un tipo de analizador diferente. El analizador digital procesa los documentos transferidos si no se especifica otro analizador predeterminado para el almacén de datos o si el analizador especificado no admite el tipo de archivo de un documento transferido.
    • Análisis de OCR para archivos PDF Si planeas subir archivos PDF escaneados o con texto dentro de imágenes, puedes activar el analizador de OCR para mejorar el indexado de PDF. Consulta la sección Sintetizador de OCR para archivos PDF de este documento.
    • Analizador de diseño. Activa el analizador de diseño para archivos HTML, PDF o DOCX si planeas usar Vertex AI Search para RAG. Consulta Documentos de fragmentos para RAG para obtener información sobre este analizador y cómo activarlo.
  • Trae tu propio documento analizado. (Versión preliminar con lista de entidades permitidas) Si ya analistas tus documentos no estructurados, puedes importar ese contenido previamente analizado a Vertex AI Search. Consulta Cómo usar tu propio documento analizado.

Comparación de la disponibilidad del analizador

En la siguiente tabla, se indica la disponibilidad de cada analizador por tipo de archivo de documento y se muestran los elementos que cada analizador puede detectar y analizar.

Tipo de archivo Analizador digital Analizador de OCR Analizador de diseño
HTML Detecta elementos de párrafo N/A Detecta elementos de párrafo, tabla, lista, título y encabezado.
PDF Detecta elementos de párrafo (texto digital) Detecta elementos de párrafo Detecta elementos de párrafo, tabla, título y encabezado.
DOCX (versión preliminar) Detecta elementos de párrafo N/A Detecta elementos de párrafo, tabla, lista, título y encabezado.
PPTX (versión preliminar) Detecta elementos de párrafo N/A Detecta elementos de párrafo, tabla, lista, título y encabezado.
TXT Detecta elementos de párrafo N/A Detecta elementos de párrafo, tabla, título y encabezado
XLSX (versión preliminar) Detecta elementos de párrafo N/A Detecta elementos de párrafo, tabla, título y encabezado

Analizador digital

El analizador digital extrae texto legible por máquinas de los documentos. Detecta bloques de texto, pero no elementos de documentos, como tablas, listas y encabezados.

El analizador digital se usa como predeterminado si no especificas uno diferente durante la creación del almacén de datos o si un analizador especificado no admite un tipo de archivo que se sube.

Analizador de OCR para archivos PDF

Si tienes archivos PDF que no se pueden buscar (archivos PDF escaneados o archivos PDF con texto dentro de imágenes, como infográficas), Google recomienda activar el procesamiento de reconocimiento óptico de caracteres (OCR) durante la creación del almacén de datos. Esto permite que Vertex AI Search extraiga elementos de párrafo.

Si tienes archivos PDF o de otros formatos digitales que se pueden buscar y que se componen principalmente de texto legible por máquinas, por lo general, no necesitas usar el analizador de OCR. Sin embargo, si tienes archivos PDF que tienen texto no consultable (como texto escaneado o infografías) y texto legible por máquinas, puedes establecer el campo useNativeText en verdadero cuando especifiques el analizador de OCR. En este caso, el texto legible por máquinas se combina con los resultados del análisis de OCR para mejorar la calidad de la extracción de texto.

Las funciones de procesamiento de OCR están disponibles para las apps de búsqueda genéricas con almacenes de datos no estructurados.

El procesador de OCR puede analizar un máximo de 500 páginas por archivo PDF. En el caso de los archivos PDF más largos, el procesador de OCR analiza las primeras 500 páginas y el analizador predeterminado analiza el resto.

Analizador de diseño

El análisis de diseño permite que Vertex AI Search detecte diseños para PDF y HTML. La compatibilidad con los archivos DOCX está en versión preliminar. Luego, Vertex AI Search puede identificar elementos de contenido, como bloques de texto, tablas, listas y elementos estructurales, como títulos y encabezados, y usarlos para definir la organización y la jerarquía de un documento.

Puedes activar el análisis de diseño para todos los tipos de archivos o especificar para qué tipos de archivos activarlo. El analizador de diseño detecta elementos de contenido, como párrafos, tablas, listas y elementos estructurales, como títulos, encabezados, pies de página.

El analizador de diseño solo está disponible cuando se usa el fragmento de documentos para RAG. Cuando se activa el fragmento de documentos, Vertex AI Search divide los documentos en fragmentos en el momento de la transferencia y puede mostrarlos como fragmentos. La detección del diseño del documento permite el fragmentación consciente del contenido y mejora la búsqueda y la generación de respuestas relacionadas con los elementos del documento. Para obtener más información sobre cómo dividir documentos para RAG, consulta Cómo dividir documentos para RAG.

El analizador de diseño admite un tamaño máximo de archivo PDF de 40 MB.

Especifica un analizador predeterminado

Cuando incluyes el objeto documentProcessingConfig cuando creas un almacén de datos, puedes especificar un analizador predeterminado para ese almacén de datos. Si no incluyes documentProcessingConfig.defaultParsingConfig, se usa el analizador digital. El analizador digital también se usa si el analizador especificado no está disponible para un tipo de archivo.

REST

Para especificar un analizador predeterminado, haz lo siguiente:

  1. Cuando crees un almacén de datos de búsqueda con la API, incluye documentProcessingConfig.defaultParsingConfig en la solicitud de creación del almacén de datos. Puedes especificar el analizador de OCR, el analizador de diseño o el analizador digital:

    • Para especificar el analizador de OCR para archivos PDF, haz lo siguiente:

      "documentProcessingConfig": {
        "defaultParsingConfig": {
          "ocrParsingConfig": {
            "useNativeText": "NATIVE_TEXT_BOOLEAN"
          }
        }
      }
      
      • NATIVE_TEXT_BOOLEAN: Opcional Establece esta opción solo si transfieres archivos PDF. Si se establece en true, se activa el procesamiento de texto legible por máquina para el analizador de OCR. El valor predeterminado es false.
    • Para especificar el analizador de diseño, haz lo siguiente:

      "documentProcessingConfig": {
        "defaultParsingConfig": {
          "layoutParsingConfig": {}
        }
      }
      
    • Para especificar el analizador digital, sigue estos pasos:

       "documentProcessingConfig": {
          "defaultParsingConfig": { "digitalParsingConfig": {} }
       }
      

Ejemplo

En el siguiente ejemplo, se especifica durante la creación del almacén de datos que el analizador de OCR será el analizador predeterminado. Como el analizador de OCR solo se aplica a los archivos PDF, el analizador de OCR procesará todos los archivos PDF que se transfieran, y el analizador digital procesará cualquier otro tipo de archivo.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1alpha/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "defaultParsingConfig": {
      "ocrParsingConfig": {
        "useNativeText": "false"
      }
    }
  }
}'

Especifica anulaciones del analizador para tipos de archivos

Puedes especificar que un tipo de archivo en particular (PDF, HTML o DOCX) debe analizarse con un analizador diferente del predeterminado. Para ello, incluye el campo documentProcessingConfig en tu solicitud de creación de almacén de datos y especifica el analizador de anulación. Si no especificas un analizador predeterminado, el analizador digital será el predeterminado.

REST

Para especificar una anulación de analizador específica del tipo de archivo, haz lo siguiente:

  1. Cuando crees un almacén de datos de búsqueda con la API, incluye documentProcessingConfig.defaultParsingConfig en la solicitud de creación del almacén de datos.

    Puedes especificar un analizador para pdf, html o docx:

    "documentProcessingConfig": {
      "parsingConfigOverrides": {
        "FILE_TYPE": { PARSING_CONFIG },
      }
     }
    

    Reemplaza lo siguiente:

    • FILE_TYPE: Los valores aceptados son pdf, html y docx.
    • PARSING_CONFIG: Especifica la configuración del analizador que deseas aplicar al tipo de archivo. Puedes especificar el analizador de OCR, el analizador de diseño o el analizador digital:

      • Para especificar el analizador de OCR para archivos PDF, haz lo siguiente:

        "ocrParsingConfig": {
          "useNativeText": "NATIVE_TEXT_BOOLEAN"
        }
        
        • NATIVE_TEXT_BOOLEAN: Opcional Establece esta opción solo si transfieres archivos PDF. Si se establece en true, se activa el procesamiento de texto legible por máquinas para el analizador de OCR. El valor predeterminado es false.
      • Para especificar el analizador de diseño, haz lo siguiente:

        "layoutParsingConfig": {}
        
      • Para especificar el analizador digital, sigue estos pasos:

        "documentProcessingConfig": {
          "defaultParsingConfig": { "digitalParsingConfig": {} }
        }
        

Ejemplo

En el siguiente ejemplo, se especifica durante la creación del almacén de datos que el analizador de OCR debe procesar los archivos PDF y que el analizador de diseño debe procesar los archivos HTML. En este caso, el analizador digital procesaría cualquier archivo que no sea PDF ni HTML.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1alpha/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "parsingConfigOverrides": {
      "pdf": {
        "ocrParsingConfig": {
            "useNativeText": "false"
          },
      },
      "html": {
         "layoutParsingConfig": {}
      }
    }
  }
}'

Obtén documentos analizados en JSON

Para obtener un documento analizado en formato JSON, llama al método getProcessedDocument y especifica PARSED_DOCUMENT como el tipo de documento procesado. Obtener documentos analizados en JSON puede ser útil si necesitas subir el documento analizado a otro lugar o si decides volver a importar documentos analizados a Vertex AI Agent Builder con la función trae tu propio documento analizado.

REST

Para obtener documentos analizados en JSON, sigue estos pasos:

  1. Llama al método getProcessedDocument de la siguiente forma:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID:getProcessedDocument?processed_document_type=PARSED_DOCUMENT"
    

    Reemplaza lo siguiente:

    • PROJECT_ID: Es el ID del proyecto
    • DATA_STORE_ID: Es el ID de tu almacén de datos.
    • DOCUMENT_ID: Es el ID del documento que se obtendrá.

Usa tu propio documento analizado

Puedes importar documentos no estructurados analizados previamente a los almacenes de datos de Vertex AI Search. Por ejemplo, en lugar de importar un archivo PDF sin procesar, puedes analizarlo por tu cuenta y, en su lugar, importar el resultado del análisis. Esto te permite importar tus documentos de forma estructurada, lo que garantiza que la búsqueda y la generación de respuestas tengan información sobre el diseño y los elementos del documento.

Un documento no estructurado analizado se representa con JSON que describe el documento no estructurado con una secuencia de bloques de texto, tabla y lista. Importas archivos JSON con tus datos de documentos no estructurados analizados de la misma manera que lo haces con otros tipos de documentos no estructurados, como los PDF. Cuando esta función está activada, cada vez que se sube un archivo JSON y se identifica con un tipo de MIME application/json o una extensión .JSON, se considera un documento analizado.

Para activar esta función y obtener información sobre cómo usarla, comunícate con el equipo de Cuentas de Google.

Fragmenta documentos para RAG

De forma predeterminada, Vertex AI Search está optimizada para la recuperación de documentos, en la que tu app de búsqueda muestra un documento, como un PDF o una página web, con cada resultado de la búsqueda.

Las funciones de división de documentos están disponibles para las apps de búsqueda genéricas con almacenes de datos no estructurados.

En cambio, Vertex AI Search se puede optimizar para la RAG, en la que tu app de búsqueda se usa principalmente para aumentar el resultado del LLM con tus datos personalizados. Cuando se activa el fragmento de documentos, Vertex AI Search divide tus documentos en fragmentos. En los resultados de la búsqueda, tu app de búsqueda puede mostrar fragmentos de datos relevantes en lugar de documentos completos. El uso de datos divididos para la RAG aumenta la relevancia de las respuestas del LLM y reduce la carga computacional de los LLM.

Para usar Vertex AI Search para RAG, haz lo siguiente:

  1. Activa la fragmentación de documentos cuando crees tu almacén de datos.

    Como alternativa, sube tus propios fragmentos (versión preliminar con lista de entidades permitidas) si ya dividiste tus documentos.

  2. Recupera y consulta los fragmentos de las siguientes maneras:

  3. Devuelve fragmentos en las solicitudes de búsqueda.

Limitaciones

Se aplican las siguientes limitaciones al fragmento:

  • La fragmentación de documentos no se puede activar ni desactivar después de crear el almacén de datos.
  • Puedes realizar solicitudes de búsqueda de documentos en lugar de fragmentos desde un almacén de datos con la fragmentación de documentos activada. Sin embargo, los almacenes de datos con el fragmento de documentos activado no están optimizados para mostrar documentos. Los documentos se muestran a través de la agregación de fragmentos en documentos.
  • Cuando se activa el fragmento de documentos, los resúmenes de búsqueda y la búsqueda con seguimientos son compatibles con la versión preliminar pública, pero no con la versión general.

Opciones de fragmentación de documentos

En esta sección, se describen las opciones que especificas para activar el fragmento de documentos.

Durante la creación del almacén de datos, activa las siguientes opciones para que Vertex AI Search pueda indexar tus documentos como fragmentos.

  • Fragmentación de documentos que se adapta al diseño. Para activar esta opción, incluye el campo documentProcessingConfig en tu solicitud de creación de almacén de datos y especifica ChunkingConfig.LayoutBasedChunkingConfig.

    Cuando se activa el fragmento de documentos adaptado al diseño, Vertex AI Search detecta el diseño de un documento y lo tiene en cuenta durante el fragmento. Esto mejora la coherencia semántica y reduce el ruido en el contenido cuando se usa para la recuperación y la generación de LLM. Todo el texto de un fragmento proviene de la misma entidad de diseño, como encabezados, subtítulos y listas.

  • Análisis de diseño. Para activar esta opción, especifica ParsingConfig.LayoutParsingConfig durante la creación del almacén de datos.

    El analizador de diseño detecta diseños para archivos PDF, HTML y DOCX. Identifica elementos como bloques de texto, tablas, listas, títulos y encabezados, y los usa para definir la organización y jerarquía de un documento.

    Para obtener más información sobre el análisis de diseño, consulta Análisis de diseño.

Activa la fragmentación de documentos

Para activar la fragmentación de documentos, incluye el objeto documentProcessingConfig en tu solicitud de creación de almacén de datos y activa la fragmentación de documentos y el análisis de diseño adaptados al diseño.

REST

Para activar la fragmentación de documentos, haz lo siguiente:

  1. Cuando crees un almacén de datos de búsqueda con la API, incluye el objeto documentProcessingConfig.chunkingConfig en la solicitud de creación del almacén de datos.

     "documentProcessingConfig": {
       "chunkingConfig": {
           "layoutBasedChunkingConfig": {
               "chunkSize": CHUNK_SIZE_LIMIT,
               "includeAncestorHeadings": HEADINGS_BOOLEAN,
           }
       },
       "defaultParsingConfig": {
         "layoutParsingConfig": {}
       }
     }
    

    Reemplaza lo siguiente:

    • CHUNK_SIZE_LIMIT: Opcional Es el límite de tamaño del token para cada fragmento. El valor predeterminado es 500. Los valores admitidos son de 100 a 500 (inclusive).
    • HEADINGS_BOOLEAN: Opcional Determina si se incluyen encabezados en cada fragmento. El valor predeterminado es false. Agregar títulos y encabezados en todos los niveles a los fragmentos del medio del documento puede ayudar a evitar la pérdida de contexto en la recuperación y clasificación de fragmentos.

Usa tus propios fragmentos (versión preliminar con lista de entidades permitidas)

Si ya dividiste tus propios documentos, puedes subirlos a Vertex AI Search en lugar de activar las opciones de división de documentos.

Traer tus propios fragmentos es una función de la versión preliminar con lista de entidades permitidas. Para usar esta función, comunícate con el equipo de cuentas de Google.

Cómo mostrar una lista de los fragmentos de un documento

Para enumerar todos los fragmentos de un documento específico, llama al método Chunks.list.

REST

Para enumerar los fragmentos de un documento, sigue estos pasos:

  1. Llama al método Chunks.list de la siguiente forma:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks"
    

    Reemplaza lo siguiente:

    • PROJECT_ID: Es el ID del proyecto
    • DATA_STORE_ID: Es el ID de tu almacén de datos.
    • DOCUMENT_ID: Es el ID del documento del que se enumerarán los fragmentos.

Obtén fragmentos en JSON de un documento procesado

Para obtener todos los fragmentos de un documento específico en formato JSON, llama al método getProcessedDocument. Obtener fragmentos en JSON puede ser útil si necesitas subir fragmentos a otro lugar o si decides volver a importarlos a Vertex AI Agent Builder con la función trae tus propios fragmentos.

REST

Para obtener fragmentos JSON de un documento, sigue estos pasos:

  1. Llama al método getProcessedDocument de la siguiente forma:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks:getProcessedDocument?processed_document_type=CHUNKED_DOCUMENT"
    

    Reemplaza lo siguiente:

    • PROJECT_ID: Es el ID del proyecto
    • DATA_STORE_ID: Es el ID de tu almacén de datos.
    • DOCUMENT_ID: Es el ID del documento del que se obtendrán los fragmentos.

Cómo obtener fragmentos específicos

Para obtener un fragmento específico, llama al método Chunks.get.

REST

Para obtener un fragmento específico, sigue estos pasos:

  1. Llama al método Chunks.get de la siguiente forma:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks/CHUNK_ID"
    

    Reemplaza lo siguiente:

    • PROJECT_ID: Es el ID del proyecto
    • DATA_STORE_ID: Es el ID de tu almacén de datos.
    • DOCUMENT_ID: Es el ID del documento del que proviene el fragmento.
    • CHUNK_ID: Es el ID del fragmento que se mostrará.

Una vez que confirmes que tus datos se dividieron correctamente, Vertex AI Search puede mostrar datos divididos en los resultados de la búsqueda.

La respuesta muestra un fragmento que es relevante para la búsqueda. Además, puedes elegir mostrar los fragmentos adyacentes que aparecen antes y después del fragmento relevante en el documento fuente. Los fragmentos adyacentes pueden agregar contexto y precisión.

REST

Para obtener datos divididos en fragmentos, sigue estos pasos:

  1. Cuando realices una solicitud de búsqueda, especifica ContentSearchSpec.SearchResultMode como chunks.

    contentSearchSpec": {
      "searchResultMode": "RESULT_MODE",
      "chunkSpec": {
           "numPreviousChunks": NUMBER_OF_PREVIOUS_CHUNKS,
           "numNextChunks": NUMBER_OF_NEXT_CHUNKS
       }
    }
    
    • RESULT_MODE: Determina si los resultados de la búsqueda se muestran como documentos completos o en fragmentos. Para obtener fragmentos, el almacén de datos debe tener activada la fragmentación de documentos. Los valores aceptados son documents y chunks. Si el fragmento de documentos está activado para tu almacén de datos, el valor predeterminado es chunks.
    • NUMBER_OF_PREVIOUS_CHUNKS: Es la cantidad de fragmentos que se mostrarán que preceden inmediatamente al fragmento relevante. El valor máximo permitido es 5.
    • NUMBER_OF_NEXT_CHUNKS: Es la cantidad de fragmentos que se mostrarán que siguen inmediatamente al fragmento relevante. El valor máximo permitido es 5.

Ejemplo

En el siguiente ejemplo de una solicitud de consulta de búsqueda, se establece SearchResultMode en chunks, se solicita un fragmento anterior y uno siguiente, y se limita la cantidad de resultados a un solo fragmento relevante con pageSize.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1alpha/projects/exampleproject/locations/global/collections/default_collection/dataStores/datastore123/servingConfigs/default_search:search" \
-d '{
  "query": "animal",
  "pageSize": 1,
  "contentSearchSpec": {
    "searchResultMode": "CHUNKS",
    "chunkSpec": {
           "numPreviousChunks": 1,
           "numNextChunks": 1
       }
  }
}'

En el siguiente ejemplo, se muestra la respuesta que se muestra para la consulta de ejemplo. La respuesta contiene los fragmentos relevantes, los fragmentos anteriores y los siguientes, los metadatos del documento original y el intervalo de páginas del documento del que se derivó cada fragmento.

Respuesta

{
  "results": [
    {
      "chunk": {
        "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c17",
        "id": "c17",
        "content": "\n# ESS10: Stakeholder Engagement and Information Disclosure\nReaders should also refer to ESS10 and its guidance notes, plus the template available for a stakeholder engagement plan. More detail on stakeholder engagement in projects with risks related to animal health is contained in section 4 below. The type of stakeholders (men and women) that can be engaged by the Borrower as part of the project's environmental and social assessment and project design and implementation are diverse and vary based on the type of intervention. The stakeholders can include: Pastoralists, farmers, herders, women's groups, women farmers, community members, fishermen, youths, etc. Cooperatives members, farmer groups, women's livestock associations, water user associations, community councils, slaughterhouse workers, traders, etc. Veterinarians, para-veterinary professionals, animal health workers, community animal health workers, faculties and students in veterinary colleges, etc. 8 \n# 4. Good Practice in Animal Health Risk Assessment and Management\n\n# Approach\nRisk assessment provides the transparent, adequate and objective evaluation needed by interested parties to make decisions on health-related risks associated with project activities involving live animals. As the ESF requires, it is conducted throughout the project cycle, to provide or indicate likelihood and impact of a given hazard, identify factors that shape the risk, and find proportionate and appropriate management options. The level of risk may be reduced by mitigation measures, such as infrastructure (e.g., diagnostic laboratories, border control posts, quarantine stations), codes of practice (e.g., good animal husbandry practices, on-farm biosecurity, quarantine, vaccination), policies and regulations (e.g., rules for importing live animals, ban on growth hormones and promotors, feed standards, distance required between farms, vaccination), institutional capacity (e.g., veterinary services, surveillance and monitoring), changes in individual behavior (e.g., hygiene, hand washing, care for animals). Annex 2 provides examples of mitigation practices. This list is not an exhaustive one but a compendium of most practiced interventions and activities. The cited measures should take into account social, economic, as well as cultural, gender and occupational aspects, and other factors that may affect the acceptability of mitigation practices by project beneficiaries and other stakeholders. Risk assessment is reviewed and updated through the project cycle (for example to take into account increased trade and travel connectivity between rural and urban settings and how this may affect risks of disease occurrence and/or outbreak). Projects monitor changes in risks (likelihood and impact) b               by using data, triggers or indicators. ",
        "documentMetadata": {
          "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
          "title": "AnimalHealthGoodPracticeNote"
        },
        "pageSpan": {
          "pageStart": 14,
          "pageEnd": 15
        },
        "chunkMetadata": {
          "previousChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c16",
              "id": "c16",
              "content": "\n# ESS6: Biodiversity Conservation and Sustainable Management of Living Natural Resources\nThe risks associated with livestock interventions under ESS6 include animal welfare (in relation to housing, transport, and slaughter); diffusion of pathogens from domestic animals to wildlife, with risks for endemic species and biodiversity (e.g., sheep and goat plague in Mongolia affecting the saiga, an endemic species of wild antelope); the introduction of new breeds with potential risk of introducing exotic or new diseases; and the release of new species that are not endemic with competitive advantage, potentially putting endemic species at risk of extinction. Animal welfare relates to how an animal is coping with the conditions in which it lives. An animal is in a good state of welfare if it is healthy, comfortable, well nourished, safe, able to express innate behavior, 7 Good Practice Note - Animal Health and related risks and is not suffering from unpleasant states such as pain, fear or distress. Good animal welfare requires appropriate animal care, disease prevention and veterinary treatment; appropriate shelter, management and nutrition; humane handling, slaughter or culling. The OIE provides standards for animal welfare on farms, during transport and at the time of slaughter, for their welfare and for purposes of disease control, in its Terrestrial and Aquatic Codes. The 2014 IFC Good Practice Note: Improving Animal Welfare in Livestock Operations is another example of practical guidance provided to development practitioners for implementation in investments and operations. Pastoralists rely heavily on livestock as a source of food, income and social status. Emergency projects to restock the herds of pastoralists affected by drought, disease or other natural disaster should pay particular attention to animal welfare (in terms of transport, access to water, feed, and animal health) to avoid potential disease transmission and ensure humane treatment of animals. Restocking also entails assessing the assets of pastoralists and their ability to maintain livestock in good conditions (access to pasture and water, social relationship, technical knowledge, etc.). Pastoralist communities also need to be engaged by the project to determine the type of animals and breed and the minimum herd size to be considered for restocking. \n# Box 5. Safeguarding the welfare of animals and related risks in project activities\nIn Haiti, the RESEPAG project (Relaunching Agriculture: Strengthening Agriculture Public Services) financed housing for goats and provided technical recommendations for improving their welfare, which is critical to avoid the respiratory infections, including pneumonia, that are serious diseases for goats. To prevent these diseases, requires optimal sanitation and air quality in herd housing. This involves ensuring that buildings have adequate ventilation and dust levels are reduced to minimize the opportunity for infection. Good nutrition, water and minerals are also needed to support the goats' immune function. The project paid particular attention to: (i) housing design to ensure good ventilation; (ii) locating housing close to water sources and away from human habitation and noisy areas; (iii) providing mineral blocks for micronutrients; (iv) ensuring availability of drinking water and clean food troughs. ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 13,
                "pageEnd": 14
              }
            }
          ],
          "nextChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c18",
              "id": "c18",
              "content": "\n# Scoping of risks\nEarly scoping of risks related to animal health informs decisions to initiate more comprehensive risk assessment according to the type of livestock interventions and activities. It can be based on the following considerations: • • • • Type of livestock interventions supported by the project (such as expansion of feed resources, improvement of animal genetics, construction/upgrading and management of post-farm-gate facilities, etc. – see also Annex 2); Geographic scope and scale of the livestock interventions; Human and animal populations that are likely to be affected (farmers, women, children, domestic animals, wildlife, etc.); and Changes in the project or project context (such as emerging disease outbreak, extreme weather or climatic conditions) that would require a re-assessment of risk levels, mitigation measures and their likely effect on risk reduction. Scenario planning can also help to identify project-specific vulnerabilities, country-wide or locally, and help shape pragmatic analyses that address single or multiple hazards. In this process, some populations may be identified as having disproportionate exposure or vulnerability to certain risks because of occupation, gender, age, cultural or religious affiliation, socio-economic or health status. For example, women and children may be the main caretakers of livestock in the case of 9 Good Practice Note - Animal Health and related risks household farming, which puts them into close contact with animals and animal products. In farms and slaughterhouses, workers and veterinarians are particularly exposed, as they may be in direct contact with sick animals (see Box 2 for an illustration). Fragility, conflict, and violence (FCV) can exacerbate risk, in terms of likelihood and impact. Migrants new to a geographic area may be immunologically naïve to endemic zoonotic diseases or they may inadvertently introduce exotic diseases; and refugees or internally displaced populations may have high population density with limited infrastructure, leaving them vulnerable to disease exposure. Factors such as lack of access to sanitation, hygiene, housing, and health and veterinary services may also affect disease prevalence, contributing to perpetuation of poverty in some populations. Risk assessment should identify populations at risk and prioritize vulnerable populations and circumstances where risks may be increased. It should be noted that activities that seem minor can still have major consequences. See Box 6 for an example illustrating how such small interventions in a project may have large-scale consequences. It highlights the need for risk assessment, even for simple livestock interventions and activities, and how this can help during the project cycle (from concept to implementation). ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 15,
                "pageEnd": 16
              }
            }
          ]
        }
      }
    }
  ],
  "totalSize": 61,
  "attributionToken": "jwHwjgoMCICPjbAGEISp2J0BEiQ2NjAzMmZhYS0wMDAwLTJjYzEtYWQxYS1hYzNlYjE0Mzc2MTQiB0dFTkVSSUMqUMLwnhXb7Ygtq8SKLa3Eii3d7Ygtj_enIqOAlyLm7Ygtt7eMLduPmiKN96cijr6dFcXL8xfdj5oi9-yILdSynRWCspoi-eyILYCymiLk7Ygt",
  "nextPageToken": "ANxYzNzQTMiV2MjFWLhFDZh1SMjNmMtADMwATL5EmZyMDM2YDJaMQv3yagQYAsciPgIwgExEgC",
  "guidedSearchResult": {},
  "summary": {}
}

¿Qué sigue?