Analisar e dividir documentos

Nesta página, descrevemos como usar a Pesquisa da Vertex AI para analisar e dividir seus documentos.

É possível configurar as configurações de análise ou fragmentação para:

  • Especifique como a Vertex AI para Pesquisa analisa o conteúdo. É possível especificar como analisar conteúdo não estruturado ao fazer upload dele para a Vertex AI para Pesquisa. A Vertex AI para Pesquisa oferece um analisador digital, um analisador OCR para PDFs e um analisador de layout. Você também pode trazer seus próprios documentos analisados. O analisador de layout é recomendado quando você tem conteúdo rico e elementos estruturais, como seções, parágrafos, tabelas e listas, que precisam ser extraídos de documentos para pesquisa e geração de respostas.

    Consulte Melhorar a detecção de conteúdo com a análise.

  • Use a Pesquisa da Vertex AI para geração aumentada de recuperação (RAG). Melhore a saída de LLMs com dados relevantes que você enviou para o app da Vertex AI para Pesquisa. Para isso, ative o agrupamento de documentos, que indexa seus dados como blocos para melhorar a relevância e diminuir a carga computacional de LLMs. Você também vai ativar o analisador de layout, que detecta elementos do documento, como cabeçalhos e listas, para melhorar a forma como os documentos são divididos.

    Para informações sobre o agrupamento para RAG e como retornar blocos em solicitações de pesquisa, consulte Agrupar documentos para RAG.

Analisar documentos

É possível controlar a análise do conteúdo das seguintes maneiras:

  • Especificar o tipo de analisador. É possível especificar o tipo de análise a ser aplicado, dependendo do tipo de arquivo:

    • Parecedor digital. O analisador digital fica ativado por padrão para todos os tipos de arquivo, a menos que um tipo de analisador diferente seja especificado. O analisador digital processa documentos ingeridos se nenhum outro analisador padrão for especificado para o armazenamento de dados ou se o analisador especificado não oferecer suporte ao tipo de arquivo de um documento ingerido.
    • Análise OCR para PDFs. Se você planeja fazer upload de PDFs digitalizados ou PDFs com texto dentro de imagens, ative o analisador de OCR para melhorar a indexação de PDFs. Consulte a seção Analisador OCR para PDFs deste documento.
    • Analisador de layout. Ative o analisador de layout para arquivos HTML, PDF ou DOCX se você planeja usar a Vertex AI para Pesquisa para RAG. Consulte Documentos de fragmento para RAG para informações sobre esse analisador e como ativá-lo.
  • Use seu próprio documento analisado. (Pré-lançamento com lista de permissões) Se você já tiver analisado seus documentos não estruturados, poderá importar esse conteúdo pré-analisado para a Pesquisa da Vertex AI. Consulte Traga seu próprio documento analisado.

Comparação de disponibilidade do analisador

A tabela a seguir lista a disponibilidade de cada analisador por tipos de arquivo de documento e mostra quais elementos cada analisador pode detectar e analisar.

Tipo de arquivo Analisador digital Parser de OCR Analisador de layout
HTML Detecta elementos de parágrafo N/A Detecta elementos de parágrafo, tabela, lista, título e cabeçalho
PDF Detecta elementos de parágrafo (texto digital) Detecta elementos de parágrafo Detecta elementos de parágrafo, tabela, título e cabeçalho
DOCX (pré-lançamento) Detecta elementos de parágrafo N/A Detecta parágrafos, tabelas, listas, títulos e elementos de cabeçalho
PPTX (Pré-lançamento) Detecta elementos de parágrafo N/A Detecta parágrafos, tabelas, listas, títulos e elementos de cabeçalho
TXT Detecta elementos de parágrafo N/A Detecta elementos de parágrafo, tabela, título e cabeçalho
XLSX (pré-lançamento) Detecta elementos de parágrafo N/A Detecta elementos de parágrafo, tabela, título e cabeçalho

Analisador digital

O analisador digital extrai textos legíveis por máquina de documentos. Ele detecta blocos de texto, mas não elementos de documentos, como tabelas, listas e títulos.

O analisador digital é usado como padrão se você não especificar um analisador diferente como padrão durante a criação do repositório de dados ou se um analisador especificado não oferecer suporte a um tipo de arquivo que está sendo enviado.

Parser de OCR para PDFs

Se você tiver PDFs não pesquisáveis (PDFs digitalizados ou PDFs com texto dentro de imagens, como infográficos), o Google recomenda ativar o processamento de reconhecimento óptico de caracteres (OCR) durante a criação do repositório de dados. Isso permite que a Vertex AI para Pesquisa extraia elementos de parágrafo.

Se você tiver PDFs pesquisáveis ou outros formatos digitais compostos principalmente de texto legível por máquina, normalmente não será necessário usar o analisador de OCR. No entanto, se você tiver PDFs com texto não pesquisável (como texto digitalizado ou informações gráficas) e texto legível por máquina, defina o campo useNativeText como verdadeiro ao especificar o analisador de OCR. Nesse caso, o texto legível por máquina é mesclado com as saídas de análise de OCR para melhorar a qualidade da extração de texto.

Os recursos de processamento de OCR estão disponíveis para apps de pesquisa genérica com repositórios de dados não estruturados.

O processador de OCR pode analisar no máximo 500 páginas por arquivo PDF. Para PDFs mais longos, o processador de OCR analisa as primeiras 500 páginas, e o analisador padrão analisa o restante.

Analisador de layout

A análise de layout permite que a Vertex AI para Pesquisa detecte layouts para PDF e HTML. O suporte a arquivos DOCX está em fase de prévia. A Vertex AI Search pode identificar elementos de conteúdo, como blocos de texto, tabelas, listas e elementos estruturais, como títulos e cabeçalhos, e usá-los para definir a organização e a hierarquia de um documento.

É possível ativar a análise de layout para todos os tipos de arquivo ou especificar para quais tipos de arquivo ela será ativada. O analisador de layout detecta elementos de conteúdo, como parágrafos, tabelas, listas e elementos estruturais, como títulos, cabeçalhos e notas de rodapé.

O analisador de layout só está disponível quando o agrupamento de documentos é usado para RAG. Quando o agrupamento de documentos está ativado, a Vertex AI Search divide os documentos em partes na hora da ingestão e pode retornar os documentos como partes. A detecção do layout do documento permite o agrupamento com base no conteúdo e aprimora a pesquisa e a geração de respostas relacionadas aos elementos do documento. Para mais informações sobre como dividir documentos para RAG, consulte Dividir documentos para RAG.

Especificar um analisador padrão

Ao incluir o objeto documentProcessingConfig ao criar um repositório de dados, é possível especificar um analisador padrão para esse repositório. Se você não incluir documentProcessingConfig.defaultParsingConfig, o parser digital será usado. O analisador digital também é usado se o especificado não estiver disponível para um tipo de arquivo.

REST

Para especificar um analisador padrão:

  1. Ao criar um repositório de dados de pesquisa usando a API, inclua documentProcessingConfig.defaultParsingConfig na solicitação de criação do repositório de dados. É possível especificar o analisador OCR, o analisador de layout ou o analisador digital:

    • Para especificar o analisador de OCR para PDFs:

      "documentProcessingConfig": {
        "defaultParsingConfig": {
          "ocrParsingConfig": {
            "useNativeText": "NATIVE_TEXT_BOOLEAN"
          }
        }
      }
      
      • NATIVE_TEXT_BOOLEAN: opcional. Defina apenas se você estiver transferindo PDFs. Se definido como true, ele ativa o processamento de texto legível por máquina para o analisador de OCR. O padrão é false.
    • Para especificar o analisador de layout:

      "documentProcessingConfig": {
        "defaultParsingConfig": {
          "layoutParsingConfig": {}
        }
      }
      
    • Para especificar o analisador digital:

       "documentProcessingConfig": {
          "defaultParsingConfig": { "digitalParsingConfig": {} }
       }
      

Exemplo

O exemplo a seguir especifica durante a criação do repositório de dados que o analisador de OCR será o analisador padrão. Como o analisador de OCR se aplica apenas a arquivos PDF, todos os arquivos PDF ingeridos serão processados pelo analisador de OCR, e todos os outros tipos de arquivo serão processados pelo analisador digital.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1alpha/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "defaultParsingConfig": {
      "ocrParsingConfig": {
        "useNativeText": "false"
      }
    }
  }
}'

Especificar substituições de analisador para tipos de arquivo

É possível especificar que um tipo de arquivo específico (PDF, HTML ou DOCX) seja analisado por um analisador diferente do padrão. Para fazer isso, inclua o campo documentProcessingConfig na solicitação de criação do repositório de dados e especifique o analisador de substituição. Se você não especificar um analisador padrão, o analisador digital será o padrão.

REST

Para especificar uma substituição de parser específica do tipo de arquivo:

  1. Ao criar um repositório de dados de pesquisa usando a API, inclua documentProcessingConfig.defaultParsingConfig na solicitação de criação do repositório de dados.

    É possível especificar um analisador para pdf, html ou docx:

    "documentProcessingConfig": {
      "parsingConfigOverrides": {
        "FILE_TYPE": { PARSING_CONFIG },
      }
     }
    

    Substitua:

    • FILE_TYPE: os valores aceitos são pdf, html e docx.
    • PARSING_CONFIG: especifique a configuração do analisador que você quer aplicar ao tipo de arquivo. É possível especificar o analisador de OCR, o analisador de layout ou o analisador digital:

      • Para especificar o analisador de OCR para PDFs:

        "ocrParsingConfig": {
          "useNativeText": "NATIVE_TEXT_BOOLEAN"
        }
        
        • NATIVE_TEXT_BOOLEAN: opcional. Defina apenas se você estiver transferindo PDFs. Se definido como true, o processamento de texto legível por máquina é ativado para o analisador de OCR. O padrão é false.
      • Para especificar o analisador de layout:

        "layoutParsingConfig": {}
        
      • Para especificar o analisador digital:

        "documentProcessingConfig": {
          "defaultParsingConfig": { "digitalParsingConfig": {} }
        }
        

Exemplo

O exemplo a seguir especifica durante a criação do repositório de dados que os arquivos PDF precisam ser processados pelo analisador de OCR e que os arquivos HTML precisam ser processados pelo analisador de layout. Nesse caso, todos os arquivos, exceto PDFs e HTMLs, seriam processados pelo analisador digital.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1alpha/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "parsingConfigOverrides": {
      "pdf": {
        "ocrParsingConfig": {
            "useNativeText": "false"
          },
      },
      "html": {
         "layoutParsingConfig": {}
      }
    }
  }
}'

Receber documentos analisados em JSON

Para receber um documento analisado em formato JSON, chame o método getProcessedDocument e especifique PARSED_DOCUMENT como o tipo de documento processado. Conseguir documentos analisados em JSON pode ser útil se você precisar fazer upload do documento analisado em outro lugar ou se decidir importar novamente documentos analisados para o Vertex AI Agent Builder usando o recurso traga seu próprio documento analisado.

REST

Para receber documentos analisados em JSON, siga esta etapa:

  1. Chame o método getProcessedDocument:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID:getProcessedDocument?processed_document_type=PARSED_DOCUMENT"
    

    Substitua:

    • PROJECT_ID: o ID do seu projeto.
    • DATA_STORE_ID: o ID do repositório de dados.
    • DOCUMENT_ID: o ID do documento a ser recebido.

Traga seu próprio documento analisado

É possível importar documentos não estruturados pré-analisados para os repositórios de dados da Vertex AI para Pesquisa. Por exemplo, em vez de importar um documento PDF bruto, você pode analisar o PDF e importar o resultado da análise. Isso permite importar seus documentos de maneira estruturada, garantindo que a pesquisa e a geração de respostas tenham informações sobre o layout e os elementos do documento.

Um documento não estruturado analisado é representado por JSON que descreve o documento não estruturado usando uma sequência de blocos de texto, tabela e lista. Você importa arquivos JSON com os dados de documentos não estruturados analisados da mesma forma que outros tipos de documentos não estruturados, como PDFs. Quando esse recurso está ativado, sempre que um arquivo JSON é enviado por upload e identificado por um tipo MIME application/json ou uma extensão .JSON, ele é tratado como um documento analisado.

Para ativar esse recurso e saber como usá-lo, entre em contato com a equipe de contas do Google.

Dividir documentos para RAG

Por padrão, a Vertex AI para Pesquisa é otimizada para recuperação de documentos, em que o app de pesquisa retorna um documento, como um PDF ou uma página da Web, com cada resultado da pesquisa.

Os recursos de fragmentação de documentos estão disponíveis para apps de pesquisa genérica com repositórios de dados não estruturados.

A Vertex AI para Pesquisa pode ser otimizada para RAG, em que o app de pesquisa é usado principalmente para aumentar a saída do LLM com seus dados personalizados. Quando o agrupamento de documentos está ativado, a Vertex AI para Pesquisa divide seus documentos em partes. Nos resultados da pesquisa, o app de pesquisa pode retornar partes relevantes de dados em vez de documentos completos. O uso de dados em blocos para a RAG aumenta a relevância das respostas do LLM e reduz a carga computacional.

Para usar a Vertex AI para Pesquisa para RAG:

  1. Ative a divisão de documentos ao criar o repositório de dados.

    Se preferir, faça upload dos seus próprios blocos (prévia com lista de permissões) se você já tiver dividido seus documentos.

  2. Extraia e confira os blocos das seguintes maneiras:

  3. Retornar blocos em solicitações de pesquisa.

Limitações

As limitações a seguir se aplicam ao agrupamento:

  • A divisão de documentos não pode ser ativada ou desativada após a criação do repositório de dados.
  • É possível fazer solicitações de pesquisa para documentos em vez de partes de um repositório de dados com a divisão de documentos ativada. No entanto, os repositórios de dados com fragmentação de documentos ativada não são otimizados para retornar documentos. Os documentos são retornados agrupando partes em documentos.
  • Quando o agrupamento de documentos está ativado, os resumos de pesquisa e a pesquisa com seguimentos são compatíveis com a prévia pública, mas não com o GA.

Opções de divisão de documentos

Esta seção descreve as opções que você especifica para ativar o fragmentação de documentos.

Durante a criação do repositório de dados, ative as opções a seguir para que a Vertex AI para Pesquisa possa indexar seus documentos como blocos.

  • Divisão de documentos com suporte a layout. Para ativar essa opção, inclua o campo documentProcessingConfig na solicitação de criação do repositório de dados e especifique ChunkingConfig.LayoutBasedChunkingConfig.

    Quando o agrupamento de documentos com conhecimento de layout está ativado, a Vertex AI Search detecta o layout de um documento e o considera durante o agrupamento. Isso melhora a coerência semântica e reduz o ruído no conteúdo quando ele é usado para recuperação e geração de LLM. Todo o texto em um bloco vem da mesma entidade de layout, como títulos, subtítulos e listas.

  • Análise de layout. Para ativar essa opção, especifique ParsingConfig.LayoutParsingConfig durante a criação do repositório de dados.

    O analisador de layout detecta layouts para arquivos PDF, HTML e DOCX. Ele identifica elementos como blocos de texto, tabelas, listas, títulos e cabeçalhos e os usa para definir a organização e a hierarquia de um documento.

    Para saber mais sobre a análise de layout, consulte Análise de layout.

Ativar a divisão de documentos

É possível ativar a divisão de documentos incluindo o objeto documentProcessingConfig na solicitação de criação de repositório de dados e ativando a divisão de documentos com suporte a layout e a análise de layout.

REST

Para ativar a divisão de documentos:

  1. Ao criar um repositório de dados de pesquisa usando a API, inclua o objeto documentProcessingConfig.chunkingConfig na solicitação de criação do repositório de dados.

     "documentProcessingConfig": {
       "chunkingConfig": {
           "layoutBasedChunkingConfig": {
               "chunkSize": CHUNK_SIZE_LIMIT,
               "includeAncestorHeadings": HEADINGS_BOOLEAN,
           }
       },
       "defaultParsingConfig": {
         "layoutParsingConfig": {}
       }
     }
    

    Substitua:

    • CHUNK_SIZE_LIMIT: opcional. O limite de tamanho do token para cada bloco. O valor padrão é 500. Os valores aceitos são de 100 a 500 (inclusive).
    • HEADINGS_BOOLEAN: opcional. Determina se os títulos são incluídos em cada bloco. O valor padrão é false. Adicionar título e títulos em todos os níveis a blocos do meio do documento pode ajudar a evitar a perda de contexto na recuperação e classificação de blocos.

Traga seus próprios blocos (pré-lançamento com lista de permissões)

Se você já tiver dividido seus documentos, faça upload deles para a Vertex AI para Pesquisa em vez de ativar as opções de divisão de documentos.

O recurso "Trazer seus próprios blocos" é um recurso de pré-lançamento com lista de permissões. Para usar esse recurso, entre em contato com a equipe de contas do Google.

Listar os blocos de um documento

Para listar todos os blocos de um documento específico, chame o método Chunks.list.

REST

Para listar os blocos de um documento, siga esta etapa:

  1. Chame o método Chunks.list:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks"
    

    Substitua:

    • PROJECT_ID: o ID do seu projeto.
    • DATA_STORE_ID: o ID do repositório de dados.
    • DOCUMENT_ID: o ID do documento de onde os blocos serão listados.

Receber blocos em JSON de um documento processado

É possível receber todos os pedaços de um documento específico no formato JSON chamando o método getProcessedDocument. Conferir os blocos em JSON pode ser útil se você precisar fazer upload de blocos em outro lugar ou se decidir reimportar blocos para o Vertex AI Agent Builder usando o recurso traga seus próprios blocos.

REST

Para receber blocos JSON de um documento, siga esta etapa:

  1. Chame o método getProcessedDocument:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks:getProcessedDocument?processed_document_type=CHUNKED_DOCUMENT"
    

    Substitua:

    • PROJECT_ID: o ID do seu projeto.
    • DATA_STORE_ID: o ID do repositório de dados.
    • DOCUMENT_ID: o ID do documento de onde os pedaços serão retirados.

Receber blocos específicos

Para acessar um fragmento específico, chame o método Chunks.get.

REST

Para acessar um fragmento específico, siga esta etapa:

  1. Chame o método Chunks.get:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks/CHUNK_ID"
    

    Substitua:

    • PROJECT_ID: o ID do seu projeto.
    • DATA_STORE_ID: o ID do repositório de dados.
    • DOCUMENT_ID: o ID do documento de origem do fragmento.
    • CHUNK_ID: o ID do fragmento a ser retornado.

Depois de confirmar que os dados foram divididos corretamente, a Pesquisa da Vertex AI poderá retornar dados fragmentados nos resultados da pesquisa.

A resposta retorna um bloco relevante para a consulta de pesquisa. Além disso, é possível retornar blocos adjacentes que aparecem antes e depois do bloco relevante no documento de origem. Os blocos adjacentes podem adicionar contexto e precisão.

REST

Para receber dados em blocos:

  1. Ao fazer uma solicitação de pesquisa, especifique ContentSearchSpec.SearchResultMode como chunks.

    contentSearchSpec": {
      "searchResultMode": "RESULT_MODE",
      "chunkSpec": {
           "numPreviousChunks": NUMBER_OF_PREVIOUS_CHUNKS,
           "numNextChunks": NUMBER_OF_NEXT_CHUNKS
       }
    }
    
    • RESULT_MODE: determina se os resultados da pesquisa são retornados como documentos completos ou em partes. Para receber blocos, o repositório de dados precisa ter a divisão de documentos ativada. Os valores aceitos são documents e chunks. Se a divisão de documentos estiver ativada para o repositório de dados, o valor padrão será chunks.
    • NUMBER_OF_PREVIOUS_CHUNKS: o número de blocos a serem retornados que precederam imediatamente o bloco relevante. O valor máximo permitido é 5.
    • NUMBER_OF_NEXT_CHUNKS: o número de blocos a serem retornados que seguem imediatamente o bloco relevante. O valor máximo permitido é 5.

Exemplo

O exemplo a seguir de uma solicitação de consulta de pesquisa define SearchResultMode como chunks, solicita um bloco anterior e um bloco seguinte e limita o número de resultados a um único bloco relevante usando pageSize.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1alpha/projects/exampleproject/locations/global/collections/default_collection/dataStores/datastore123/servingConfigs/default_search:search" \
-d '{
  "query": "animal",
  "pageSize": 1,
  "contentSearchSpec": {
    "searchResultMode": "CHUNKS",
    "chunkSpec": {
           "numPreviousChunks": 1,
           "numNextChunks": 1
       }
  }
}'

O exemplo a seguir mostra a resposta retornada para a consulta de exemplo. A resposta contém os blocos relevantes, os blocos anteriores e os blocos seguintes, os metadados do documento original e o intervalo de páginas do documento de que cada bloco foi derivado.

Resposta

{
  "results": [
    {
      "chunk": {
        "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c17",
        "id": "c17",
        "content": "\n# ESS10: Stakeholder Engagement and Information Disclosure\nReaders should also refer to ESS10 and its guidance notes, plus the template available for a stakeholder engagement plan. More detail on stakeholder engagement in projects with risks related to animal health is contained in section 4 below. The type of stakeholders (men and women) that can be engaged by the Borrower as part of the project's environmental and social assessment and project design and implementation are diverse and vary based on the type of intervention. The stakeholders can include: Pastoralists, farmers, herders, women's groups, women farmers, community members, fishermen, youths, etc. Cooperatives members, farmer groups, women's livestock associations, water user associations, community councils, slaughterhouse workers, traders, etc. Veterinarians, para-veterinary professionals, animal health workers, community animal health workers, faculties and students in veterinary colleges, etc. 8 \n# 4. Good Practice in Animal Health Risk Assessment and Management\n\n# Approach\nRisk assessment provides the transparent, adequate and objective evaluation needed by interested parties to make decisions on health-related risks associated with project activities involving live animals. As the ESF requires, it is conducted throughout the project cycle, to provide or indicate likelihood and impact of a given hazard, identify factors that shape the risk, and find proportionate and appropriate management options. The level of risk may be reduced by mitigation measures, such as infrastructure (e.g., diagnostic laboratories, border control posts, quarantine stations), codes of practice (e.g., good animal husbandry practices, on-farm biosecurity, quarantine, vaccination), policies and regulations (e.g., rules for importing live animals, ban on growth hormones and promotors, feed standards, distance required between farms, vaccination), institutional capacity (e.g., veterinary services, surveillance and monitoring), changes in individual behavior (e.g., hygiene, hand washing, care for animals). Annex 2 provides examples of mitigation practices. This list is not an exhaustive one but a compendium of most practiced interventions and activities. The cited measures should take into account social, economic, as well as cultural, gender and occupational aspects, and other factors that may affect the acceptability of mitigation practices by project beneficiaries and other stakeholders. Risk assessment is reviewed and updated through the project cycle (for example to take into account increased trade and travel connectivity between rural and urban settings and how this may affect risks of disease occurrence and/or outbreak). Projects monitor changes in risks (likelihood and impact) b               by using data, triggers or indicators. ",
        "documentMetadata": {
          "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
          "title": "AnimalHealthGoodPracticeNote"
        },
        "pageSpan": {
          "pageStart": 14,
          "pageEnd": 15
        },
        "chunkMetadata": {
          "previousChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c16",
              "id": "c16",
              "content": "\n# ESS6: Biodiversity Conservation and Sustainable Management of Living Natural Resources\nThe risks associated with livestock interventions under ESS6 include animal welfare (in relation to housing, transport, and slaughter); diffusion of pathogens from domestic animals to wildlife, with risks for endemic species and biodiversity (e.g., sheep and goat plague in Mongolia affecting the saiga, an endemic species of wild antelope); the introduction of new breeds with potential risk of introducing exotic or new diseases; and the release of new species that are not endemic with competitive advantage, potentially putting endemic species at risk of extinction. Animal welfare relates to how an animal is coping with the conditions in which it lives. An animal is in a good state of welfare if it is healthy, comfortable, well nourished, safe, able to express innate behavior, 7 Good Practice Note - Animal Health and related risks and is not suffering from unpleasant states such as pain, fear or distress. Good animal welfare requires appropriate animal care, disease prevention and veterinary treatment; appropriate shelter, management and nutrition; humane handling, slaughter or culling. The OIE provides standards for animal welfare on farms, during transport and at the time of slaughter, for their welfare and for purposes of disease control, in its Terrestrial and Aquatic Codes. The 2014 IFC Good Practice Note: Improving Animal Welfare in Livestock Operations is another example of practical guidance provided to development practitioners for implementation in investments and operations. Pastoralists rely heavily on livestock as a source of food, income and social status. Emergency projects to restock the herds of pastoralists affected by drought, disease or other natural disaster should pay particular attention to animal welfare (in terms of transport, access to water, feed, and animal health) to avoid potential disease transmission and ensure humane treatment of animals. Restocking also entails assessing the assets of pastoralists and their ability to maintain livestock in good conditions (access to pasture and water, social relationship, technical knowledge, etc.). Pastoralist communities also need to be engaged by the project to determine the type of animals and breed and the minimum herd size to be considered for restocking. \n# Box 5. Safeguarding the welfare of animals and related risks in project activities\nIn Haiti, the RESEPAG project (Relaunching Agriculture: Strengthening Agriculture Public Services) financed housing for goats and provided technical recommendations for improving their welfare, which is critical to avoid the respiratory infections, including pneumonia, that are serious diseases for goats. To prevent these diseases, requires optimal sanitation and air quality in herd housing. This involves ensuring that buildings have adequate ventilation and dust levels are reduced to minimize the opportunity for infection. Good nutrition, water and minerals are also needed to support the goats' immune function. The project paid particular attention to: (i) housing design to ensure good ventilation; (ii) locating housing close to water sources and away from human habitation and noisy areas; (iii) providing mineral blocks for micronutrients; (iv) ensuring availability of drinking water and clean food troughs. ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 13,
                "pageEnd": 14
              }
            }
          ],
          "nextChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c18",
              "id": "c18",
              "content": "\n# Scoping of risks\nEarly scoping of risks related to animal health informs decisions to initiate more comprehensive risk assessment according to the type of livestock interventions and activities. It can be based on the following considerations: • • • • Type of livestock interventions supported by the project (such as expansion of feed resources, improvement of animal genetics, construction/upgrading and management of post-farm-gate facilities, etc. – see also Annex 2); Geographic scope and scale of the livestock interventions; Human and animal populations that are likely to be affected (farmers, women, children, domestic animals, wildlife, etc.); and Changes in the project or project context (such as emerging disease outbreak, extreme weather or climatic conditions) that would require a re-assessment of risk levels, mitigation measures and their likely effect on risk reduction. Scenario planning can also help to identify project-specific vulnerabilities, country-wide or locally, and help shape pragmatic analyses that address single or multiple hazards. In this process, some populations may be identified as having disproportionate exposure or vulnerability to certain risks because of occupation, gender, age, cultural or religious affiliation, socio-economic or health status. For example, women and children may be the main caretakers of livestock in the case of 9 Good Practice Note - Animal Health and related risks household farming, which puts them into close contact with animals and animal products. In farms and slaughterhouses, workers and veterinarians are particularly exposed, as they may be in direct contact with sick animals (see Box 2 for an illustration). Fragility, conflict, and violence (FCV) can exacerbate risk, in terms of likelihood and impact. Migrants new to a geographic area may be immunologically naïve to endemic zoonotic diseases or they may inadvertently introduce exotic diseases; and refugees or internally displaced populations may have high population density with limited infrastructure, leaving them vulnerable to disease exposure. Factors such as lack of access to sanitation, hygiene, housing, and health and veterinary services may also affect disease prevalence, contributing to perpetuation of poverty in some populations. Risk assessment should identify populations at risk and prioritize vulnerable populations and circumstances where risks may be increased. It should be noted that activities that seem minor can still have major consequences. See Box 6 for an example illustrating how such small interventions in a project may have large-scale consequences. It highlights the need for risk assessment, even for simple livestock interventions and activities, and how this can help during the project cycle (from concept to implementation). ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 15,
                "pageEnd": 16
              }
            }
          ]
        }
      }
    }
  ],
  "totalSize": 61,
  "attributionToken": "jwHwjgoMCICPjbAGEISp2J0BEiQ2NjAzMmZhYS0wMDAwLTJjYzEtYWQxYS1hYzNlYjE0Mzc2MTQiB0dFTkVSSUMqUMLwnhXb7Ygtq8SKLa3Eii3d7Ygtj_enIqOAlyLm7Ygtt7eMLduPmiKN96cijr6dFcXL8xfdj5oi9-yILdSynRWCspoi-eyILYCymiLk7Ygt",
  "nextPageToken": "ANxYzNzQTMiV2MjFWLhFDZh1SMjNmMtADMwATL5EmZyMDM2YDJaMQv3yagQYAsciPgIwgExEgC",
  "guidedSearchResult": {},
  "summary": {}
}

A seguir