Analisar e dividir documentos

Nesta página, descrevemos como usar a Pesquisa da Vertex AI para analisar e dividir seus documentos.

É possível configurar as configurações de análise ou fragmentação para:

  • Especifique como a Vertex AI para Pesquisa analisa o conteúdo. É possível especificar como para analisar conteúdo não estruturado ao fazer upload dele para a Vertex AI para Pesquisa. A Vertex AI para Pesquisa fornece um analisador digital, um analisador de OCR para PDFs e um analisador de layout. Você também pode trazer seus próprios documentos analisados. O analisador de layout é recomendado quando você tem conteúdo avançado e elementos estruturais como seções, parágrafos, tabelas e listas a serem extraídos de documentos para geração de pesquisa e respostas.

    Consulte Melhorar a detecção de conteúdo com a análise.

  • Use a Vertex AI para Pesquisa para geração aumentada de recuperação (RAG). Melhore a saída de LLMs com dados relevantes que você enviou para o app da Vertex AI para Pesquisa. Para isso, ative o agrupamento de documentos, que indexa seus dados como blocos para melhorar a relevância e diminuir a carga computacional de LLMs. Você também ativará o analisador de layout, que detecta elementos de documentos como cabeçalhos e listas, para melhorar a forma como os documentos são divididos em blocos.

    Para informações sobre como dividir para RAG e como retornar blocos na pesquisa solicitações, consulte Agrupar documentos para RAG.

Analisar documentos

É possível controlar a análise do conteúdo das seguintes maneiras:

  • Especificar o tipo de analisador. É possível especificar o tipo de análise a ser aplicado, dependendo do tipo de arquivo:

    • Parecedor digital. O analisador digital fica ativado por padrão para todos os tipos de arquivo a menos que outro tipo de analisador seja especificado. O analisador digital processa documentos ingeridos se nenhum outro analisador padrão for especificado para os dados armazenar ou se o analisador especificado não for compatível com o tipo de arquivo de um documento ingerido.
    • Análise OCR para PDFs. Se você planeja fazer upload de PDFs digitalizados ou PDFs com texto dentro de imagens, ative o analisador de OCR para melhorar a indexação de PDFs. Consulte a seção Analisador OCR para PDFs deste documento.
    • analisador de layout. Ative o analisador de layout para arquivos HTML, PDF ou DOCX se você planeja usar a Vertex AI para Pesquisa para RAG. Consulte Documentos de fragmento para RAG para informações sobre esse parser e como ativá-lo.
  • Use seu próprio documento analisado. (Pré-lançamento com lista de permissões) Se você já tiver analisado seus documentos não estruturados, poderá importar esse conteúdo pré-analisado para a Pesquisa da Vertex AI. Consulte Traga seu próprio documento analisado.

Comparação de disponibilidade do analisador

A tabela a seguir lista a disponibilidade de cada analisador por arquivo de documento e mostra quais elementos cada analisador pode detectar e analisar.

Tipo de arquivo Analisador digital Analisador de OCR Analisador de layout
HTML Detecta elementos de parágrafo N/A Detecta elementos de parágrafo, tabela, lista, título e cabeçalho
PDF Detecta elementos de parágrafo (texto digital) Detecta elementos de parágrafo Detecta elementos de parágrafo, tabela, título e cabeçalho
DOCX (pré-lançamento) Detecta elementos de parágrafo N/A Detecta parágrafos, tabelas, listas, títulos e elementos de cabeçalho
PPTX (pré-lançamento) Detecta elementos de parágrafo N/A Detecta elementos de parágrafo, tabela, lista, título e cabeçalho
TXT Detecta elementos de parágrafo N/A Detecta elementos de parágrafo, tabela, título e cabeçalho
XLSX (pré-lançamento) Detecta elementos de parágrafo N/A Detecta parágrafos, tabelas, títulos e elementos de cabeçalho

Analisador digital

O analisador digital extrai texto legível por máquina de documentos. Ele detecta blocos de texto, mas não elementos de documentos, como tabelas, listas e títulos.

O analisador digital é usado como padrão se você não especificar um analisador diferente como padrão durante a criação do repositório de dados ou se um analisador especificado não oferecer suporte a um tipo de arquivo que está sendo enviado.

Parser de OCR para PDFs

Se você tiver PDFs não pesquisáveis (PDFs digitalizados ou PDFs com texto dentro de imagens, como infográficos), o Google recomenda ativar o processamento de reconhecimento óptico de caracteres (OCR) durante a criação do repositório de dados. Isso permite que a Vertex AI para Pesquisa extraia elementos de parágrafo.

Se você tiver PDFs pesquisáveis ou outros formatos digitais compostos principalmente de texto legível por máquina, normalmente não será necessário usar o analisador de OCR. No entanto, se você tiver PDFs com texto não pesquisável (como texto digitalizado ou informações gráficas) e texto legível por máquina, defina o campo useNativeText como verdadeiro ao especificar o analisador de OCR. Nesse caso, o texto legível por máquina mesclado com saídas de análise OCR para melhorar a qualidade da extração de texto.

Os recursos de processamento de OCR estão disponíveis para apps de pesquisa genérica com repositórios de dados não estruturados.

O processador de OCR pode analisar no máximo 500 páginas por arquivo PDF. Por mais tempo PDFs, o processador de OCR analisa as primeiras 500 páginas, e o analisador padrão o restante.

Analisador de layout

A análise de layout permite que a Vertex AI para Pesquisa detecte layouts para PDF e HTML. O suporte a arquivos DOCX está em fase de prévia. A Vertex AI Search pode identificar elementos de conteúdo, como blocos de texto, tabelas, listas e elementos estruturais, como títulos e títulos, e usá-los para definir a organização e a hierarquia de um documento.

É possível ativar a análise de layout para todos os tipos de arquivo ou especificar qual arquivo tipos para ativá-lo. O analisador de layout detecta elementos de conteúdo como parágrafos, tabelas, listas e elementos estruturais como títulos, cabeçalhos, cabeçalhos, notas de rodapé.

O analisador de layout está disponível apenas quando a divisão de documentos é usada para RAG. Quando o agrupamento de documentos está ativado, a Vertex AI Search divide os documentos em blocos no momento da ingestão e pode retornar documentos como blocos. A detecção do layout do documento permite o agrupamento ciente do conteúdo e aprimora a pesquisa e a geração de respostas relacionadas aos elementos do documento. Para mais informações sobre a divisão de documentos em RAG, consulte Dividir documentos em RAG.

O analisador de layout oferece suporte a um tamanho máximo de arquivo PDF de 40 MB.

Especificar um analisador padrão

Com a inclusão do objeto documentProcessingConfig ao criar um repositório de dados, é possível especificar um analisador padrão para ele loja on-line. Se você não incluir documentProcessingConfig.defaultParsingConfig, o parser digital será usado. O analisador digital também será usado se o analisador especificado não está disponível para um tipo de arquivo.

REST

Para especificar um analisador padrão:

  1. Ao criar um repositório de dados de pesquisa usando a API: incluir documentProcessingConfig.defaultParsingConfig no repositório de dados solicitação de criação. É possível especificar o analisador de OCR, de layout ou o analisador digital:

    • Para especificar o analisador de OCR para PDFs:

      "documentProcessingConfig": {
        "defaultParsingConfig": {
          "ocrParsingConfig": {
            "useNativeText": "NATIVE_TEXT_BOOLEAN"
          }
        }
      }
      
      • NATIVE_TEXT_BOOLEAN: opcional. Definir apenas se você estiver ingerindo PDFs. Se definido como true, essa ação ativa o texto legível por máquina para o analisador de OCR. O padrão é false.
    • Para especificar o analisador de layout:

      "documentProcessingConfig": {
        "defaultParsingConfig": {
          "layoutParsingConfig": {}
        }
      }
      
    • Para especificar o analisador digital:

       "documentProcessingConfig": {
          "defaultParsingConfig": { "digitalParsingConfig": {} }
       }
      

Exemplo

O exemplo a seguir especifica durante a criação do armazenamento de dados que o analisador OCR será o analisador padrão. Como o analisador de OCR só se aplica a arquivos PDF, todos os arquivos PDF ingeridos serão processados pelo analisador de OCR, e qualquer e outros tipos de arquivo serão processados pelo analisador digital.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1alpha/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "defaultParsingConfig": {
      "ocrParsingConfig": {
        "useNativeText": "false"
      }
    }
  }
}'

Especificar substituições de analisador para tipos de arquivo

Você pode especificar que um tipo de arquivo específico (PDF, HTML ou DOCX) seja analisado por um analisador diferente do padrão. Para isso, inclua o parâmetro Campo documentProcessingConfig na solicitação de criação do repositório de dados e especificar o analisador de substituição. Se você não especificar um analisador padrão, o digital será o padrão.

REST

Para especificar uma substituição de analisador específico ao tipo de arquivo:

  1. Ao criar um repositório de dados de pesquisa usando a API: incluir documentProcessingConfig.defaultParsingConfig no repositório de dados solicitação de criação.

    É possível especificar um analisador para pdf, html ou docx:

    "documentProcessingConfig": {
      "parsingConfigOverrides": {
        "FILE_TYPE": { PARSING_CONFIG },
      }
     }
    

    Substitua:

    • FILE_TYPE: os valores aceitos são pdf, html e docx.
    • PARSING_CONFIG: especifique a configuração do analisador que você quer aplicar ao tipo de arquivo. É possível especificar o analisador de OCR, o analisador de layout ou o analisador digital:

      • Para especificar o analisador de OCR para PDFs:

        "ocrParsingConfig": {
          "useNativeText": "NATIVE_TEXT_BOOLEAN"
        }
        
        • NATIVE_TEXT_BOOLEAN: opcional. Definir apenas se você for a ingestão de PDFs. Se for definido como true, essa ação ativará o código legível por máquina processamento de texto para o analisador de OCR. O padrão é false.
      • Para especificar o analisador de layout:

        "layoutParsingConfig": {}
        
      • Para especificar o analisador digital:

        "documentProcessingConfig": {
          "defaultParsingConfig": { "digitalParsingConfig": {} }
        }
        

Exemplo

O exemplo a seguir especifica durante a criação do repositório de dados que os arquivos PDF devem ser processados pelo analisador de OCR e que os arquivos HTML sejam processados pelo analisador de layout. Nesse caso, qualquer outro arquivo, exceto PDF e HTML, seriam processados pelo analisador digital.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1alpha/projects/exampleproject/locations/global/collections/default_collection/dataStores?dataStoreId=datastore123" \
-d '{
  "displayName": "exampledatastore",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
  "documentProcessingConfig": {
    "parsingConfigOverrides": {
      "pdf": {
        "ocrParsingConfig": {
            "useNativeText": "false"
          },
      },
      "html": {
         "layoutParsingConfig": {}
      }
    }
  }
}'

Receber documentos analisados em JSON

Para receber um documento analisado em formato JSON, chame o método getProcessedDocument e especifique PARSED_DOCUMENT como o tipo de documento processado. Receber documentos analisados em JSON pode ser útil se você precisar fazer upload do documento analisado em outro lugar ou se você decidir importar novamente o documento analisado documentos para a Vertex AI Agent Builder usando o recurso traga seu próprio documento.

REST

Para acessar documentos analisados em JSON, siga esta etapa:

  1. Chame o método getProcessedDocument:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID:getProcessedDocument?processed_document_type=PARSED_DOCUMENT"
    

    Substitua:

    • PROJECT_ID: o ID do seu projeto.
    • DATA_STORE_ID: o ID do armazenamento de dados.
    • DOCUMENT_ID: o ID do documento a ser recebido.

Use seu próprio documento analisado

É possível importar documentos não estruturados pré-analisados para os repositórios de dados da Vertex AI para Pesquisa. Por exemplo, em vez de importar um documento PDF bruto, você pode analisar o PDF e importar o resultado da análise. Isso permite que você importe seus documentos de forma estruturada, garantindo que a geração de pesquisas e respostas tenha informações sobre o layout do documento e elementos.

Um documento não estruturado analisado é representado por JSON que descreve o documento não estruturado usando uma sequência de blocos de texto, tabela e lista. Você Importe arquivos JSON com seus dados de documentos não estruturados analisados da mesma maneira que você importe outros tipos de documentos não estruturados, como PDFs. Quando esse recurso está ativado, sempre que um arquivo JSON é enviado e identificado por um tipo MIME application/json ou uma extensão .JSON, ele é tratado como um documento analisado.

Para ativar esse recurso e saber como usá-lo, entre em contato com a equipe de contas do Google.

Dividir documentos para RAG

Por padrão, a Vertex AI para Pesquisa é otimizada para recuperação de documentos, em que o app de pesquisa retorna um documento, como um PDF ou uma página da Web, com cada resultado da pesquisa.

Os recursos de divisão de documentos estão disponíveis para apps de pesquisa genérica com e não estruturados.

A Vertex AI para Pesquisa pode ser otimizada para RAG, em que sua é usado principalmente para aumentar a saída do LLM com seus dados personalizados. Quando o documento a divisão estiver ativada, a Vertex AI para Pesquisa divide seus documentos em pedaços Nos resultados da pesquisa, o app de pesquisa pode retornar partes relevantes de dados em vez de documentos completos. O uso de dados em blocos para a RAG aumenta a relevância das respostas do LLM e reduz a carga computacional.

Para usar a Vertex AI para Pesquisa para RAG:

  1. Ative a divisão de documentos ao criar o repositório de dados.

    Como alternativa, faça upload de seus próprios blocos (Visualizar com lista de permissões) caso já tenha separado seus próprios documentos.

  2. Recupere e visualize blocos das seguintes maneiras:

  3. Retornar blocos em solicitações de pesquisa.

Limitações

As seguintes limitações se aplicam à divisão:

  • A divisão de documentos não pode ser ativada ou desativada após a criação do repositório de dados.
  • É possível fazer solicitações de pesquisa de documentos em vez de blocos de um repositório de dados com a divisão de documentos ativada. No entanto, os repositórios de dados com a divisão de documentos ativado não são otimizados para retornar documentos. Os documentos são retornados por agregar fragmentos em documentos.
  • Quando a divisão de documentos estiver ativada, pesquisar resumos e pesquisar com acompanhamentos são suportados no Acesso antecipado, mas não no GA.

Opções de divisão de documentos

Esta seção descreve as opções especificadas para ativar divisão de documentos.

Durante a criação do repositório de dados, ative as opções a seguir para que a Vertex AI para Pesquisa possa indexar seus documentos como blocos.

  • Divisão de documentos com suporte a layout. Para ativar essa opção, inclua o documentProcessingConfig na solicitação de criação do repositório de dados e especificar ChunkingConfig.LayoutBasedChunkingConfig.

    Quando o agrupamento de documentos com conhecimento de layout está ativado, a Vertex AI Search detecta o layout de um documento e o considera durante o agrupamento. Isso melhora a coerência semântica e reduz o ruído no conteúdo quando ele é usado para recuperação e geração de LLM. Todo o texto em um bloco vem da mesma entidade de layout, como títulos, subtítulos e listas.

  • Análise de layout. Para ativar essa opção, especifique ParsingConfig.LayoutParsingConfig durante a criação do repositório de dados.

    O analisador de layout detecta layouts para arquivos PDF, HTML e DOCX. Ele identifica elementos como blocos de texto, tabelas, listas, títulos e cabeçalhos e os usa para definir a organização e a hierarquia de um documento.

    Para saber mais sobre a análise de layout, consulte Análise de layout.

Ativar a divisão de documentos

Para ativar a divisão de documentos, inclua o objeto documentProcessingConfig; na solicitação de criação do repositório de dados e ativar a criação de documentos com reconhecimento de layout divisão e análise de layout.

REST

Para ativar a divisão de documentos:

  1. Ao criar um repositório de dados de pesquisa usando a API: incluir o objeto documentProcessingConfig.chunkingConfig no repositório de dados solicitação de criação.

     "documentProcessingConfig": {
       "chunkingConfig": {
           "layoutBasedChunkingConfig": {
               "chunkSize": CHUNK_SIZE_LIMIT,
               "includeAncestorHeadings": HEADINGS_BOOLEAN,
           }
       },
       "defaultParsingConfig": {
         "layoutParsingConfig": {}
       }
     }
    

    Substitua:

    • CHUNK_SIZE_LIMIT: opcional. O limite de tamanho do token para cada bloco. O valor padrão é 500. Os valores aceitos são 100 a 500 (inclusive).
    • HEADINGS_BOOLEAN: opcional. Determina se os cabeçalhos estão incluídos em cada bloco. O valor padrão é false. Adicionar título e títulos em todos os níveis a blocos do meio do documento pode ajudar a evitar a perda de contexto na recuperação e classificação de blocos.

Traga seus próprios blocos (visualizar com a lista de permissões)

Se você já tiver dividido seus documentos, faça upload deles para a Vertex AI para Pesquisa em vez de ativar as opções de divisão de documentos.

O recurso "Trazer seus próprios blocos" é um recurso de pré-lançamento com lista de permissões. Para usar isso, entre em contato com a Equipe de Contas do Google.

Listar os blocos de um documento

Para listar todos os blocos de um documento específico, chame o método Chunks.list.

REST

Para listar os blocos de um documento, siga esta etapa:

  1. Chame o método Chunks.list:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks"
    

    Substitua:

    • PROJECT_ID: o ID do seu projeto.
    • DATA_STORE_ID: o ID do armazenamento de dados.
    • DOCUMENT_ID: o ID do documento de onde os blocos serão listados.

Receber blocos em JSON de um documento processado

É possível obter todas as partes de um documento específico no formato JSON chamando o método getProcessedDocument. Conseguir blocos em JSON pode ser útil se você precisar fazer upload de blocos em outro lugar ou se decidir importar blocos novamente para o Vertex AI Agent Builder usando o recurso traga seus próprios blocos.

REST

Para receber blocos JSON de um documento, siga esta etapa:

  1. Chame o método getProcessedDocument:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks:getProcessedDocument?processed_document_type=CHUNKED_DOCUMENT"
    

    Substitua:

    • PROJECT_ID: o ID do seu projeto.
    • DATA_STORE_ID: o ID do repositório de dados.
    • DOCUMENT_ID: o ID do documento para receber fragmentos se originou.

Receber blocos específicos

Para acessar um fragmento específico, chame o método Chunks.get.

REST

Para acessar um fragmento específico, siga esta etapa:

  1. Chame o método Chunks.get:

    curl -X GET \
        -H "Authorization: Bearer $(gcloud auth print-access-token)" \
        "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID/chunks/CHUNK_ID"
    

    Substitua:

    • PROJECT_ID: o ID do seu projeto.
    • DATA_STORE_ID: o ID do armazenamento de dados.
    • DOCUMENT_ID: o ID do documento de origem do fragmento.
    • CHUNK_ID: o ID do fragmento a ser retornado.

Depois de confirmar que os dados foram divididos corretamente, a pesquisa da Vertex AI poderá retornar dados fragmentados nos resultados da pesquisa.

A resposta retorna um bloco relevante para a consulta de pesquisa. Além disso, você pode optar por retornar blocos adjacentes que aparecem antes e depois da parte relevante do documento de origem. Os blocos adjacentes podem adicionar contexto e precisão.

REST

Para receber dados em blocos:

  1. Ao fazer uma solicitação de pesquisa, especifique ContentSearchSpec.SearchResultMode como chunks.

    contentSearchSpec": {
      "searchResultMode": "RESULT_MODE",
      "chunkSpec": {
           "numPreviousChunks": NUMBER_OF_PREVIOUS_CHUNKS,
           "numNextChunks": NUMBER_OF_NEXT_CHUNKS
       }
    }
    
    • RESULT_MODE: determina se os resultados da pesquisa são retornados como documentos completos ou em partes. Para receber blocos, o repositório de dados precisa ter a divisão de documentos ativada. Os valores aceitos são documents e chunks. Se a divisão de documentos estiver ativada no seu repositório de dados, a o valor padrão é chunks.
    • NUMBER_OF_PREVIOUS_CHUNKS: o número de blocos a serem retornados que precederam imediatamente o bloco relevante. O valor máximo permitido é 5.
    • NUMBER_OF_NEXT_CHUNKS: o número de blocos a serem retornados. que seguem imediatamente a parte relevante. O valor máximo permitido é 5.

Exemplo

O exemplo a seguir de uma solicitação de consulta de pesquisa define SearchResultMode como chunks, solicita um bloco anterior e um próximo e limita o número dos resultados para um único bloco relevante usando pageSize.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: exampleproject" \
"https://discoveryengine.googleapis.com/v1alpha/projects/exampleproject/locations/global/collections/default_collection/dataStores/datastore123/servingConfigs/default_search:search" \
-d '{
  "query": "animal",
  "pageSize": 1,
  "contentSearchSpec": {
    "searchResultMode": "CHUNKS",
    "chunkSpec": {
           "numPreviousChunks": 1,
           "numNextChunks": 1
       }
  }
}'

O exemplo a seguir mostra a resposta retornada para a consulta de exemplo. A resposta contém os blocos relevantes, os blocos anteriores e os blocos seguintes, os metadados do documento original e o intervalo de páginas do documento de que cada bloco foi derivado.

Resposta

{
  "results": [
    {
      "chunk": {
        "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c17",
        "id": "c17",
        "content": "\n# ESS10: Stakeholder Engagement and Information Disclosure\nReaders should also refer to ESS10 and its guidance notes, plus the template available for a stakeholder engagement plan. More detail on stakeholder engagement in projects with risks related to animal health is contained in section 4 below. The type of stakeholders (men and women) that can be engaged by the Borrower as part of the project's environmental and social assessment and project design and implementation are diverse and vary based on the type of intervention. The stakeholders can include: Pastoralists, farmers, herders, women's groups, women farmers, community members, fishermen, youths, etc. Cooperatives members, farmer groups, women's livestock associations, water user associations, community councils, slaughterhouse workers, traders, etc. Veterinarians, para-veterinary professionals, animal health workers, community animal health workers, faculties and students in veterinary colleges, etc. 8 \n# 4. Good Practice in Animal Health Risk Assessment and Management\n\n# Approach\nRisk assessment provides the transparent, adequate and objective evaluation needed by interested parties to make decisions on health-related risks associated with project activities involving live animals. As the ESF requires, it is conducted throughout the project cycle, to provide or indicate likelihood and impact of a given hazard, identify factors that shape the risk, and find proportionate and appropriate management options. The level of risk may be reduced by mitigation measures, such as infrastructure (e.g., diagnostic laboratories, border control posts, quarantine stations), codes of practice (e.g., good animal husbandry practices, on-farm biosecurity, quarantine, vaccination), policies and regulations (e.g., rules for importing live animals, ban on growth hormones and promotors, feed standards, distance required between farms, vaccination), institutional capacity (e.g., veterinary services, surveillance and monitoring), changes in individual behavior (e.g., hygiene, hand washing, care for animals). Annex 2 provides examples of mitigation practices. This list is not an exhaustive one but a compendium of most practiced interventions and activities. The cited measures should take into account social, economic, as well as cultural, gender and occupational aspects, and other factors that may affect the acceptability of mitigation practices by project beneficiaries and other stakeholders. Risk assessment is reviewed and updated through the project cycle (for example to take into account increased trade and travel connectivity between rural and urban settings and how this may affect risks of disease occurrence and/or outbreak). Projects monitor changes in risks (likelihood and impact) b               by using data, triggers or indicators. ",
        "documentMetadata": {
          "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
          "title": "AnimalHealthGoodPracticeNote"
        },
        "pageSpan": {
          "pageStart": 14,
          "pageEnd": 15
        },
        "chunkMetadata": {
          "previousChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c16",
              "id": "c16",
              "content": "\n# ESS6: Biodiversity Conservation and Sustainable Management of Living Natural Resources\nThe risks associated with livestock interventions under ESS6 include animal welfare (in relation to housing, transport, and slaughter); diffusion of pathogens from domestic animals to wildlife, with risks for endemic species and biodiversity (e.g., sheep and goat plague in Mongolia affecting the saiga, an endemic species of wild antelope); the introduction of new breeds with potential risk of introducing exotic or new diseases; and the release of new species that are not endemic with competitive advantage, potentially putting endemic species at risk of extinction. Animal welfare relates to how an animal is coping with the conditions in which it lives. An animal is in a good state of welfare if it is healthy, comfortable, well nourished, safe, able to express innate behavior, 7 Good Practice Note - Animal Health and related risks and is not suffering from unpleasant states such as pain, fear or distress. Good animal welfare requires appropriate animal care, disease prevention and veterinary treatment; appropriate shelter, management and nutrition; humane handling, slaughter or culling. The OIE provides standards for animal welfare on farms, during transport and at the time of slaughter, for their welfare and for purposes of disease control, in its Terrestrial and Aquatic Codes. The 2014 IFC Good Practice Note: Improving Animal Welfare in Livestock Operations is another example of practical guidance provided to development practitioners for implementation in investments and operations. Pastoralists rely heavily on livestock as a source of food, income and social status. Emergency projects to restock the herds of pastoralists affected by drought, disease or other natural disaster should pay particular attention to animal welfare (in terms of transport, access to water, feed, and animal health) to avoid potential disease transmission and ensure humane treatment of animals. Restocking also entails assessing the assets of pastoralists and their ability to maintain livestock in good conditions (access to pasture and water, social relationship, technical knowledge, etc.). Pastoralist communities also need to be engaged by the project to determine the type of animals and breed and the minimum herd size to be considered for restocking. \n# Box 5. Safeguarding the welfare of animals and related risks in project activities\nIn Haiti, the RESEPAG project (Relaunching Agriculture: Strengthening Agriculture Public Services) financed housing for goats and provided technical recommendations for improving their welfare, which is critical to avoid the respiratory infections, including pneumonia, that are serious diseases for goats. To prevent these diseases, requires optimal sanitation and air quality in herd housing. This involves ensuring that buildings have adequate ventilation and dust levels are reduced to minimize the opportunity for infection. Good nutrition, water and minerals are also needed to support the goats' immune function. The project paid particular attention to: (i) housing design to ensure good ventilation; (ii) locating housing close to water sources and away from human habitation and noisy areas; (iii) providing mineral blocks for micronutrients; (iv) ensuring availability of drinking water and clean food troughs. ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 13,
                "pageEnd": 14
              }
            }
          ],
          "nextChunks": [
            {
              "name": "projects/961309680810/locations/global/collections/default_collection/dataStores/allie-pdf-adjacent-chunks_1711394998841/branches/0/documents/0d8619f429d7f20b3575b14cd0ad0813/chunks/c18",
              "id": "c18",
              "content": "\n# Scoping of risks\nEarly scoping of risks related to animal health informs decisions to initiate more comprehensive risk assessment according to the type of livestock interventions and activities. It can be based on the following considerations: • • • • Type of livestock interventions supported by the project (such as expansion of feed resources, improvement of animal genetics, construction/upgrading and management of post-farm-gate facilities, etc. – see also Annex 2); Geographic scope and scale of the livestock interventions; Human and animal populations that are likely to be affected (farmers, women, children, domestic animals, wildlife, etc.); and Changes in the project or project context (such as emerging disease outbreak, extreme weather or climatic conditions) that would require a re-assessment of risk levels, mitigation measures and their likely effect on risk reduction. Scenario planning can also help to identify project-specific vulnerabilities, country-wide or locally, and help shape pragmatic analyses that address single or multiple hazards. In this process, some populations may be identified as having disproportionate exposure or vulnerability to certain risks because of occupation, gender, age, cultural or religious affiliation, socio-economic or health status. For example, women and children may be the main caretakers of livestock in the case of 9 Good Practice Note - Animal Health and related risks household farming, which puts them into close contact with animals and animal products. In farms and slaughterhouses, workers and veterinarians are particularly exposed, as they may be in direct contact with sick animals (see Box 2 for an illustration). Fragility, conflict, and violence (FCV) can exacerbate risk, in terms of likelihood and impact. Migrants new to a geographic area may be immunologically naïve to endemic zoonotic diseases or they may inadvertently introduce exotic diseases; and refugees or internally displaced populations may have high population density with limited infrastructure, leaving them vulnerable to disease exposure. Factors such as lack of access to sanitation, hygiene, housing, and health and veterinary services may also affect disease prevalence, contributing to perpetuation of poverty in some populations. Risk assessment should identify populations at risk and prioritize vulnerable populations and circumstances where risks may be increased. It should be noted that activities that seem minor can still have major consequences. See Box 6 for an example illustrating how such small interventions in a project may have large-scale consequences. It highlights the need for risk assessment, even for simple livestock interventions and activities, and how this can help during the project cycle (from concept to implementation). ",
              "documentMetadata": {
                "uri": "gs://table_eval_set/pdf/worldbank/AnimalHealthGoodPracticeNote.pdf",
                "title": "AnimalHealthGoodPracticeNote"
              },
              "pageSpan": {
                "pageStart": 15,
                "pageEnd": 16
              }
            }
          ]
        }
      }
    }
  ],
  "totalSize": 61,
  "attributionToken": "jwHwjgoMCICPjbAGEISp2J0BEiQ2NjAzMmZhYS0wMDAwLTJjYzEtYWQxYS1hYzNlYjE0Mzc2MTQiB0dFTkVSSUMqUMLwnhXb7Ygtq8SKLa3Eii3d7Ygtj_enIqOAlyLm7Ygtt7eMLduPmiKN96cijr6dFcXL8xfdj5oi9-yILdSynRWCspoi-eyILYCymiLk7Ygt",
  "nextPageToken": "ANxYzNzQTMiV2MjFWLhFDZh1SMjNmMtADMwATL5EmZyMDM2YDJaMQv3yagQYAsciPgIwgExEgC",
  "guidedSearchResult": {},
  "summary": {}
}

A seguir