Prepare os dados para carregamento

A forma como prepara os dados depende do tipo de dados que está a importar e da forma como opta por importá-los. Comece por indicar o tipo de dados que planeia importar:

Para informações sobre a pesquisa combinada, em que é possível associar várias bases de dados a uma única app de pesquisa personalizada, consulte o artigo Acerca da associação de várias bases de dados.

Dados do Website

Quando cria um arquivo de dados para dados de Websites, fornece os URLs das páginas Web que o Google deve rastrear e indexar para pesquisa ou recomendação.

Antes de indexar os dados do seu Website:

  • Decida que padrões de URL incluir na indexação e quais excluir.

    • Exclua os padrões para URLs dinâmicos. Os URLs dinâmicos são URLs que mudam no momento da publicação, consoante o pedido.

      Por exemplo, os padrões de URL das páginas Web que publicam os resultados da pesquisa, como www.example.com/search/*. Suponhamos que um utilizador pesquisa a expressão Nobel prize. O URL de pesquisa dinâmico pode ser um URL exclusivo: www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Se o padrão de URL www.example.com/search/* não for excluído, todos os URLs de pesquisa dinâmicos exclusivos que seguem este padrão são indexados. Isto resulta num índice excessivo e numa qualidade de pesquisa diluída.

    • Elimine URLs duplicados através de padrões de URLs canónicos. Isto fornece um único URL canónico para a Pesquisa Google quando indexa o Website e remove a ambiguidade. Para ver exemplos de canonicalização e mais informações, consulte os artigos O que é a canonicalização de URLs e Como especificar um URL canónico com rel="canonical" e outros métodos.

  • Pode incluir padrões de URL do mesmo domínio ou de domínios diferentes que precisam de ser indexados e excluir padrões que não devem ser indexados. O número de padrões de URL que pode incluir e excluir difere da seguinte forma:

    Tipo de indexação Sites incluídos Sites excluídos
    Pesquisa básica de Websites Máximo de 50 padrões de URL Máximo de 50 padrões de URL
    Indexação avançada de Websites Máximo de 500 padrões de URL Máximo de 500 padrões de URL

  • Se usar o ficheiro robots.txt no seu Website, faça o seguinte:

    Para mais informações, consulte os artigos Introdução ao robots.txt e Como escrever e enviar um ficheiro robots.txt.

  • Se planeia usar a indexação avançada de Websites, tem de poder validar os domínios para os padrões de URL na sua base de dados.

  • Adicione dados estruturados sob a forma de etiquetas meta e mapas de páginas ao seu esquema de loja de dados para enriquecer a indexação, conforme explicado no artigo Use dados estruturados para a indexação avançada de Websites.

Dados não estruturados

A Pesquisa do Vertex AI suporta a pesquisa em documentos nos formatos HTML, PDF com texto incorporado e TXT. Os formatos PPTX e DOCX estão disponíveis na pré-visualização.

Importa os seus documentos de um contentor do Cloud Storage. Pode importar através da Google Cloud consola, do método ImportDocuments ou do carregamento por streaming através de métodos CRUD. Para informações de referência da API, consulte DocumentService e documents.

A tabela seguinte lista os limites de tamanho dos ficheiros de cada tipo de ficheiro com diferentes configurações (para mais informações, consulte o artigo Analise e divida documentos em partes). Pode importar até 100 000 ficheiros de cada vez.

Tipo de ficheiro Importação predefinida Importe com a divisão de documentos sensível ao esquema Importação com analisador de esquemas
Ficheiros baseados em texto, como HTML, TXT, JSON, XHTML e XML < 200 MB < 10 MB < 10 MB
PPTX, DOCX e XLSX < 200 MB < 200 MB < 200 MB
PDF < 200 MB < 200 MB < 40 MB

Se planeia incluir incorporações nos seus dados não estruturados, consulte o artigo Use incorporações personalizadas.

Se tiver PDFs não pesquisáveis (PDFs digitalizados ou PDFs com texto em imagens, como infografias), recomendamos que ative o analisador de esquemas durante a criação do arquivo de dados. Isto permite que a Vertex AI Search extraia elementos como blocos de texto e tabelas. Se tiver PDFs pesquisáveis compostos principalmente por texto legível por máquina e que contenham muitas tabelas, pode considerar ativar o processamento de OCR com a opção de texto legível por máquina ativada para melhorar a deteção e a análise. Para mais informações, consulte o artigo Analise e divida documentos.

Se quiser usar a Vertex AI Search para a geração aumentada de recuperação (RAG), ative a divisão em blocos de documentos quando criar o seu repositório de dados. Para mais informações, consulte o artigo Analise e divida documentos em partes.

Pode importar dados não estruturados das seguintes origens:

Cloud Storage

Pode importar dados do Cloud Storage com ou sem metadados.

A importação de dados é recursiva. Ou seja, se existirem pastas no contentor ou na pasta especificada, os ficheiros nessas pastas são importados.

Se planeia importar documentos do Cloud Storage sem metadados, coloque os documentos diretamente num contentor do Cloud Storage. O ID do documento é um exemplo de metadados.

Para testes, pode usar as seguintes pastas do Cloud Storage disponíveis publicamente, que contêm PDFs:

  • gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
  • gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
  • gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
  • gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Se planeia importar dados do Cloud Storage com metadados, coloque um ficheiro JSON que contenha os metadados num contentor do Cloud Storage cuja localização indica durante a importação.

Os seus documentos não estruturados podem estar no mesmo contentor do Cloud Storage que os metadados ou num diferente.

O ficheiro de metadados tem de ser um ficheiro JSON Lines ou NDJSON. O ID do documento é um exemplo de metadados. Cada linha do ficheiro de metadados tem de seguir um dos seguintes formatos JSON:

  • Usar o jsonData:
    • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
  • Usar o structData:
    • { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Use o campo uri em cada linha para indicar a localização do documento no Cloud Storage.

Segue-se um exemplo de um ficheiro de metadados NDJSON para um documento não estruturado. Neste exemplo, cada linha do ficheiro de metadados aponta para um documento PDF e contém os metadados desse documento. As duas primeiras linhas usam jsonData e as duas seguintes usam structData. Com o structData, não precisa de escapar as aspas que aparecem entre aspas.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Para criar o seu repositório de dados, consulte o artigo Crie um repositório de dados de pesquisa.

BigQuery

Se planeia importar metadados do BigQuery, crie uma tabela do BigQuery que contenha metadados. O ID do documento é um exemplo de metadados.

Coloque os seus documentos não estruturados num contentor do Cloud Storage.

Use o seguinte esquema do BigQuery. Use o campo uri em cada registo para indicar a localização do documento no Cloud Storage.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Para mais informações, consulte o artigo Crie e use tabelas na documentação do BigQuery.

Para criar o seu repositório de dados, consulte o artigo Crie um repositório de dados de pesquisa.

Google Drive

A sincronização de dados do Google Drive é suportada para a pesquisa personalizada.

Se planeia importar dados do Google Drive, tem de configurar a identidade Google como fornecedor de identidade nas aplicações de IA. Para ver informações sobre como configurar o controlo de acesso, consulte o artigo Use o controlo de acesso à origem de dados.

Para criar o seu repositório de dados, consulte o artigo Crie um repositório de dados de pesquisa.

Dados estruturados

Prepare os dados de acordo com o método de importação que planeia usar. Se planeia carregar dados de multimédia, consulte também o artigo Dados de multimédia estruturados.

Pode importar dados estruturados das seguintes origens:

Quando importa dados estruturados do BigQuery ou do Cloud Storage, tem a opção de importar os dados com metadados. (Os dados estruturados com metadados também são denominados dados estruturados melhorados.)

BigQuery

Pode importar dados estruturados de conjuntos de dados do BigQuery.

O seu esquema é detetado automaticamente. Após a importação, a Google recomenda que edite o esquema detetado automaticamente para mapear propriedades importantes, como títulos. Se fizer a importação através da API em vez da Google Cloud consola, tem a opção de fornecer o seu próprio esquema como um objeto JSON. Para mais informações, consulte o artigo Forneça ou detete automaticamente um esquema.

Para ver exemplos de dados estruturados disponíveis publicamente, consulte os conjuntos de dados públicos do BigQuery.

Se planeia incluir incorporações nos seus dados estruturados, consulte o artigo Usar incorporações personalizadas.

Se optar por importar dados estruturados com metadados, inclui dois campos nas tabelas do BigQuery:

  • Um campo id para identificar o documento. Se importar dados estruturados sem metadados, o id é gerado automaticamente. A inclusão de metadados permite-lhe especificar o valor de id.

  • Um campo jsonData que contém os dados. Para ver exemplos de strings jsonData, consulte a secção anterior Cloud Storage.

Use o seguinte esquema do BigQuery para dados estruturados com importações de metadados:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Para ver instruções sobre como criar o seu repositório de dados, consulte os artigos Crie um repositório de dados de pesquisa ou Crie um repositório de dados de recomendações.

Cloud Storage

Os dados estruturados no Cloud Storage têm de estar no formato JSON Lines ou NDJSON. Cada ficheiro tem de ter 2 GB ou menos. Pode importar até 1000 ficheiros num único pedido de importação.

Para ver exemplos de dados estruturados disponíveis publicamente, consulte as seguintes pastas no Cloud Storage, que contêm ficheiros NDJSON:

  • gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
  • gs://cloud-samples-data/gen-app-builder/search/austin_311

Se planeia incluir incorporações nos seus dados estruturados, consulte o artigo Usar incorporações personalizadas.

Segue-se um exemplo de um ficheiro de metadados NDJSON de dados estruturados. Cada linha do ficheiro representa um documento e é composta por um conjunto de campos.

{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Para criar o seu repositório de dados, consulte os artigos Crie um repositório de dados de pesquisa ou Crie um repositório de dados de recomendações.

Dados JSON locais

Pode carregar diretamente um documento ou um objeto JSON através da API.

A Google recomenda que forneça o seu próprio esquema como um objeto JSON para obter melhores resultados. Se não fornecer o seu próprio esquema, o esquema é detetado automaticamente. Após a importação, recomendamos que edite o esquema detetado automaticamente para mapear as propriedades principais, como os títulos. Para mais informações, consulte o artigo Forneça ou detete automaticamente um esquema.

Se planeia incluir incorporações nos seus dados estruturados, consulte o artigo Usar incorporações personalizadas.

Para criar o seu repositório de dados, consulte os artigos Crie um repositório de dados de pesquisa ou Crie um repositório de dados de recomendações.

Dados estruturados de multimédia

Se planeia carregar dados de multimédia estruturados, como vídeos, notícias ou música, reveja o seguinte:

Dados FHIR de cuidados de saúde

Se planeia carregar dados FHIR da Cloud Healthcare API, certifique-se de que:

  • Localização: a loja FHIR de origem tem de estar num conjunto de dados da Cloud Healthcare API que se encontre na localização us-central1, us ou eu. Para mais informações, consulte o artigo Crie e faça a gestão de conjuntos de dados na Cloud Healthcare API.
  • Tipo de loja FHIR: a loja FHIR de origem tem de ser uma loja de dados R4. Pode verificar as versões das suas lojas FHIR listando as lojas FHIR no seu conjunto de dados. Para criar uma loja FHIR R4, consulte o artigo Crie lojas FHIR.
  • Quota de importação: o FHIR store de origem tem de ter menos de 1 milhão de recursos FHIR. Se existirem mais de 1 milhão de recursos FHIR, o processo de importação é interrompido após atingir este limite. Para mais informações, consulte o artigo Quotas e limites.
  • Os ficheiros referenciados num recurso DocumentReference têm de ser ficheiros PDF, RTF ou de imagem armazenados no Cloud Storage. O link para os ficheiros referenciados tem de estar no campo content[].attachment.url do recurso no formato de caminho do Cloud Storage padrão: gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE.
  • Reveja a lista de recursos FHIR R4 suportados pelo Vertex AI Search. Para mais informações, consulte a referência do esquema de dados FHIR R4 de cuidados de saúde.
  • Referências de recursos: certifique-se de que as referências de recursos relativos estão no formato Resource/resourceId. Por exemplo, subject.reference tem de ter o valor Patient/034AB16. Para mais informações sobre como a Cloud Healthcare API suporta referências de recursos FHIR, consulte o artigo Referências de recursos FHIR.