Prepara datos para la transferencia

La forma de preparar los datos depende del tipo de datos que importas y de la forma en que decidas importarlos. Comienza por definir qué tipo de datos planeas importar:

Para obtener información sobre la búsqueda combinada, en la que se pueden conectar varios almacenes de datos a una sola app de búsqueda genérica, consulta Información para conectar varios almacenes de datos.

Datos del sitio web

Cuando creas un almacén de datos para los datos de sitios web, proporcionas las URLs de las páginas web que Google debe rastrear e indexar para realizar búsquedas o recomendaciones.

Antes de indexar los datos de tu sitio web, ten en cuenta lo siguiente:

  • Decide qué patrones de URL incluir en tu indexación y cuáles excluir.

    • Expulsa los patrones de las URLs dinámicas. Las URLs dinámicas son URLs que cambian en el momento de la publicación según la solicitud.

      Por ejemplo, los patrones de URL de las páginas web que publican los resultados de la búsqueda, como www.example.com/search/*. Supongamos que un usuario busca la frase Nobel prize. La URL de búsqueda dinámica podría ser una URL única: www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Si no se excluye el patrón de URL www.example.com/search/*, se indexan todas las URLs de búsqueda dinámicas únicas que siguen este patrón. Esto genera un índice sobrecargado y una calidad de búsqueda diluida.

    • Elimina las URLs duplicadas con patrones de URLs canónicas. Esto proporciona una sola URL canónica para la Búsqueda de Google cuando rastrea el sitio web y quita la ambigüedad. Para ver ejemplos de canonicalización y obtener más información, consulta Qué es la canonicalización de URL y Cómo especificar una URL canónica con rel="canonical" y otros métodos.

  • Puedes incluir patrones de URL del mismo dominio o de diferentes dominios que se deben indexar y excluir los patrones que no se deben indexar. La cantidad de patrones de URL que puedes incluir y excluir difiere de la siguiente manera:

    Tipo de indexación Sitios incluidos Sitios excluidos
    Búsqueda básica en sitios web Máximo de 50 patrones de URL Máximo de 50 patrones de URL
    Indexación avanzada de sitios web Se admiten 500 patrones de URL como máximo. Se admiten 500 patrones de URL como máximo.

  • Comprueba que las páginas web que planeas proporcionar no usen robots.txt para bloquear la indexación. Para obtener más información, consulta la Introducción a robots.txt.

  • Si planeas usar la indexación avanzada de sitios web, debes poder verificar los dominios de los patrones de URL en tu almacén de datos.

  • Agrega datos estructurados en forma de etiquetas meta y mapas de páginas al esquema de tu almacén de datos para enriquecer tu indexación, como se explica en Cómo usar datos estructurados para la indexación avanzada de sitios web.

Datos no estructurados

Vertex AI Search admite la búsqueda en documentos en formato HTML, PDF con texto incorporado y TXT. Los formatos PPTX y DOCX están disponibles en la versión preliminar.

Importarás tus documentos desde un bucket de Cloud Storage. Puedes realizar la importación con la consola de Google Cloud, con el método ImportDocuments o mediante la transferencia continua a través de métodos CRUD. Para obtener información de referencia de la API, consulta DocumentService y documents.

En la siguiente tabla, se muestran los límites de tamaño de cada tipo de archivo con diferentes configuraciones (para obtener más información, consulta Cómo analizar y dividir documentos). Puedes importar hasta 100,000 archivos a la vez.

Tipo de archivo Importación predeterminada Importa con el fragmento de documentos que se adapta al diseño Importa con el analizador de diseño
Archivos de texto, como HTML, TXT, JSON, XHTML y XML Menos de 2.5 MB Menos de 10 MB Menos de 10 MB
PPTX, DOCX y XLSX Menos de 200 MB Menos de 200 MB Menos de 200 MB
PDF Menos de 200 MB Menos de 200 MB Menos de 40 MB

Si planeas incluir incorporaciones en tus datos no estructurados, consulta Cómo usar incorporaciones personalizadas.

Si tienes archivos PDF que no se pueden buscar (archivos PDF escaneados o archivos PDF con texto dentro de imágenes, como infográficas), te recomendamos que actives el procesamiento de reconocimiento óptico de caracteres (OCR) durante la creación del almacén de datos. Esto permite que Vertex AI Search extraiga elementos como bloques de texto y tablas. Si tienes archivos PDF que se pueden buscar y que se componen principalmente de texto legible por máquinas y contienen muchas tablas, puedes considerar activar el procesamiento de OCR con la opción de texto legible por máquinas habilitada para mejorar la detección y el análisis. Para obtener más información, consulta Cómo analizar y dividir documentos.

Si quieres usar Vertex AI Search para la generación de aumento de recuperación (RAG), activa el fragmento de documentos cuando crees tu almacén de datos. Para obtener más información, consulta Cómo analizar y dividir documentos.

Puedes importar datos no estructurados desde las siguientes fuentes:

Cloud Storage

Puedes importar datos desde Cloud Storage con o sin metadatos.

La importación de datos no es recursiva. Es decir, si hay carpetas dentro del bucket o la carpeta que especificas, no se importarán los archivos de esas carpetas.

Si planeas importar documentos desde Cloud Storage sin metadatos, colócalos directamente en un bucket de Cloud Storage. El ID del documento es un ejemplo de metadatos.

Para realizar pruebas, puedes usar las siguientes carpetas de Cloud Storage disponibles de forma pública, que contienen archivos PDF:

  • gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
  • gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
  • gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
  • gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Si planeas importar datos de Cloud Storage con metadatos, coloca un archivo JSON que contenga los metadatos en un bucket de Cloud Storage cuya ubicación proporciones durante la importación.

Tus documentos no estructurados pueden estar en el mismo bucket de Cloud Storage que tus metadatos o en uno diferente.

El archivo de metadatos debe ser un archivo JSON Lines o NDJSON. El ID del documento es un ejemplo de metadatos. Cada fila del archivo de metadatos debe seguir uno de los siguientes formatos JSON:

  • Usa jsonData de la siguiente manera:
    • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
  • Usa structData de la siguiente manera:
    • { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Usa el campo uri en cada fila para apuntar a la ubicación de Cloud Storage del documento.

Este es un ejemplo de un archivo de metadatos NDJSON para un documento no estructurado. En este ejemplo, cada línea del archivo de metadatos apunta a un documento PDF y contiene los metadatos de ese documento. Las dos primeras líneas usan jsonData y las dos últimas usan structData. Con structData, no es necesario escapar las comillas que aparecen entre comillas.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda o Cómo crear un almacén de datos de recomendaciones.

BigQuery

Si planeas importar metadatos desde BigQuery, crea una tabla de BigQuery que contenga metadatos. El ID del documento es un ejemplo de metadatos.

Coloca tus documentos no estructurados en un bucket de Cloud Storage.

Usa el siguiente esquema de BigQuery. Usa el campo uri en cada registro para apuntar a la ubicación de Cloud Storage del documento.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Para obtener más información, consulta Cómo crear y usar tablas en la documentación de BigQuery.

Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda o Cómo crear un almacén de datos de recomendaciones.

Google Drive

La sincronización de datos de Google Drive es compatible con la búsqueda genérica.

Si planeas importar datos de Google Drive, debes configurar la identidad de Google como tu proveedor de identidad en Vertex AI Agent Builder. Para obtener información sobre cómo configurar el control de acceso, consulta Cómo usar el control de acceso a la fuente de datos.

Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda.

Datos estructurados

Prepara tus datos según el método de importación que planeas usar. Si planeas transferir datos multimedia, consulta también Datos multimedia estructurados.

Puedes importar datos estructurados desde las siguientes fuentes:

Cuando importas datos estructurados desde BigQuery o desde Cloud Storage, tienes la opción de importar los datos con metadatos. (Los datos estructurados con metadatos también se conocen como datos estructurados mejorados).

BigQuery

Puedes importar datos estructurados desde conjuntos de datos de BigQuery.

El esquema se detecta automáticamente. Después de la importación, Google recomienda que edites el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Si realizas la importación con la API en lugar de la consola de Google Cloud, tienes la opción de proporcionar tu propio esquema como un objeto JSON. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta los conjuntos de datos públicos de BigQuery.

Si planeas incluir incorporaciones en tus datos estructurados, consulta Cómo usar incorporaciones personalizadas.

Si seleccionas importar datos estructurados con metadatos, debes incluir dos campos en tus tablas de BigQuery:

  • Un campo id para identificar el documento Si importas datos estructurados sin metadatos, se generará id por ti. La inclusión de metadatos te permite especificar el valor de id.

  • Un campo jsonData que contiene los datos Para ver ejemplos de cadenas jsonData, consulta la sección anterior Cloud Storage.

Usa el siguiente esquema de BigQuery para datos estructurados con importaciones de metadatos:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Para obtener instrucciones sobre cómo crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda o Cómo crear un almacén de datos de recomendaciones.

Cloud Storage

Los datos estructurados en Cloud Storage deben estar en formato líneas JSON o NDJSON. Cada archivo debe ser de 2 GB o menos. Puedes importar hasta 100 archivos a la vez.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta las siguientes carpetas de Cloud Storage, que contienen archivos NDJSON:

  • gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
  • gs://cloud-samples-data/gen-app-builder/search/austin_311

Si planeas incluir incorporaciones en tus datos estructurados, consulta Cómo usar incorporaciones personalizadas.

Este es un ejemplo de un archivo de metadatos NDJSON de datos estructurados. Cada línea del archivo representa un documento y está compuesta por un conjunto de campos.

{"hotel_id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"hotel_id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"hotel_id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda o Cómo crear un almacén de datos de recomendaciones.

Para obtener información sobre cómo dar formato a los datos de Preguntas frecuentes en archivos CSV para apps de chat, consulta Almacenamiento de datos estructurados en la documentación de Dialogflow CX.

Datos JSON locales

Puedes subir directamente un documento o objeto JSON con la API.

Google recomienda proporcionar tu propio esquema como un objeto JSON para obtener mejores resultados. Si no proporcionas tu propio esquema, este se detectará automáticamente. Después de la importación, te recomendamos que edites el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.

Si planeas incluir incorporaciones en tus datos estructurados, consulta Cómo usar incorporaciones personalizadas.

Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda o Cómo crear un almacén de datos de recomendaciones.

Datos de medios estructurados

Si planeas transferir datos multimedia estructurados, como videos, noticias o música, revisa lo siguiente:

Fuentes de datos de terceros

La transferencia de datos desde fuentes de terceros es una versión preliminar con la función de lista de entidades permitidas.

Las conexiones de fuentes de datos de terceros son compatibles con la búsqueda genérica.

Cuando conectas una fuente de datos de terceros, los datos se transfieren inicialmente y luego se sincronizan con Vertex AI Search con la frecuencia que especifiques.

Antes de configurar la conexión de la fuente de datos, debes configurar el control de acceso para la fuente de datos. Para obtener información sobre cómo configurar el control de acceso, consulta Cómo usar el control de acceso a la fuente de datos.

Para obtener las credenciales necesarias para conectar una fuente de datos, consulta la documentación para conectar la fuente de datos de terceros de la que planeas transferir datos:

Datos de FHIR de atención médica

Si planeas transferir datos de FHIR desde la API de Cloud Healthcare, asegúrate de lo siguiente:

  • Ubicación: El almacén de FHIR de origen debe estar en un conjunto de datos de la API de Cloud Healthcare que se encuentre en la ubicación us-central1, us o eu. Para obtener más información, consulta Crea y administra conjuntos de datos en la API de Cloud Healthcare.
  • Tipo de almacén de FHIR: El almacén de FHIR de origen debe ser un almacén de datos R4. Para verificar las versiones de tus almacenes de FHIR, enumera los almacenes de FHIR en tu conjunto de datos. Para crear un almacén de FHIR R4, consulta Crea almacenes de FHIR.
  • Import quota: El almacén de FHIR de origen debe tener menos de 1 millón de recursos de FHIR. Si hay más de 1 millón de recursos de FHIR, el proceso de importación se detiene después de alcanzar este límite. Para obtener más información, consulta Cuotas y límites.
  • Los archivos a los que se hace referencia en un recurso DocumentReference deben ser archivos PDF, RTF o de imagen que se almacenan en Cloud Storage. El vínculo a los archivos a los que se hace referencia debe estar en el campo content[].attachment.url del recurso en el formato de ruta de acceso estándar de Cloud Storage: gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE.
  • Revisa la lista de recursos de FHIR R4 que admite la Búsqueda de Vertex AI. Para obtener más información, consulta la referencia del esquema de datos de FHIR R4 para la atención médica.