Prepara los datos para la transferencia

La forma de preparar los datos depende del tipo de datos que importas y de la forma en que decidas importarlos. Comienza por definir qué tipo de datos planeas importar:

Para obtener información sobre la búsqueda combinada, en la que pueden utilizarse varios almacenes de datos conectada a una única aplicación genérica de búsqueda; consulta Acerca de la conexión de múltiples datos tiendas.

Datos del sitio web

Cuando creas un almacén de datos para los datos de sitios web, proporcionas las URLs de las páginas que Google debe rastrear e indexar para buscar o recomendar.

Antes de indexar los datos de tu sitio web, ten en cuenta lo siguiente:

  • Decide qué patrones de URL incluir en tu indexación y cuáles excluir.

    • Expulsa los patrones de las URLs dinámicas. Las URLs dinámicas son URLs que cambian en el momento de la publicación según la solicitud.

      Por ejemplo, los patrones de URL para las páginas web que publican la búsqueda como www.example.com/search/*. Supongamos que un usuario busca la frase Nobel prize. La URL de búsqueda dinámica podría ser una URL única: www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Si el patrón de URL www.example.com/search/* no se excluye, entonces todos se indexan esas URL de búsqueda dinámicas y únicas que siguen este patrón. Esto genera un índice sobrecargado y una calidad de búsqueda diluida.

    • Elimina las URLs duplicadas con patrones de URLs canónicas. Esto proporciona una sola URL canónica para la Búsqueda de Google cuando rastrea el sitio web y quita la ambigüedad. Para ver ejemplos de canonicalización y mucho más consulta ¿Qué es la canonicalización de URLs? Cómo especificar una URL canónica con rel="canonical" y otros métodos.

  • Puedes incluir patrones de URL del mismo dominio o de diferentes dominios que se deben indexar y excluir los patrones que no se deben indexar. La cantidad de patrones de URL que puedes incluir y excluir difiere de la siguiente manera:

    Tipo de indexación Sitios incluidos Sitios excluidos
    Búsqueda básica en sitios web Máximo de 50 patrones de URL Máximo de 50 patrones de URL
    Indexación avanzada de sitios web Se permite un máximo de 500 patrones de URL Se permite un máximo de 500 patrones de URL

  • Comprueba que las páginas web que planeas proporcionar no usen robots.txt para bloquear la indexación. Para obtener más información, consulta Introducción a robot.txt.

  • Si planeas usar la Indexación avanzada de sitios web, puedes debe poder verificar los dominios de los patrones de URL en tu almacén de datos.

  • Agrega datos estructurados en forma de etiquetas meta y mapas de páginas a tu esquema de almacén de datos para enriquecer tu indexación, como se explica en Cómo usar datos estructurados para la indexación avanzada de sitios web.

Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda o Cómo crear un almacén de datos de recomendaciones.

Datos no estructurados

Vertex AI Search admite la búsqueda en documentos en formato HTML, PDF con texto incorporado y TXT. Los formatos PPTX y DOCX están disponibles en la versión preliminar.

Importarás tus documentos desde Cloud Storage. bucket. Puedes realizar la importación con la consola de Google Cloud, con el método ImportDocuments o mediante la transferencia continua a través de métodos CRUD. Para obtener información de referencia de la API, consulta DocumentService y documents.

Los archivos HTML y TXT deben tener un tamaño de 2.5 MB como máximo. Los archivos PDF, PPTX y DOCX deben ser de 100 MB o menos. Puedes importar hasta 100,000 archivos a la vez.

Si planeas incluir incorporaciones en tus datos no estructurados, consulta Usa incorporaciones personalizadas.

Si tienes archivos PDF que no se pueden buscar (PDF escaneados o PDF con texto dentro de imágenes, como infografías), te recomendamos activar el reconocimiento óptico de caracteres (OCR) durante la creación del almacén de datos. Esto permite Vertex AI Search para extraer elementos como bloques de texto y tablas. Si tienes PDFs que se pueden buscar y que, en su mayoría, están compuestos por software legible por máquina, texto y contienen muchas tablas, puedes activar el procesamiento de OCR con la opción de texto legible por máquina para mejorar la detección y en el análisis de datos. Para obtener más información, consulta Cómo analizar y dividir documentos.

Si quieres usar Vertex AI Search para la generación de recuperación aumentada (RAG), activa la fragmentación de documentos cuando crees tu almacén de datos. Para ver más consulta Cómo analizar y fragmentar documentos.

Puedes importar datos no estructurados desde las siguientes fuentes:

Cloud Storage

Puedes importar datos desde Cloud Storage con o sin metadatos.

La importación de datos no es recursiva. Es decir, si hay carpetas dentro del bucket o carpeta que especifiques, no se importarán los archivos dentro de esas carpetas.

Si piensas importar documentos desde Cloud Storage sin metadatos, coloca documentos directamente en un bucket de Cloud Storage. El ID de documento es un ejemplo de metadatos.

Para realizar pruebas, puedes usar el siguiente servicio de Cloud Storage carpetas, que contienen archivos PDF:

  • gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
  • gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
  • gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
  • gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Si planeas importar datos de Cloud Storage con metadatos, coloca un archivo JSON que contenga los metadatos en un bucket de Cloud Storage cuya ubicación proporciones durante la importación.

Tus documentos no estructurados pueden estar en el mismo bucket de Cloud Storage que tu metadatos u otros.

El archivo de metadatos debe ser un archivo líneas JSON o archivo NDJSON. El ID del documento es un ejemplo de metadatos. Cada fila del archivo de metadatos debe seguir uno de los los siguientes formatos JSON:

  • Usa jsonData:
    • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
  • Usa structData:
    • { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Usa el campo uri en cada fila para apuntar a la ubicación de Cloud Storage del documento.

Este es un ejemplo de un archivo de metadatos NDJSON para un documento no estructurado. En este ejemplo, cada línea del archivo de metadatos apunta a un documento PDF y contiene los metadatos de ese documento. Las primeras dos líneas usan jsonData y las segundas dos líneas usan structData. Con structData, no es necesario escapar las comillas que aparecen entre comillas.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Para crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda. Crea un almacén de datos de recomendaciones.

BigQuery

Si planeas importar metadatos de BigQuery, crea una Tabla de BigQuery que contiene metadatos. El ID del documento es un ejemplo de metadatos.

Coloca tus documentos no estructurados en un bucket de Cloud Storage.

Usa el siguiente esquema de BigQuery. Usa el campo uri en cada registro para que apunte a la ubicación del documento en Cloud Storage.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Para obtener más información, consulta Cómo crear y usar tablas en la documentación de BigQuery.

Para crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda. Crea un almacén de datos de recomendaciones.

Google Drive

Se admite la sincronización de datos de Google Drive para la búsqueda genérica.

Si quieres importar datos de Google Drive, debes configurar Google Identity como tu proveedor de identidad en Vertex AI Agent Builder. Para obtener información sobre configurar el control de acceso, consulta Usa el acceso a la fuente de datos automático.

Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda.

Datos estructurados

Prepara tus datos según el método de importación que planeas usar. Si para transferir datos de medios, también veremos Datos estructurados de multimedia.

Puedes importar datos estructurados de las siguientes fuentes:

Cuando importas datos estructurados desde BigQuery o Cloud Storage, tienes la opción de importar los datos con metadatos. (Los datos estructurados con metadatos también se conocen como datos estructurados mejorados).

BigQuery

Puedes importar datos estructurados desde conjuntos de datos de BigQuery.

Tu esquema se detecta automáticamente. Después de importarlos, Google recomienda lo siguiente: editar el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Si importar con la API en lugar de la consola de Google Cloud, tienes la opción para proporcionar tu propio esquema como un objeto JSON. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta los conjuntos de datos públicos de BigQuery.

Si planeas incluir incorporaciones en tus datos estructurados, consulta Cómo usar incorporaciones personalizadas.

Si eliges importar datos estructurados con metadatos, debes incluir dos campos en tus tablas de BigQuery:

  • Un campo id para identificar el documento Si importas datos estructurados sin metadatos, se generará id por ti. Incluye metadatos te permite especificar el valor de id.

  • Un campo jsonData que contiene los datos Para ver ejemplos de cadenas jsonData, consulta la sección anterior Cloud Storage.

Usa el siguiente esquema de BigQuery para datos estructurados con importaciones de metadatos:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Para obtener instrucciones sobre cómo crear tu almacén de datos, consulta Crea un almacén de datos de búsqueda. o Crea un almacén de datos de recomendaciones.

Cloud Storage

Los datos estructurados en Cloud Storage deben estar en formato líneas JSON o NDJSON. Cada archivo debe ser de 2 GB o menos. Puedes importar hasta 100 archivos por vez.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta las siguientes carpetas de Cloud Storage, que contienen archivos NDJSON:

  • gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
  • gs://cloud-samples-data/gen-app-builder/search/austin_311

Si planeas incluir incorporaciones en tus datos estructurados, consulta Cómo usar incorporaciones personalizadas.

Este es un ejemplo de un archivo de metadatos NDJSON de datos estructurados. Cada línea de el archivo representa un documento y se compone de un conjunto de campos.

{"hotel_id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"hotel_id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"hotel_id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda o Cómo crear un almacén de datos de recomendaciones.

Datos JSON locales

Puedes subir un objeto o documento JSON directamente con la API.

Google recomienda proporcionar tu propio esquema como un objeto JSON para obtener mejores resultados. Si no proporcionas tu propio esquema, este se detectará automáticamente. Después del importa, te recomendamos que edites el esquema detectado automáticamente para asignar claves propiedades, como títulos. Para obtener más información, consulta Proporciona o detecta automáticamente un esquema.

Si planeas incluir incorporaciones en tus datos estructurados, consulta Cómo usar incorporaciones personalizadas.

Para crear tu almacén de datos, consulta Cómo crear un almacén de datos de búsqueda o Cómo crear un almacén de datos de recomendaciones.

Datos de medios estructurados

Si planeas transferir datos estructurados de multimedia, como videos, noticias o música, revisa lo siguiente:

Fuentes de datos de terceros

La transferencia desde fuentes de datos de terceros es una versión preliminar con la función de lista de entidades permitidas.

Las conexiones de fuentes de datos de terceros son compatibles con la búsqueda genérica.

Cuando se conecta una fuente de datos de terceros, los datos se transfieren inicialmente y y, luego, se sincroniza con Vertex AI Search con la frecuencia que especifiques.

Antes de configurar la conexión de la fuente de datos, debes configurar el control de acceso para la fuente de datos. Para obtener información sobre cómo configurar el control de acceso, consulta Usa el control de acceso a la fuente de datos.

Si quieres conocer las credenciales necesarias para conectar una fuente de datos, consulta la documentación de que conecta la fuente de datos de terceros desde la que planeas transferir:

Datos FHIR de atención médica

Si planeas transferir datos de FHIR desde la API de Cloud Healthcare, asegúrate de lo siguiente:

  • Ubicación: El almacén de FHIR de origen debe estar en un conjunto de datos de la API de Cloud Healthcare en la ubicación us-central1, us o eu. Para obtener más información, consulta Crea y administra conjuntos de datos en la API de Cloud Healthcare.
  • Tipo de almacén de FHIR: El almacén de FHIR de origen debe ser un almacén de datos R4. Para verificar las versiones de tus almacenes de FHIR, enumera los almacenes de FHIR en tu conjunto de datos. Para crear un almacén de FHIR R4, consulta Crea almacenes de FHIR.
  • Import quota: El almacén de FHIR de origen debe tener menos de 1 millón de recursos de FHIR. Si hay más de 1 millón de recursos de FHIR, el proceso de importación se detiene después de alcanzar este límite. Para obtener más información, consulta Cuotas y límites.
  • Los archivos a los que se hace referencia en un recurso DocumentReference deben ser PDF, RTF. o archivos de imagen almacenados en Cloud Storage. El vínculo a los archivos de referencia debe estar en el campo content[].attachment.url del recurso en el formato de ruta de acceso estándar de Cloud Storage: gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE
  • Revisa la lista de recursos de FHIR R4 que admite la Búsqueda de Vertex AI. Para obtener más información, consulta la referencia del esquema de datos de FHIR R4 para la atención médica.