Preparar datos para fuentes de datos personalizadas

Las empresas suelen tener aplicaciones personalizadas creadas internamente. Si quieres que Gemini Enterprise se conecte a las fuentes de datos de estas aplicaciones personalizadas, primero debes preparar los datos. La forma de preparar los datos depende del tipo de datos que importe de su fuente de datos personalizada y de la forma en que decida importarlos. Empieza por indicar qué tipo de datos quieres importar:

Para obtener información sobre las limitaciones de la búsqueda combinada, en la que se pueden conectar varios almacenes de datos a una sola aplicación, consulta el artículo Acerca de la conexión de varios almacenes de datos.

Datos sin estructurar

Gemini Enterprise admite búsquedas en documentos en formato HTML, PDF con texto insertado y TXT. Los formatos PPTX y DOCX están disponibles en la versión preliminar.

En la siguiente tabla se indican los límites de tamaño de archivo de cada tipo de archivo con diferentes configuraciones (para obtener más información, consulte Analizar y dividir documentos en fragmentos). Puedes importar hasta 100.000 archivos a la vez.

Tipo de archivo Importación predeterminada
Archivos de texto, como HTML, TXT, JSON, XHTML y XML < 200 MB
PPTX, DOCX y XLSX < 200 MB
PDF < 200 MB

Si tiene previsto incluir incrustaciones en sus datos no estructurados, consulte Usar incrustaciones personalizadas.

Si tiene PDFs en los que no se puede buscar (PDFs escaneados o PDFs con texto en imágenes, como infografías), le recomendamos que active el analizador de diseño durante la creación del almacén de datos. De esta forma, Gemini Enterprise puede extraer elementos como bloques de texto y tablas. Si tienes PDFs en los que se pueden hacer búsquedas, que se componen principalmente de texto legible por máquina y que contienen muchas tablas, puedes activar el procesamiento de OCR con la opción de texto legible por máquina habilitada para mejorar la detección y el análisis. Para obtener más información, consulta Analizar y dividir documentos en fragmentos.

Si quieres usar Gemini Enterprise para la generación aumentada de recuperación (RAG), activa la fragmentación de documentos al crear tu almacén de datos. Para obtener más información, consulta Analizar y dividir documentos en fragmentos.

Puede importar datos no estructurados de las siguientes fuentes:

Cloud Storage

Puedes importar datos de Cloud Storage con o sin metadatos mediante la Google Cloud consola, el método ImportDocuments o la ingestión en streaming a través de métodos CRUD. Para obtener información de referencia sobre la API, consulta DocumentService y documents.

La importación de datos es recursiva. Es decir, si hay carpetas en el segmento o en la carpeta que especifiques, se importarán los archivos de esas carpetas.

Si tienes previsto importar documentos de Cloud Storage sin metadatos, coloca los documentos directamente en un segmento de Cloud Storage. El ID de documento es un ejemplo de metadatos.

Para hacer pruebas, puedes usar las siguientes carpetas de Cloud Storage disponibles públicamente, que contienen archivos PDF:

  • gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
  • gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
  • gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
  • gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Si tienes previsto importar datos de Cloud Storage con metadatos, coloca un archivo JSON que contenga los metadatos en un segmento de Cloud Storage cuya ubicación proporciones durante la importación.

Los documentos no estructurados pueden estar en el mismo segmento de Cloud Storage que los metadatos o en otro.

El archivo de metadatos debe ser un archivo JSON Lines o NDJSON. El ID de documento es un ejemplo de metadatos. Cada fila del archivo de metadatos debe seguir uno de los siguientes formatos JSON:

  • Usar jsonData:

    { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
    
  • Usar structData:

    { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
    

Usa el campo uri de cada fila para indicar la ubicación del documento en Cloud Storage.

A continuación se muestra un ejemplo de un archivo de metadatos NDJSON de un documento no estructurado. En este ejemplo, cada línea del archivo de metadatos apunta a un documento PDF y contiene los metadatos de ese documento. Las dos primeras líneas usan jsonData y las dos segundas, structData. Con structData no es necesario incluir caracteres de escape para las comillas que aparecen dentro de otras comillas.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Para crear su almacén de datos, consulte Conectar una fuente de datos de Google.

BigQuery

Si tienes previsto importar metadatos de BigQuery, sigue estos pasos:

  1. Crea una tabla de BigQuery que contenga metadatos. El ID de documento es un ejemplo de metadatos.

  2. Coloca tus documentos no estructurados en un segmento de Cloud Storage.

    Puedes importar datos mediante la consola deGoogle Cloud , el método ImportDocuments o la ingestión por streaming a través de métodos CRUD. Para obtener información de referencia sobre la API, consulta DocumentService y documents.

Usa el siguiente esquema de BigQuery. Usa el campo uri de cada registro para indicar la ubicación del documento en Cloud Storage.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Para obtener más información, consulta el artículo Crear y usar tablas de la documentación de BigQuery.

Para crear su almacén de datos, consulte Conectar una fuente de datos de Google.

Google Drive

Se admite la sincronización de datos de Google Drive para las búsquedas.

Si tienes previsto importar datos de Google Drive, debes configurar Google Identity como proveedor de identidades en Gemini Enterprise. Para obtener información sobre cómo configurar el control de acceso, consulta Identidad y permisos.

Para crear su almacén de datos, consulte Conectar una fuente de datos de Google.

Datos estructurados

Prepara los datos según el método de importación que vayas a usar.

Puede importar datos estructurados de las siguientes fuentes:

Cuando importa datos estructurados de BigQuery o de Cloud Storage, tiene la opción de importar los datos con metadatos. Los datos estructurados con metadatos también se denominan datos estructurados mejorados.

BigQuery

Puedes importar datos estructurados de conjuntos de datos de BigQuery.

El esquema se detecta automáticamente. Después de importar el archivo, Google le recomienda que edite el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Si importas datos mediante la API en lugar de la consola Google Cloud , puedes proporcionar tu propio esquema como objeto JSON. Para obtener más información, consulta Proporcionar o detectar automáticamente un esquema.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta los conjuntos de datos públicos de BigQuery.

Si tiene previsto incluir incrustaciones en sus datos estructurados, consulte Usar incrustaciones personalizadas.

Si seleccionas la opción de importar datos estructurados con metadatos, se incluirán dos campos en tus tablas de BigQuery:

  • Un campo id para identificar el documento. Si importa datos estructurados sin metadatos, se generará el id automáticamente. Si incluye metadatos, puede especificar el valor de id.

  • Un campo jsonData que contiene los datos. Para ver ejemplos de cadenas jsonData, consulta la sección anterior Cloud Storage.

Usa el siguiente esquema de BigQuery para importar datos estructurados con metadatos:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Para crear su almacén de datos, consulte Conectar una fuente de datos de Google.

Cloud Storage

Los datos estructurados de Cloud Storage deben estar en formato JSON Lines o NDJSON. Cada archivo debe tener un tamaño de 2 GB o inferior. Puedes importar hasta 1000 archivos en una única solicitud de importación.

Para ver ejemplos de datos estructurados disponibles públicamente, consulta las siguientes carpetas de Cloud Storage, que contienen archivos NDJSON:

  • gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
  • gs://cloud-samples-data/gen-app-builder/search/austin_311

Si tiene previsto incluir incrustaciones en sus datos estructurados, consulte Usar incrustaciones personalizadas.

A continuación, se muestra un ejemplo de un archivo de metadatos NDJSON de datos estructurados. Cada línea del archivo representa un documento y está formada por un conjunto de campos.

{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Para crear su almacén de datos, consulte Conectar una fuente de datos de Google.

Datos JSON locales

Puedes subir directamente un documento u objeto JSON mediante la API.

Google recomienda que proporcione su propio esquema como objeto JSON para obtener mejores resultados. Si no proporcionas tu propio esquema, se detectará automáticamente. Después de importar el archivo, te recomendamos que edites el esquema detectado automáticamente para asignar propiedades clave, como los títulos. Para obtener más información, consulta Proporcionar o detectar automáticamente un esquema.

Si tiene previsto incluir incrustaciones en sus datos estructurados, consulte Usar incrustaciones personalizadas.

Para crear su almacén de datos, consulte Conectar una fuente de datos de Google.