Esta página se ha traducido con Cloud Translation API.

Crear un almacén de datos de búsqueda

Para crear un almacén de datos e ingerir datos para la búsqueda, vaya a la sección de la fuente que quiera usar:

Crear un almacén de datos con contenido de un sitio web
Importar de BigQuery
Importar desde Cloud Storage
Sincronizar desde Google Drive
Sincronización desde Gmail (vista previa pública)
Sincronizar desde Google Sites (vista previa pública)
Sincronizar desde Google Calendar (vista previa pública)
Sincronizar desde Grupos de Google (versión preliminar pública)
Importar desde Cloud SQL
Importar desde Spanner (vista previa pública)
Importar desde Firestore
Importar desde Bigtable (Vista Previa Pública)
Importar desde AlloyDB para PostgreSQL (vista previa pública)
Subir datos JSON estructurados con la API
Crear un almacén de datos con Terraform

Para sincronizar datos de una fuente de datos de terceros, consulta el artículo Conectar una fuente de datos de terceros.

Para obtener información sobre cómo solucionar problemas, consulta Solucionar problemas de ingestión de datos.

Crear un almacén de datos a partir del contenido de un sitio web

Sigue este procedimiento para crear un almacén de datos e indexar sitios web.

Para usar un almacén de datos de sitio web después de crearlo, debe asociarlo a una aplicación que tenga activadas las funciones Enterprise. Puedes activar la edición Enterprise de una aplicación cuando la creas. Esto conlleva costes adicionales. Consulta los artículos Crear una aplicación de búsqueda y Acerca de las funciones avanzadas.

Antes de empezar

Si usa el archivo robots.txt en su sitio web, actualícelo. Para obtener más información, consulta cómo preparar el archivo robots.txt de tu sitio web.

Procedimiento

Consola

Para usar la Google Cloud consola y crear un almacén de datos e indexar sitios web, sigue estos pasos:

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
En el menú de navegación, haga clic en Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona Contenido del sitio web.
Elige si quieres activar la indexación avanzada de sitios web para este almacén de datos. Esta opción no se puede activar ni desactivar más adelante.

La indexación avanzada de sitios web ofrece funciones adicionales, como la generación de resúmenes de búsqueda, la búsqueda con seguimiento y las respuestas extractivas. La indexación avanzada de sitios web conlleva un coste adicional y requiere que verifiques la propiedad del dominio de cada sitio web que indexas. Para obtener más información, consulta Indexación avanzada de sitios web y Precios.
En el campo Sitios que incluir, introduce los patrones de URL que coincidan con los sitios web que quieras incluir en tu almacén de datos. Incluye un patrón de URL por línea, sin separadores de comas. Por ejemplo: example.com/docs/*
Opcional: En el campo Sitios que excluir, introduzca los patrones de URL que quiera excluir de su almacén de datos.

Los sitios excluidos tienen prioridad sobre los incluidos. Por lo tanto, si incluyes example.com/docs/* pero excluyes example.com, no se indexará ningún sitio web. Para obtener más información, consulta Datos de sitios web.
Haz clic en Continuar.
Seleccione una ubicación para el almacén de datos.
- Cuando creas un almacén de datos de búsqueda de sitios web básico, este valor siempre es global (Global).
- Cuando creas un almacén de datos con la indexación avanzada de sitios web, puedes seleccionar una ubicación. Como los sitios web indexados deben ser públicos, Google te recomienda que selecciones Global como ubicación. De esta forma, se garantiza la máxima disponibilidad de todos los servicios de búsqueda y respuesta, y se eliminan las limitaciones de los almacenes de datos regionales.
Escribe el nombre del almacén de datos.
Haz clic en Crear. Vertex AI Search crea tu almacén de datos y lo muestra en la página Almacenes de datos.
Para ver información sobre tu almacén de datos, haz clic en su nombre en la columna Nombre. Aparecerá la página de tu tienda de datos.
- Si ha activado la indexación avanzada de sitios web, aparecerá una advertencia que le pedirá que verifique los dominios de su almacén de datos.
- Si te falta cuota (el número de páginas de los sitios web que has especificado supera la cuota "Número de documentos por proyecto" de tu proyecto), aparecerá una advertencia adicional que te pedirá que aumentes tu cuota.
Para verificar los dominios de los patrones de URL de su tienda de datos, siga las instrucciones de la página Verificar dominios de sitios web.
Para aumentar tu cuota, sigue estos pasos:
1. Haz clic en Aumentar cuota. Se muestra la página IAM y administración de la consola Google Cloud .
2. Sigue las instrucciones de la sección Solicitar un ajuste de cuota de la Google Cloud documentación. La cuota que se va a aumentar es Número de documentos en el servicio API Discovery Engine.
3. Después de enviar tu solicitud para aumentar el límite de cuota, vuelve a la página Aplicaciones de IA y haz clic en Almacenes de datos en el menú de navegación.
4. En la columna Nombre, haga clic en el nombre del almacén de datos. En la columna Estado se indica que se está indexando el contenido de los sitios web que han superado la cuota. Cuando en la columna Estado de una URL se muestra el valor Indexada, las funciones de indexación avanzada de sitios web están disponibles para esa URL o patrón de URL.
Para obtener más información, consulta la sección Cuota de indexación de páginas web de la página "Cuotas y límites".

Python

Para obtener más información, consulta la documentación de referencia de la API Python de Vertex AI Search.

Para autenticarte en Vertex AI Search, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.

Crear un almacén de datos


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importar sitios web

#     from google.api_core.client_options import ClientOptions
#
#     from google.cloud import discoveryengine_v1 as discoveryengine
#
#     # TODO(developer): Uncomment these variables before running the sample.
#     # project_id = "YOUR_PROJECT_ID"
#     # location = "YOUR_LOCATION" # Values: "global"
#     # data_store_id = "YOUR_DATA_STORE_ID"
#     # NOTE: Do not include http or https protocol in the URI pattern
#     # uri_pattern = "cloud.google.com/generative-ai-app-builder/docs/*"
#
#     #  For more information, refer to:
#     # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
#     client_options = (
#         ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
#         if location != "global"
#         else None
#     )
#
#     # Create a client
#     client = discoveryengine.SiteSearchEngineServiceClient(
#         client_options=client_options
#     )
#
#     # The full resource name of the data store
#     # e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}
#     site_search_engine = client.site_search_engine_path(
#         project=project_id, location=location, data_store=data_store_id
#     )
#
#     # Target Site to index
#     target_site = discoveryengine.TargetSite(
#         provided_uri_pattern=uri_pattern,
#         # Options: INCLUDE, EXCLUDE
#         type_=discoveryengine.TargetSite.Type.INCLUDE,
#         exact_match=False,
#     )
#
#     # Make the request
#     operation = client.create_target_site(
#         parent=site_search_engine,
#         target_site=target_site,
#     )
#
#     print(f"Waiting for operation to complete: {operation.operation.name}")
#     response = operation.result()
#
#     # After the operation is complete,
#     # get information from operation metadata
#     metadata = discoveryengine.CreateTargetSiteMetadata(operation.metadata)
#
#     # Handle the response
#     print(response)
#     print(metadata)

Pasos siguientes

Para adjuntar tu almacén de datos de sitio web a una aplicación, crea una aplicación con las funciones Enterprise habilitadas y selecciona tu almacén de datos siguiendo los pasos que se indican en Crear una aplicación de búsqueda.
Si ha activado la indexación avanzada de sitios web, puede usar datos estructurados para actualizar su esquema.
Para ver una vista previa de cómo aparecerán los resultados de búsqueda después de configurar tu aplicación y tu almacén de datos, consulta Obtener resultados de búsqueda.

Importar de BigQuery

Vertex AI Search admite búsquedas en datos de BigQuery.

Puede crear almacenes de datos a partir de tablas de BigQuery de dos formas:

Ingestión única: importa datos de una tabla de BigQuery a un almacén de datos. Los datos del almacén de datos no cambian a menos que actualices los datos manualmente.
Ingestión periódica: importa datos de una o varias tablas de BigQuery y define una frecuencia de sincronización que determina con qué frecuencia se actualizan los almacenes de datos con los datos más recientes del conjunto de datos de BigQuery.

En la siguiente tabla se comparan las dos formas de importar datos de BigQuery a los almacenes de datos de Vertex AI Search.

Ingestión única	Ingestión periódica
Disponible de forma general.	Vista previa pública.
Los datos deben actualizarse manualmente.	Los datos se actualizan automáticamente cada 1, 3 o 5 días. Los datos no se pueden actualizar manualmente.
Vertex AI Search crea un único almacén de datos a partir de una tabla de BigQuery.	Vertex AI Search crea un conector de datos para un conjunto de datos de BigQuery y un almacén de datos (denominado almacén de datos de entidades) para cada tabla especificada. En cada conector de datos, las tablas deben tener el mismo tipo de datos (por ejemplo, estructurados) y estar en el mismo conjunto de datos de BigQuery.
Los datos de varias tablas se pueden combinar en un único almacén de datos. Para ello, primero se ingieren los datos de una tabla y, después, se añaden más datos de otra fuente o tabla de BigQuery.	Como no se admite la importación manual de datos, los datos de un almacén de datos de entidad solo se pueden obtener de una tabla de BigQuery.
Se admite el control de acceso a fuentes de datos.	No se admite el control de acceso a la fuente de datos. Los datos importados pueden contener controles de acceso, pero estos controles no se respetarán.
Puedes crear un almacén de datos con la consola o la API.Google Cloud	Debes usar la consola para crear conectores de datos y sus almacenes de datos de entidades.
Cumple los requisitos de CMEK.	Cumple los requisitos de CMEK.

Importar una vez desde BigQuery

Para ingerir datos de una tabla de BigQuery, sigue estos pasos para crear un almacén de datos e ingerir datos mediante la Google Cloud consola o la API.

Antes de importar los datos, consulta el artículo Preparar datos para la ingesta.

Consola

Para usar la consola y extraer datos de BigQuery, sigue estos pasos: Google Cloud

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
Vaya a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona BigQuery.
Seleccione el tipo de datos que va a importar en la sección ¿Qué tipo de datos va a importar?.
Selecciona Una vez en la sección Frecuencia de sincronización.
En el campo Ruta de BigQuery, haz clic en Examinar, selecciona una tabla que hayas preparado para la ingesta y, a continuación, haz clic en Seleccionar. También puedes introducir la ubicación de la tabla directamente en el campo Ruta de BigQuery.
Haz clic en Continuar.
Si vas a importar datos estructurados una sola vez, sigue estos pasos:
1. Asigna campos a propiedades clave.
2. Si faltan campos importantes en el esquema, usa Añadir nuevo campo para añadirlos.
  
  Para obtener más información, consulta Información sobre la detección automática y la edición.
3. Haz clic en Continuar.
Elige una región para tu almacén de datos.
Escribe el nombre del almacén de datos.
Haz clic en Crear.
Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del almacén de datos para ver los detalles en la página Datos. Cuando el estado de la columna de la pestaña Actividad cambie de En curso a Importación completada, la ingesta habrá finalizado.

En función del tamaño de los datos, la ingestión puede tardar desde varios minutos hasta varias horas.

REST

Para usar la línea de comandos para crear un almacén de datos e importar datos de BigQuery, sigue estos pasos.

Crea un almacén de datos.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DATA_STORE_DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"]
}'
```
Nota: El sector GENERIC se usa para crear almacenes de datos estructurados, no estructurados y de sitios web para aplicaciones de búsqueda personalizadas.

Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto de Google Cloud .
- DATA_STORE_ID: el ID del almacén de datos de Vertex AI Search que quieres crear. Este ID solo puede contener letras en minúscula, números, guiones bajos y guiones.
- DATA_STORE_DISPLAY_NAME: el nombre visible del almacén de datos de Vertex AI Search que quieres crear.
Opcional: Si vas a subir datos no estructurados y quieres configurar el análisis de documentos o activar la fragmentación de documentos para RAG, especifica el objeto documentProcessingConfig e inclúyelo en tu solicitud de creación del almacén de datos. Se recomienda configurar un analizador de OCR para PDFs si vas a ingerir PDFs escaneados. Para saber cómo configurar las opciones de análisis o de división en fragmentos, consulta el artículo Analizar y dividir en fragmentos documentos.
Importar datos de BigQuery.

Si ha definido un esquema, asegúrese de que los datos se ajusten a él.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
-d '{
  "bigquerySource": {
    "projectId": "PROJECT_ID",
    "datasetId":"DATASET_ID",
    "tableId": "TABLE_ID",
    "dataSchema": "DATA_SCHEMA",
    "aclEnabled": "BOOLEAN"
  },
  "reconciliationMode": "RECONCILIATION_MODE",
  "autoGenerateIds": "AUTO_GENERATE_IDS",
  "idField": "ID_FIELD",
  "errorConfig": {
    "gcsPrefix": "ERROR_DIRECTORY"
  }
}'
```
Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto de Google Cloud .
- DATA_STORE_ID: el ID del almacén de datos de Vertex AI Search.
- DATASET_ID: el ID del conjunto de datos de BigQuery.
- TABLE_ID: el ID de la tabla de BigQuery.
  - Si la tabla de BigQuery no está en PROJECT_ID, debes dar a la cuenta de servicio service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com permiso de "lector de datos de BigQuery" para la tabla de BigQuery. Por ejemplo, si vas a importar una tabla de BigQuery del proyecto de origen "123" al proyecto de destino "456", otorga permisos de service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com a la tabla de BigQuery del proyecto "123".
- DATA_SCHEMA: opcional. Los valores son document y custom. El valor predeterminado es document.
  - document: la tabla de BigQuery que utilices debe cumplir el esquema predeterminado de BigQuery que se proporciona en Preparar datos para la ingesta. Puedes definir el ID de cada documento tú mismo, mientras envuelves todos los datos en la cadena jsonData.
  - custom: se acepta cualquier esquema de tabla de BigQuery y Vertex AI Search genera automáticamente los IDs de cada documento que se importa.
- ERROR_DIRECTORY: opcional. Un directorio de Cloud Storage con información sobre errores de la importación, por ejemplo, gs://<your-gcs-bucket>/directory/import_errors. Google recomienda dejar este campo en blanco para que Vertex AI Search cree automáticamente un directorio temporal.
- RECONCILIATION_MODE: opcional. Los valores son FULL y INCREMENTAL. El valor predeterminado es INCREMENTAL. Si especificas INCREMENTAL , se realizará una actualización incremental de los datos de BigQuery en tu almacén de datos. De esta forma, se realiza una operación upsert, que añade documentos nuevos y sustituye los documentos que ya existen por documentos actualizados con el mismo ID. Si especifica FULL, se volverán a basar por completo los documentos de su almacén de datos. Es decir, los documentos nuevos y actualizados se añaden al almacén de datos, y los documentos que no están en BigQuery se eliminan del almacén de datos. El modo FULL es útil si quieres eliminar automáticamente los documentos que ya no necesitas.
- AUTO_GENERATE_IDS: opcional. Especifica si se deben generar automáticamente los IDs de los documentos. Si se define como true, los IDs de los documentos se generan a partir de un hash de la carga útil. Ten en cuenta que es posible que los IDs de documento generados no sean coherentes en varias importaciones. Si generas automáticamente IDs en varias importaciones, Google te recomienda que definas reconciliationMode como FULL para mantener IDs de documento coherentes.
  
  Especifica autoGenerateIds solo cuando bigquerySource.dataSchema se haya definido como custom. De lo contrario, se devuelve un error INVALID_ARGUMENT. Si no especifica autoGenerateIds o lo define como false, debe especificar idField. De lo contrario, no se podrán importar los documentos.
- ID_FIELD: opcional. Especifica qué campos son los IDs de documento. En el caso de los archivos de origen de BigQuery, idField indica el nombre de la columna de la tabla de BigQuery que contiene los IDs de los documentos.
  
  Especifica idField solo cuando: (1) bigquerySource.dataSchema se haya definido como custom y (2) auto_generate_ids se haya definido como false o no se haya especificado. De lo contrario, se devuelve un error INVALID_ARGUMENT.
  
  El valor del nombre de la columna de BigQuery debe ser de tipo string, debe tener entre 1 y 63 caracteres y debe cumplir la RFC-1034. De lo contrario, no se podrán importar los documentos.

C#

Para obtener más información, consulta la documentación de referencia de la API C# de Vertex AI Search.

Crear un almacén de datos

using Google.Cloud.DiscoveryEngine.V1;
using Google.LongRunning;

public sealed partial class GeneratedDataStoreServiceClientSnippets
{
    /// <summary>Snippet for CreateDataStore</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void CreateDataStoreRequestObject()
    {
        // Create client
        DataStoreServiceClient dataStoreServiceClient = DataStoreServiceClient.Create();
        // Initialize request argument(s)
        CreateDataStoreRequest request = new CreateDataStoreRequest
        {
            ParentAsCollectionName = CollectionName.FromProjectLocationCollection("[PROJECT]", "[LOCATION]", "[COLLECTION]"),
            DataStore = new DataStore(),
            DataStoreId = "",
            CreateAdvancedSiteSearch = false,
            CmekConfigNameAsCmekConfigName = CmekConfigName.FromProjectLocation("[PROJECT]", "[LOCATION]"),
            SkipDefaultSchemaCreation = false,
        };
        // Make the request
        Operation<DataStore, CreateDataStoreMetadata> response = dataStoreServiceClient.CreateDataStore(request);

        // Poll until the returned long-running operation is complete
        Operation<DataStore, CreateDataStoreMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        DataStore result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<DataStore, CreateDataStoreMetadata> retrievedResponse = dataStoreServiceClient.PollOnceCreateDataStore(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            DataStore retrievedResult = retrievedResponse.Result;
        }
    }
}

Importar documentos

using Google.Cloud.DiscoveryEngine.V1;
using Google.LongRunning;
using Google.Protobuf.WellKnownTypes;

public sealed partial class GeneratedDocumentServiceClientSnippets
{
    /// <summary>Snippet for ImportDocuments</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void ImportDocumentsRequestObject()
    {
        // Create client
        DocumentServiceClient documentServiceClient = DocumentServiceClient.Create();
        // Initialize request argument(s)
        ImportDocumentsRequest request = new ImportDocumentsRequest
        {
            ParentAsBranchName = BranchName.FromProjectLocationDataStoreBranch("[PROJECT]", "[LOCATION]", "[DATA_STORE]", "[BRANCH]"),
            InlineSource = new ImportDocumentsRequest.Types.InlineSource(),
            ErrorConfig = new ImportErrorConfig(),
            ReconciliationMode = ImportDocumentsRequest.Types.ReconciliationMode.Unspecified,
            UpdateMask = new FieldMask(),
            AutoGenerateIds = false,
            IdField = "",
            ForceRefreshContent = false,
        };
        // Make the request
        Operation<ImportDocumentsResponse, ImportDocumentsMetadata> response = documentServiceClient.ImportDocuments(request);

        // Poll until the returned long-running operation is complete
        Operation<ImportDocumentsResponse, ImportDocumentsMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        ImportDocumentsResponse result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<ImportDocumentsResponse, ImportDocumentsMetadata> retrievedResponse = documentServiceClient.PollOnceImportDocuments(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            ImportDocumentsResponse retrievedResult = retrievedResponse.Result;
        }
    }
}

Go

Para obtener más información, consulta la documentación de referencia de la API Go de Vertex AI Search.

Crear un almacén de datos


package main

import (
	"context"

	discoveryengine "cloud.google.com/go/discoveryengine/apiv1"
	discoveryenginepb "cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := discoveryengine.NewDataStoreClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &discoveryenginepb.CreateDataStoreRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb#CreateDataStoreRequest.
	}
	op, err := c.CreateDataStore(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Importar documentos


package main

import (
	"context"

	discoveryengine "cloud.google.com/go/discoveryengine/apiv1"
	discoveryenginepb "cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := discoveryengine.NewDocumentClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &discoveryenginepb.ImportDocumentsRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb#ImportDocumentsRequest.
	}
	op, err := c.ImportDocuments(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

Para obtener más información, consulta la documentación de referencia de la API Java de Vertex AI Search.

Crear un almacén de datos

import com.google.cloud.discoveryengine.v1.CollectionName;
import com.google.cloud.discoveryengine.v1.CreateDataStoreRequest;
import com.google.cloud.discoveryengine.v1.DataStore;
import com.google.cloud.discoveryengine.v1.DataStoreServiceClient;

public class SyncCreateDataStore {

  public static void main(String[] args) throws Exception {
    syncCreateDataStore();
  }

  public static void syncCreateDataStore() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataStoreServiceClient dataStoreServiceClient = DataStoreServiceClient.create()) {
      CreateDataStoreRequest request =
          CreateDataStoreRequest.newBuilder()
              .setParent(CollectionName.of("[PROJECT]", "[LOCATION]", "[COLLECTION]").toString())
              .setDataStore(DataStore.newBuilder().build())
              .setDataStoreId("dataStoreId929489618")
              .setCreateAdvancedSiteSearch(true)
              .setSkipDefaultSchemaCreation(true)
              .build();
      DataStore response = dataStoreServiceClient.createDataStoreAsync(request).get();
    }
  }
}

Importar documentos

import com.google.cloud.discoveryengine.v1.BranchName;
import com.google.cloud.discoveryengine.v1.DocumentServiceClient;
import com.google.cloud.discoveryengine.v1.ImportDocumentsRequest;
import com.google.cloud.discoveryengine.v1.ImportDocumentsResponse;
import com.google.cloud.discoveryengine.v1.ImportErrorConfig;
import com.google.protobuf.FieldMask;

public class SyncImportDocuments {

  public static void main(String[] args) throws Exception {
    syncImportDocuments();
  }

  public static void syncImportDocuments() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DocumentServiceClient documentServiceClient = DocumentServiceClient.create()) {
      ImportDocumentsRequest request =
          ImportDocumentsRequest.newBuilder()
              .setParent(
                  BranchName.ofProjectLocationDataStoreBranchName(
                          "[PROJECT]", "[LOCATION]", "[DATA_STORE]", "[BRANCH]")
                      .toString())
              .setErrorConfig(ImportErrorConfig.newBuilder().build())
              .setUpdateMask(FieldMask.newBuilder().build())
              .setAutoGenerateIds(true)
              .setIdField("idField1629396127")
              .setForceRefreshContent(true)
              .build();
      ImportDocumentsResponse response = documentServiceClient.importDocumentsAsync(request).get();
    }
  }
}

Node.js

Para obtener más información, consulta la documentación de referencia de la API Node.js de Vertex AI Search.

Crear un almacén de datos

/**
 * This snippet has been automatically generated and should be regarded as a code template only.
 * It will require modifications to work.
 * It may require correct/in-range values for request initialization.
 * TODO(developer): Uncomment these variables before running the sample.
 */
/**
 *  Resource name of the CmekConfig to use for protecting this DataStore.
 */
// const cmekConfigName = 'abc123'
/**
 *  DataStore without CMEK protections. If a default CmekConfig is set for
 *  the project, setting this field will override the default CmekConfig as
 *  well.
 */
// const disableCmek = true
/**
 *  Required. The parent resource name, such as
 *  `projects/{project}/locations/{location}/collections/{collection}`.
 */
// const parent = 'abc123'
/**
 *  Required. The DataStore google.cloud.discoveryengine.v1.DataStore  to
 *  create.
 */
// const dataStore = {}
/**
 *  Required. The ID to use for the
 *  DataStore google.cloud.discoveryengine.v1.DataStore, which will become
 *  the final component of the
 *  DataStore google.cloud.discoveryengine.v1.DataStore's resource name.
 *  This field must conform to RFC-1034 (https://tools.ietf.org/html/rfc1034)
 *  standard with a length limit of 63 characters. Otherwise, an
 *  INVALID_ARGUMENT error is returned.
 */
// const dataStoreId = 'abc123'
/**
 *  A boolean flag indicating whether user want to directly create an advanced
 *  data store for site search.
 *  If the data store is not configured as site
 *  search (GENERIC vertical and PUBLIC_WEBSITE content_config), this flag will
 *  be ignored.
 */
// const createAdvancedSiteSearch = true
/**
 *  A boolean flag indicating whether to skip the default schema creation for
 *  the data store. Only enable this flag if you are certain that the default
 *  schema is incompatible with your use case.
 *  If set to true, you must manually create a schema for the data store before
 *  any documents can be ingested.
 *  This flag cannot be specified if `data_store.starting_schema` is specified.
 */
// const skipDefaultSchemaCreation = true

// Imports the Discoveryengine library
const {DataStoreServiceClient} = require('@google-cloud/discoveryengine').v1;

// Instantiates a client
const discoveryengineClient = new DataStoreServiceClient();

async function callCreateDataStore() {
  // Construct request
  const request = {
    parent,
    dataStore,
    dataStoreId,
  };

  // Run request
  const [operation] = await discoveryengineClient.createDataStore(request);
  const [response] = await operation.promise();
  console.log(response);
}

callCreateDataStore();

Importar documentos

/**
 * This snippet has been automatically generated and should be regarded as a code template only.
 * It will require modifications to work.
 * It may require correct/in-range values for request initialization.
 * TODO(developer): Uncomment these variables before running the sample.
 */
/**
 *  The Inline source for the input content for documents.
 */
// const inlineSource = {}
/**
 *  Cloud Storage location for the input content.
 */
// const gcsSource = {}
/**
 *  BigQuery input source.
 */
// const bigquerySource = {}
/**
 *  FhirStore input source.
 */
// const fhirStoreSource = {}
/**
 *  Spanner input source.
 */
// const spannerSource = {}
/**
 *  Cloud SQL input source.
 */
// const cloudSqlSource = {}
/**
 *  Firestore input source.
 */
// const firestoreSource = {}
/**
 *  AlloyDB input source.
 */
// const alloyDbSource = {}
/**
 *  Cloud Bigtable input source.
 */
// const bigtableSource = {}
/**
 *  Required. The parent branch resource name, such as
 *  `projects/{project}/locations/{location}/collections/{collection}/dataStores/{data_store}/branches/{branch}`.
 *  Requires create/update permission.
 */
// const parent = 'abc123'
/**
 *  The desired location of errors incurred during the Import.
 */
// const errorConfig = {}
/**
 *  The mode of reconciliation between existing documents and the documents to
 *  be imported. Defaults to
 *  ReconciliationMode.INCREMENTAL google.cloud.discoveryengine.v1.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL.
 */
// const reconciliationMode = {}
/**
 *  Indicates which fields in the provided imported documents to update. If
 *  not set, the default is to update all fields.
 */
// const updateMask = {}
/**
 *  Whether to automatically generate IDs for the documents if absent.
 *  If set to `true`,
 *  Document.id google.cloud.discoveryengine.v1.Document.id s are
 *  automatically generated based on the hash of the payload, where IDs may not
 *  be consistent during multiple imports. In which case
 *  ReconciliationMode.FULL google.cloud.discoveryengine.v1.ImportDocumentsRequest.ReconciliationMode.FULL 
 *  is highly recommended to avoid duplicate contents. If unset or set to
 *  `false`, Document.id google.cloud.discoveryengine.v1.Document.id s have
 *  to be specified using
 *  id_field google.cloud.discoveryengine.v1.ImportDocumentsRequest.id_field,
 *  otherwise, documents without IDs fail to be imported.
 *  Supported data sources:
 *  * GcsSource google.cloud.discoveryengine.v1.GcsSource.
 *  GcsSource.data_schema google.cloud.discoveryengine.v1.GcsSource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * BigQuerySource google.cloud.discoveryengine.v1.BigQuerySource.
 *  BigQuerySource.data_schema google.cloud.discoveryengine.v1.BigQuerySource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * SpannerSource google.cloud.discoveryengine.v1.SpannerSource.
 *  * CloudSqlSource google.cloud.discoveryengine.v1.CloudSqlSource.
 *  * FirestoreSource google.cloud.discoveryengine.v1.FirestoreSource.
 *  * BigtableSource google.cloud.discoveryengine.v1.BigtableSource.
 */
// const autoGenerateIds = true
/**
 *  The field indicates the ID field or column to be used as unique IDs of
 *  the documents.
 *  For GcsSource google.cloud.discoveryengine.v1.GcsSource  it is the key of
 *  the JSON field. For instance, `my_id` for JSON `{"my_id": "some_uuid"}`.
 *  For others, it may be the column name of the table where the unique ids are
 *  stored.
 *  The values of the JSON field or the table column are used as the
 *  Document.id google.cloud.discoveryengine.v1.Document.id s. The JSON field
 *  or the table column must be of string type, and the values must be set as
 *  valid strings conform to RFC-1034 (https://tools.ietf.org/html/rfc1034)
 *  with 1-63 characters. Otherwise, documents without valid IDs fail to be
 *  imported.
 *  Only set this field when
 *  auto_generate_ids google.cloud.discoveryengine.v1.ImportDocumentsRequest.auto_generate_ids 
 *  is unset or set as `false`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  If it is unset, a default value `_id` is used when importing from the
 *  allowed data sources.
 *  Supported data sources:
 *  * GcsSource google.cloud.discoveryengine.v1.GcsSource.
 *  GcsSource.data_schema google.cloud.discoveryengine.v1.GcsSource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * BigQuerySource google.cloud.discoveryengine.v1.BigQuerySource.
 *  BigQuerySource.data_schema google.cloud.discoveryengine.v1.BigQuerySource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * SpannerSource google.cloud.discoveryengine.v1.SpannerSource.
 *  * CloudSqlSource google.cloud.discoveryengine.v1.CloudSqlSource.
 *  * FirestoreSource google.cloud.discoveryengine.v1.FirestoreSource.
 *  * BigtableSource google.cloud.discoveryengine.v1.BigtableSource.
 */
// const idField = 'abc123'
/**
 *  Optional. Whether to force refresh the unstructured content of the
 *  documents.
 *  If set to `true`, the content part of the documents will be refreshed
 *  regardless of the update status of the referencing content.
 */
// const forceRefreshContent = true

// Imports the Discoveryengine library
const {DocumentServiceClient} = require('@google-cloud/discoveryengine').v1;

// Instantiates a client
const discoveryengineClient = new DocumentServiceClient();

async function callImportDocuments() {
  // Construct request
  const request = {
    parent,
  };

  // Run request
  const [operation] = await discoveryengineClient.importDocuments(request);
  const [response] = await operation.promise();
  console.log(response);
}

callImportDocuments();

Python

Para obtener más información, consulta la documentación de referencia de la API Python de Vertex AI Search.

Crear un almacén de datos


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importar documentos


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"
# bigquery_dataset = "YOUR_BIGQUERY_DATASET"
# bigquery_table = "YOUR_BIGQUERY_TABLE"

#  For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    bigquery_source=discoveryengine.BigQuerySource(
        project_id=project_id,
        dataset_id=bigquery_dataset,
        table_id=bigquery_table,
        data_schema="custom",
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Ruby

Para obtener más información, consulta la documentación de referencia de la API Ruby de Vertex AI Search.

Crear un almacén de datos

require "google/cloud/discovery_engine/v1"

##
# Snippet for the create_data_store call in the DataStoreService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::DiscoveryEngine::V1::DataStoreService::Client#create_data_store.
#
def create_data_store
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::DiscoveryEngine::V1::DataStoreService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::DiscoveryEngine::V1::CreateDataStoreRequest.new

  # Call the create_data_store method.
  result = client.create_data_store request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

Importar documentos

require "google/cloud/discovery_engine/v1"

##
# Snippet for the import_documents call in the DocumentService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::DiscoveryEngine::V1::DocumentService::Client#import_documents.
#
def import_documents
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::DiscoveryEngine::V1::DocumentService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::DiscoveryEngine::V1::ImportDocumentsRequest.new

  # Call the import_documents method.
  result = client.import_documents request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

Conectarse a BigQuery con sincronización periódica

Nota: Esta función es una oferta de vista previa, sujeta a los "Términos de las Ofertas de Acceso Previo a la Disponibilidad General" de los Términos Específicos de los Servicios de GCP. Las funciones y los productos previos a la disponibilidad general pueden tener una asistencia limitada y los cambios que se produzcan en ellos podrían no ser compatibles con otras versiones previas a la disponibilidad general. Para obtener más información, consulta las descripciones de las fases de lanzamiento. Además, al usar esta función, aceptas los términos y condiciones de la vista previa de IA generativa ("Términos de la Vista Previa"). Para usar esta función, puedes tratar datos personales tal como se indica en la Adenda sobre Tratamiento de Datos de Cloud, de acuerdo con las restricciones y obligaciones aplicables del Contrato (tal como se definen en los Términos de la Vista Previa).

Antes de importar los datos, consulta el artículo Preparar datos para la ingesta.

En el siguiente procedimiento se describe cómo crear un conector de datos que asocie un conjunto de datos de BigQuery con un conector de datos de búsqueda de Vertex AI y cómo especificar una tabla en el conjunto de datos para cada almacén de datos que quieras crear. Los almacenes de datos que son elementos secundarios de los conectores de datos se denominan entidades.

Los datos del conjunto de datos se sincronizan periódicamente con los almacenes de datos de la entidad. Puedes especificar que la sincronización se realice a diario, cada tres días o cada cinco días.

Consola

Para usar la Google Cloud consola y crear un conector que sincronice periódicamente los datos de un conjunto de datos de BigQuery con Vertex AI Search, sigue estos pasos:

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
En el menú de navegación, haga clic en Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona BigQuery.
Selecciona el tipo de datos que vas a importar.
Haz clic en Periódica.
Seleccione la Frecuencia de sincronización, es decir, la frecuencia con la que quiere que el conector de búsqueda de Vertex AI se sincronice con el conjunto de datos de BigQuery. Puedes cambiar la frecuencia más adelante.
En el campo Ruta del conjunto de datos de BigQuery, haz clic en Buscar y selecciona el conjunto de datos que contiene las tablas que has preparado para la ingesta. También puedes introducir la ubicación de la tabla directamente en el campo Ruta de BigQuery. El formato de la ruta es projectname.datasetname.
En el campo Tablas que sincronizar, haga clic en Examinar y, a continuación, seleccione una tabla que contenga los datos que quiera incluir en su almacén de datos.
Nota:
Asegúrate de que los datos de las tablas coincidan con el tipo de datos que has seleccionado en el paso 5.
Si hay alguna discrepancia, no lo sabrá hasta que ocurra una de las siguientes situaciones:
- Se producen errores cuando el conector intenta importar datos.
- Ves resultados inesperados. Esto ocurre si el tipo seleccionado era estructurado, pero debería haber sido sin estructurar o estructurado con metadatos. Los datos se importan, pero la URL del contenido o los metadatos no se reconocen y se tratan como una cadena.
Si hay otras tablas en el conjunto de datos que quieras usar para los almacenes de datos, haz clic en Añadir tabla y especifica también esas tablas.
Haz clic en Continuar.
Elige una región para tu almacén de datos, introduce un nombre para tu conector de datos y haz clic en Crear.

Ya has creado un conector de datos que sincronizará periódicamente los datos con el conjunto de datos de BigQuery. Además, ha creado uno o varios almacenes de datos de entidades. Los almacenes de datos tienen los mismos nombres que las tablas de BigQuery.
Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del conector de datos para ver los detalles en la página Datos > pestaña Actividad de ingestión de datos. Cuando el estado de la columna de la pestaña Actividad cambie de En curso a Completado, la primera ingestión se habrá completado.

En función del tamaño de los datos, la ingestión puede tardar desde varios minutos hasta varias horas.

Después de configurar la fuente de datos e importar datos por primera vez, el almacén de datos sincroniza los datos de esa fuente con la frecuencia que elijas durante la configuración. Aproximadamente una hora después de crear el conector de datos, se produce la primera sincronización. La siguiente sincronización se producirá aproximadamente 24, 72 o 120 horas después.

Pasos siguientes

Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en Crear una aplicación de búsqueda.
Para ver una vista previa de cómo aparecerán los resultados de búsqueda después de configurar tu aplicación y tu almacén de datos, consulta Obtener resultados de búsqueda.

Importar desde Cloud Storage

Puede crear almacenes de datos a partir de tablas de Cloud Storage de dos formas:

Ingestión única: importa datos de una carpeta o un archivo de Cloud Storage a un almacén de datos. Los datos del almacén de datos no cambian a menos que actualices los datos manualmente.
Ingestión periódica: importa datos de una carpeta o un archivo de Cloud Storage y define una frecuencia de sincronización que determina con qué frecuencia se actualiza el almacén de datos con los datos más recientes de esa ubicación de Cloud Storage.

En la siguiente tabla se comparan las dos formas de importar datos de Cloud Storage a almacenes de datos de Vertex AI Search.

Ingestión única	Ingestión periódica
Disponible de forma general.	Vista previa pública.
Los datos deben actualizarse manualmente.	Los datos se actualizan automáticamente cada uno, tres o cinco días. Los datos no se pueden actualizar manualmente.
Vertex AI Search crea un único almacén de datos a partir de una carpeta o un archivo de Cloud Storage.	Vertex AI Search crea un conector de datos y asocia un almacén de datos (llamado almacén de datos de entidades) con el archivo o la carpeta especificados. Cada conector de datos de Cloud Storage puede tener un único almacén de datos de entidades.
Para combinar datos de varios archivos, carpetas y segmentos en un único almacén de datos, primero ingiere datos de una ubicación de Cloud Storage y, después, más datos de otra ubicación.	Como no se admite la importación manual de datos, los datos de un almacén de datos de entidad solo pueden proceder de un archivo o una carpeta de Cloud Storage.
Se admite el control de acceso a fuentes de datos. Para obtener más información, consulta Control de acceso a fuentes de datos.	No se admite el control de acceso a la fuente de datos. Los datos importados pueden contener controles de acceso, pero estos controles no se respetarán.
Puedes crear un almacén de datos con la consola o la API.Google Cloud	Debes usar la consola para crear conectores de datos y sus almacenes de datos de entidades.
Cumple los requisitos de CMEK.	Cumple los requisitos de CMEK.

Importar una vez desde Cloud Storage

Para ingerir datos de Cloud Storage, sigue estos pasos para crear un almacén de datos e ingerir datos mediante la Google Cloud consola o la API.

Antes de importar los datos, consulta el artículo Preparar datos para la ingesta.

Consola

Para usar la consola y extraer datos de un segmento de Cloud Storage, sigue estos pasos:

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
Vaya a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona Cloud Storage.
En la sección Selecciona la carpeta o el archivo que quieras importar, elige Carpeta o Archivo.
Haz clic en Explorar, elige los datos que hayas preparado para la ingesta y, a continuación, haz clic en Seleccionar. También puedes introducir la ubicación directamente en el campo gs://.
Selecciona el tipo de datos que vas a importar.
Haz clic en Continuar.
Si vas a importar datos estructurados una sola vez, sigue estos pasos:
1. Asigna campos a propiedades clave.
2. Si faltan campos importantes en el esquema, usa Añadir nuevo campo para añadirlos.
  
  Para obtener más información, consulta Información sobre la detección automática y la edición.
3. Haz clic en Continuar.
Elige una región para tu almacén de datos.
Escribe el nombre del almacén de datos.
Opcional: Si has seleccionado documentos no estructurados, puedes seleccionar opciones de análisis y fragmentación para tus documentos. Para comparar analizadores, consulta Analizar documentos. Para obtener información sobre la fragmentación, consulta Fragmentar documentos para RAG.

El analizador de OCR y el analizador de diseño pueden generar costes adicionales. Consulta los precios de las funciones de Documentos.

Para seleccionar un analizador, despliega Opciones de procesamiento de documentos y especifica las opciones del analizador que quieras usar.
Haz clic en Crear.
Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del almacén de datos para ver los detalles en la página Datos. Cuando el estado de la columna de la pestaña Actividad cambie de En curso a Importación completada, la ingesta habrá finalizado.

En función del tamaño de los datos, la ingestión puede tardar varios minutos o varias horas.

REST

Para crear un almacén de datos e ingerir datos de Cloud Storage mediante la línea de comandos, sigue estos pasos.

Crea un almacén de datos.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DATA_STORE_DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"]
}'
```
Nota: El sector GENERIC se usa para crear almacenes de datos estructurados, no estructurados y de sitios web para aplicaciones de búsqueda personalizadas.

Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto de Google Cloud .
- DATA_STORE_ID: el ID del almacén de datos de Vertex AI Search que quieres crear. Este ID solo puede contener letras en minúscula, números, guiones bajos y guiones.
- DATA_STORE_DISPLAY_NAME: el nombre visible del almacén de datos de Vertex AI Search que quieres crear.
Opcional: Si vas a subir datos no estructurados y quieres configurar el análisis de documentos o activar la fragmentación de documentos para RAG, especifica el objeto documentProcessingConfig e inclúyelo en tu solicitud de creación del almacén de datos. Te recomendamos que configures un analizador OCR para PDFs si vas a ingerir PDFs escaneados. Para saber cómo configurar las opciones de análisis o de división en fragmentos, consulta el artículo Analizar y dividir en fragmentos documentos.
Importa datos de Cloud Storage.
```
  curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
  -d '{
    "gcsSource": {
      "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"],
      "dataSchema": "DATA_SCHEMA",
    },
    "reconciliationMode": "RECONCILIATION_MODE",
    "autoGenerateIds": "AUTO_GENERATE_IDS",
    "idField": "ID_FIELD",
    "errorConfig": {
      "gcsPrefix": "ERROR_DIRECTORY"
    }
  }'
```
Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto de Google Cloud .
- DATA_STORE_ID: el ID del almacén de datos de Vertex AI Search.
- INPUT_FILE_PATTERN: un patrón de archivo de Cloud Storage que contiene tus documentos.
  
  En el caso de los datos estructurados o de los datos no estructurados con metadatos, un ejemplo de patrón de archivo de entrada es gs://<your-gcs-bucket>/directory/object.json y un ejemplo de patrón que coincide con uno o varios archivos es gs://<your-gcs-bucket>/directory/*.json.
  
  En el caso de los documentos sin estructurar, un ejemplo es gs://<your-gcs-bucket>/directory/*.pdf. Cada archivo que coincida con el patrón se convertirá en un documento.
  
  Si <your-gcs-bucket> no está en PROJECT_ID, debes dar a la cuenta de servicio service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com permisos de "lector de objetos de almacenamiento" para el segmento de Cloud Storage. Por ejemplo, si vas a importar un segmento de Cloud Storage del proyecto de origen "123" al proyecto de destino "456", otorga permisos service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com al segmento de Cloud Storage del proyecto "123".
- DATA_SCHEMA: opcional. Los valores son document, custom, csv y content. El valor predeterminado es document.
  - document: sube datos no estructurados con metadatos de documentos no estructurados. Cada línea del archivo debe seguir uno de los siguientes formatos. Puedes definir el ID de cada documento:
    - { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
    - { "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
  - custom: sube archivos JSON para documentos estructurados. Los datos se organizan según un esquema. Puedes especificar el esquema; de lo contrario, se detectará automáticamente. Puedes colocar la cadena JSON del documento en un formato coherente directamente en cada línea y Vertex AI Search generará automáticamente los IDs de cada documento importado.
  - content: sube documentos no estructurados (PDF, HTML, DOC, TXT y PPTX). El ID de cada documento se genera automáticamente como los primeros 128 bits de SHA256(GCS_URI) codificados como una cadena hexadecimal. Puedes especificar varios patrones de archivo de entrada siempre que los archivos coincidentes no superen el límite de 100.000 archivos.
  - csv: incluya una fila de encabezado en el archivo CSV, de forma que cada encabezado se asigne a un campo de documento. Especifica la ruta al archivo CSV en el campo inputUris.
- ERROR_DIRECTORY: opcional. Un directorio de Cloud Storage con información sobre errores de la importación, por ejemplo, gs://<your-gcs-bucket>/directory/import_errors. Google recomienda dejar este campo vacío para que Vertex AI Search cree automáticamente un directorio temporal.
- RECONCILIATION_MODE: opcional. Los valores son FULL y INCREMENTAL. El valor predeterminado es INCREMENTAL. Si especificas INCREMENTAL , se realizará una actualización incremental de los datos de Cloud Storage en tu almacén de datos. De esta forma, se realiza una operación upsert, que añade documentos nuevos y sustituye los documentos que ya existen por documentos actualizados con el mismo ID. Si especificas FULL, se volverán a basar por completo los documentos de tu almacén de datos. Es decir, los documentos nuevos y actualizados se añaden a tu almacén de datos, y los documentos que no están en Cloud Storage se eliminan de él. El modo FULL es útil si quieres eliminar automáticamente los documentos que ya no necesitas.
- AUTO_GENERATE_IDS: opcional. Especifica si se deben generar automáticamente los IDs de los documentos. Si se define como true, los IDs de documento se generan a partir de un hash de la carga útil. Ten en cuenta que es posible que los IDs de documento generados no se mantengan coherentes en varias importaciones. Si generas automáticamente IDs en varias importaciones, Google te recomienda que definas reconciliationMode como FULL para mantener IDs de documento coherentes.
  
  Especifica autoGenerateIds solo cuando gcsSource.dataSchema tenga el valor custom o csv. De lo contrario, se devuelve un error INVALID_ARGUMENT. Si no especifica autoGenerateIds o lo define como false, debe especificar idField. De lo contrario, no se podrán importar los documentos.
- ID_FIELD: opcional. Especifica qué campos son los IDs de documento. En el caso de los documentos de origen de Cloud Storage, idField especifica el nombre de los campos JSON que son IDs de documento. Por ejemplo, si {"my_id":"some_uuid"} es el campo de ID de documento de uno de sus documentos, especifique "idField":"my_id". Identifica todos los campos JSON con el nombre "my_id" como IDs de documento.
  
  Especifique este campo solo cuando: (1) gcsSource.dataSchema tenga el valor custom o csv y (2) auto_generate_ids tenga el valor false o no se haya especificado. De lo contrario, se devuelve un error INVALID_ARGUMENT.
  
  Ten en cuenta que el valor del campo JSON de Cloud Storage debe ser de tipo string, debe tener entre 1 y 63 caracteres y debe cumplir el estándar RFC-1034. De lo contrario, no se podrán importar los documentos.
  
  Ten en cuenta que el nombre del campo JSON especificado por id_field debe ser de tipo cadena, tener entre 1 y 63 caracteres y cumplir el estándar RFC-1034. De lo contrario, no se podrán importar los documentos.

C#

Para obtener más información, consulta la documentación de referencia de la API C# de Vertex AI Search.

Crear un almacén de datos

using Google.Cloud.DiscoveryEngine.V1;
using Google.LongRunning;

public sealed partial class GeneratedDataStoreServiceClientSnippets
{
    /// <summary>Snippet for CreateDataStore</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void CreateDataStoreRequestObject()
    {
        // Create client
        DataStoreServiceClient dataStoreServiceClient = DataStoreServiceClient.Create();
        // Initialize request argument(s)
        CreateDataStoreRequest request = new CreateDataStoreRequest
        {
            ParentAsCollectionName = CollectionName.FromProjectLocationCollection("[PROJECT]", "[LOCATION]", "[COLLECTION]"),
            DataStore = new DataStore(),
            DataStoreId = "",
            CreateAdvancedSiteSearch = false,
            CmekConfigNameAsCmekConfigName = CmekConfigName.FromProjectLocation("[PROJECT]", "[LOCATION]"),
            SkipDefaultSchemaCreation = false,
        };
        // Make the request
        Operation<DataStore, CreateDataStoreMetadata> response = dataStoreServiceClient.CreateDataStore(request);

        // Poll until the returned long-running operation is complete
        Operation<DataStore, CreateDataStoreMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        DataStore result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<DataStore, CreateDataStoreMetadata> retrievedResponse = dataStoreServiceClient.PollOnceCreateDataStore(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            DataStore retrievedResult = retrievedResponse.Result;
        }
    }
}

Importar documentos

using Google.Cloud.DiscoveryEngine.V1;
using Google.LongRunning;
using Google.Protobuf.WellKnownTypes;

public sealed partial class GeneratedDocumentServiceClientSnippets
{
    /// <summary>Snippet for ImportDocuments</summary>
    /// <remarks>
    /// This snippet has been automatically generated and should be regarded as a code template only.
    /// It will require modifications to work:
    /// - It may require correct/in-range values for request initialization.
    /// - It may require specifying regional endpoints when creating the service client as shown in
    ///   https://cloud.google.com/dotnet/docs/reference/help/client-configuration#endpoint.
    /// </remarks>
    public void ImportDocumentsRequestObject()
    {
        // Create client
        DocumentServiceClient documentServiceClient = DocumentServiceClient.Create();
        // Initialize request argument(s)
        ImportDocumentsRequest request = new ImportDocumentsRequest
        {
            ParentAsBranchName = BranchName.FromProjectLocationDataStoreBranch("[PROJECT]", "[LOCATION]", "[DATA_STORE]", "[BRANCH]"),
            InlineSource = new ImportDocumentsRequest.Types.InlineSource(),
            ErrorConfig = new ImportErrorConfig(),
            ReconciliationMode = ImportDocumentsRequest.Types.ReconciliationMode.Unspecified,
            UpdateMask = new FieldMask(),
            AutoGenerateIds = false,
            IdField = "",
            ForceRefreshContent = false,
        };
        // Make the request
        Operation<ImportDocumentsResponse, ImportDocumentsMetadata> response = documentServiceClient.ImportDocuments(request);

        // Poll until the returned long-running operation is complete
        Operation<ImportDocumentsResponse, ImportDocumentsMetadata> completedResponse = response.PollUntilCompleted();
        // Retrieve the operation result
        ImportDocumentsResponse result = completedResponse.Result;

        // Or get the name of the operation
        string operationName = response.Name;
        // This name can be stored, then the long-running operation retrieved later by name
        Operation<ImportDocumentsResponse, ImportDocumentsMetadata> retrievedResponse = documentServiceClient.PollOnceImportDocuments(operationName);
        // Check if the retrieved long-running operation has completed
        if (retrievedResponse.IsCompleted)
        {
            // If it has completed, then access the result
            ImportDocumentsResponse retrievedResult = retrievedResponse.Result;
        }
    }
}

Go

Para obtener más información, consulta la documentación de referencia de la API Go de Vertex AI Search.

Crear un almacén de datos


package main

import (
	"context"

	discoveryengine "cloud.google.com/go/discoveryengine/apiv1"
	discoveryenginepb "cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := discoveryengine.NewDataStoreClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &discoveryenginepb.CreateDataStoreRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb#CreateDataStoreRequest.
	}
	op, err := c.CreateDataStore(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Importar documentos


package main

import (
	"context"

	discoveryengine "cloud.google.com/go/discoveryengine/apiv1"
	discoveryenginepb "cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb"
)

func main() {
	ctx := context.Background()
	// This snippet has been automatically generated and should be regarded as a code template only.
	// It will require modifications to work:
	// - It may require correct/in-range values for request initialization.
	// - It may require specifying regional endpoints when creating the service client as shown in:
	//   https://pkg.go.dev/cloud.google.com/go#hdr-Client_Options
	c, err := discoveryengine.NewDocumentClient(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	defer c.Close()

	req := &discoveryenginepb.ImportDocumentsRequest{
		// TODO: Fill request struct fields.
		// See https://pkg.go.dev/cloud.google.com/go/discoveryengine/apiv1/discoveryenginepb#ImportDocumentsRequest.
	}
	op, err := c.ImportDocuments(ctx, req)
	if err != nil {
		// TODO: Handle error.
	}

	resp, err := op.Wait(ctx)
	if err != nil {
		// TODO: Handle error.
	}
	// TODO: Use resp.
	_ = resp
}

Java

Para obtener más información, consulta la documentación de referencia de la API Java de Vertex AI Search.

Crear un almacén de datos

import com.google.cloud.discoveryengine.v1.CollectionName;
import com.google.cloud.discoveryengine.v1.CreateDataStoreRequest;
import com.google.cloud.discoveryengine.v1.DataStore;
import com.google.cloud.discoveryengine.v1.DataStoreServiceClient;

public class SyncCreateDataStore {

  public static void main(String[] args) throws Exception {
    syncCreateDataStore();
  }

  public static void syncCreateDataStore() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DataStoreServiceClient dataStoreServiceClient = DataStoreServiceClient.create()) {
      CreateDataStoreRequest request =
          CreateDataStoreRequest.newBuilder()
              .setParent(CollectionName.of("[PROJECT]", "[LOCATION]", "[COLLECTION]").toString())
              .setDataStore(DataStore.newBuilder().build())
              .setDataStoreId("dataStoreId929489618")
              .setCreateAdvancedSiteSearch(true)
              .setSkipDefaultSchemaCreation(true)
              .build();
      DataStore response = dataStoreServiceClient.createDataStoreAsync(request).get();
    }
  }
}

Importar documentos

import com.google.cloud.discoveryengine.v1.BranchName;
import com.google.cloud.discoveryengine.v1.DocumentServiceClient;
import com.google.cloud.discoveryengine.v1.ImportDocumentsRequest;
import com.google.cloud.discoveryengine.v1.ImportDocumentsResponse;
import com.google.cloud.discoveryengine.v1.ImportErrorConfig;
import com.google.protobuf.FieldMask;

public class SyncImportDocuments {

  public static void main(String[] args) throws Exception {
    syncImportDocuments();
  }

  public static void syncImportDocuments() throws Exception {
    // This snippet has been automatically generated and should be regarded as a code template only.
    // It will require modifications to work:
    // - It may require correct/in-range values for request initialization.
    // - It may require specifying regional endpoints when creating the service client as shown in
    // https://cloud.google.com/java/docs/setup#configure_endpoints_for_the_client_library
    try (DocumentServiceClient documentServiceClient = DocumentServiceClient.create()) {
      ImportDocumentsRequest request =
          ImportDocumentsRequest.newBuilder()
              .setParent(
                  BranchName.ofProjectLocationDataStoreBranchName(
                          "[PROJECT]", "[LOCATION]", "[DATA_STORE]", "[BRANCH]")
                      .toString())
              .setErrorConfig(ImportErrorConfig.newBuilder().build())
              .setUpdateMask(FieldMask.newBuilder().build())
              .setAutoGenerateIds(true)
              .setIdField("idField1629396127")
              .setForceRefreshContent(true)
              .build();
      ImportDocumentsResponse response = documentServiceClient.importDocumentsAsync(request).get();
    }
  }
}

Node.js

Para obtener más información, consulta la documentación de referencia de la API Node.js de Vertex AI Search.

Crear un almacén de datos

/**
 * This snippet has been automatically generated and should be regarded as a code template only.
 * It will require modifications to work.
 * It may require correct/in-range values for request initialization.
 * TODO(developer): Uncomment these variables before running the sample.
 */
/**
 *  Resource name of the CmekConfig to use for protecting this DataStore.
 */
// const cmekConfigName = 'abc123'
/**
 *  DataStore without CMEK protections. If a default CmekConfig is set for
 *  the project, setting this field will override the default CmekConfig as
 *  well.
 */
// const disableCmek = true
/**
 *  Required. The parent resource name, such as
 *  `projects/{project}/locations/{location}/collections/{collection}`.
 */
// const parent = 'abc123'
/**
 *  Required. The DataStore google.cloud.discoveryengine.v1.DataStore  to
 *  create.
 */
// const dataStore = {}
/**
 *  Required. The ID to use for the
 *  DataStore google.cloud.discoveryengine.v1.DataStore, which will become
 *  the final component of the
 *  DataStore google.cloud.discoveryengine.v1.DataStore's resource name.
 *  This field must conform to RFC-1034 (https://tools.ietf.org/html/rfc1034)
 *  standard with a length limit of 63 characters. Otherwise, an
 *  INVALID_ARGUMENT error is returned.
 */
// const dataStoreId = 'abc123'
/**
 *  A boolean flag indicating whether user want to directly create an advanced
 *  data store for site search.
 *  If the data store is not configured as site
 *  search (GENERIC vertical and PUBLIC_WEBSITE content_config), this flag will
 *  be ignored.
 */
// const createAdvancedSiteSearch = true
/**
 *  A boolean flag indicating whether to skip the default schema creation for
 *  the data store. Only enable this flag if you are certain that the default
 *  schema is incompatible with your use case.
 *  If set to true, you must manually create a schema for the data store before
 *  any documents can be ingested.
 *  This flag cannot be specified if `data_store.starting_schema` is specified.
 */
// const skipDefaultSchemaCreation = true

// Imports the Discoveryengine library
const {DataStoreServiceClient} = require('@google-cloud/discoveryengine').v1;

// Instantiates a client
const discoveryengineClient = new DataStoreServiceClient();

async function callCreateDataStore() {
  // Construct request
  const request = {
    parent,
    dataStore,
    dataStoreId,
  };

  // Run request
  const [operation] = await discoveryengineClient.createDataStore(request);
  const [response] = await operation.promise();
  console.log(response);
}

callCreateDataStore();

Importar documentos

/**
 * This snippet has been automatically generated and should be regarded as a code template only.
 * It will require modifications to work.
 * It may require correct/in-range values for request initialization.
 * TODO(developer): Uncomment these variables before running the sample.
 */
/**
 *  The Inline source for the input content for documents.
 */
// const inlineSource = {}
/**
 *  Cloud Storage location for the input content.
 */
// const gcsSource = {}
/**
 *  BigQuery input source.
 */
// const bigquerySource = {}
/**
 *  FhirStore input source.
 */
// const fhirStoreSource = {}
/**
 *  Spanner input source.
 */
// const spannerSource = {}
/**
 *  Cloud SQL input source.
 */
// const cloudSqlSource = {}
/**
 *  Firestore input source.
 */
// const firestoreSource = {}
/**
 *  AlloyDB input source.
 */
// const alloyDbSource = {}
/**
 *  Cloud Bigtable input source.
 */
// const bigtableSource = {}
/**
 *  Required. The parent branch resource name, such as
 *  `projects/{project}/locations/{location}/collections/{collection}/dataStores/{data_store}/branches/{branch}`.
 *  Requires create/update permission.
 */
// const parent = 'abc123'
/**
 *  The desired location of errors incurred during the Import.
 */
// const errorConfig = {}
/**
 *  The mode of reconciliation between existing documents and the documents to
 *  be imported. Defaults to
 *  ReconciliationMode.INCREMENTAL google.cloud.discoveryengine.v1.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL.
 */
// const reconciliationMode = {}
/**
 *  Indicates which fields in the provided imported documents to update. If
 *  not set, the default is to update all fields.
 */
// const updateMask = {}
/**
 *  Whether to automatically generate IDs for the documents if absent.
 *  If set to `true`,
 *  Document.id google.cloud.discoveryengine.v1.Document.id s are
 *  automatically generated based on the hash of the payload, where IDs may not
 *  be consistent during multiple imports. In which case
 *  ReconciliationMode.FULL google.cloud.discoveryengine.v1.ImportDocumentsRequest.ReconciliationMode.FULL 
 *  is highly recommended to avoid duplicate contents. If unset or set to
 *  `false`, Document.id google.cloud.discoveryengine.v1.Document.id s have
 *  to be specified using
 *  id_field google.cloud.discoveryengine.v1.ImportDocumentsRequest.id_field,
 *  otherwise, documents without IDs fail to be imported.
 *  Supported data sources:
 *  * GcsSource google.cloud.discoveryengine.v1.GcsSource.
 *  GcsSource.data_schema google.cloud.discoveryengine.v1.GcsSource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * BigQuerySource google.cloud.discoveryengine.v1.BigQuerySource.
 *  BigQuerySource.data_schema google.cloud.discoveryengine.v1.BigQuerySource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * SpannerSource google.cloud.discoveryengine.v1.SpannerSource.
 *  * CloudSqlSource google.cloud.discoveryengine.v1.CloudSqlSource.
 *  * FirestoreSource google.cloud.discoveryengine.v1.FirestoreSource.
 *  * BigtableSource google.cloud.discoveryengine.v1.BigtableSource.
 */
// const autoGenerateIds = true
/**
 *  The field indicates the ID field or column to be used as unique IDs of
 *  the documents.
 *  For GcsSource google.cloud.discoveryengine.v1.GcsSource  it is the key of
 *  the JSON field. For instance, `my_id` for JSON `{"my_id": "some_uuid"}`.
 *  For others, it may be the column name of the table where the unique ids are
 *  stored.
 *  The values of the JSON field or the table column are used as the
 *  Document.id google.cloud.discoveryengine.v1.Document.id s. The JSON field
 *  or the table column must be of string type, and the values must be set as
 *  valid strings conform to RFC-1034 (https://tools.ietf.org/html/rfc1034)
 *  with 1-63 characters. Otherwise, documents without valid IDs fail to be
 *  imported.
 *  Only set this field when
 *  auto_generate_ids google.cloud.discoveryengine.v1.ImportDocumentsRequest.auto_generate_ids 
 *  is unset or set as `false`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  If it is unset, a default value `_id` is used when importing from the
 *  allowed data sources.
 *  Supported data sources:
 *  * GcsSource google.cloud.discoveryengine.v1.GcsSource.
 *  GcsSource.data_schema google.cloud.discoveryengine.v1.GcsSource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * BigQuerySource google.cloud.discoveryengine.v1.BigQuerySource.
 *  BigQuerySource.data_schema google.cloud.discoveryengine.v1.BigQuerySource.data_schema 
 *  must be `custom` or `csv`. Otherwise, an INVALID_ARGUMENT error is thrown.
 *  * SpannerSource google.cloud.discoveryengine.v1.SpannerSource.
 *  * CloudSqlSource google.cloud.discoveryengine.v1.CloudSqlSource.
 *  * FirestoreSource google.cloud.discoveryengine.v1.FirestoreSource.
 *  * BigtableSource google.cloud.discoveryengine.v1.BigtableSource.
 */
// const idField = 'abc123'
/**
 *  Optional. Whether to force refresh the unstructured content of the
 *  documents.
 *  If set to `true`, the content part of the documents will be refreshed
 *  regardless of the update status of the referencing content.
 */
// const forceRefreshContent = true

// Imports the Discoveryengine library
const {DocumentServiceClient} = require('@google-cloud/discoveryengine').v1;

// Instantiates a client
const discoveryengineClient = new DocumentServiceClient();

async function callImportDocuments() {
  // Construct request
  const request = {
    parent,
  };

  // Run request
  const [operation] = await discoveryengineClient.importDocuments(request);
  const [response] = await operation.promise();
  console.log(response);
}

callImportDocuments();

Python

Para obtener más información, consulta la documentación de referencia de la API Python de Vertex AI Search.

Crear un almacén de datos


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importar documentos

from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"

# Examples:
# - Unstructured documents
#   - `gs://bucket/directory/file.pdf`
#   - `gs://bucket/directory/*.pdf`
# - Unstructured documents with JSONL Metadata
#   - `gs://bucket/directory/file.json`
# - Unstructured documents with CSV Metadata
#   - `gs://bucket/directory/file.csv`
# gcs_uri = "YOUR_GCS_PATH"

#  For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    gcs_source=discoveryengine.GcsSource(
        # Multiple URIs are supported
        input_uris=[gcs_uri],
        # Options:
        # - `content` - Unstructured documents (PDF, HTML, DOC, TXT, PPTX)
        # - `custom` - Unstructured documents with custom JSONL metadata
        # - `document` - Structured documents in the discoveryengine.Document format.
        # - `csv` - Unstructured documents with CSV metadata
        data_schema="content",
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Ruby

Para obtener más información, consulta la documentación de referencia de la API Ruby de Vertex AI Search.

Crear un almacén de datos

require "google/cloud/discovery_engine/v1"

##
# Snippet for the create_data_store call in the DataStoreService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::DiscoveryEngine::V1::DataStoreService::Client#create_data_store.
#
def create_data_store
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::DiscoveryEngine::V1::DataStoreService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::DiscoveryEngine::V1::CreateDataStoreRequest.new

  # Call the create_data_store method.
  result = client.create_data_store request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

Importar documentos

require "google/cloud/discovery_engine/v1"

##
# Snippet for the import_documents call in the DocumentService service
#
# This snippet has been automatically generated and should be regarded as a code
# template only. It will require modifications to work:
# - It may require correct/in-range values for request initialization.
# - It may require specifying regional endpoints when creating the service
# client as shown in https://cloud.google.com/ruby/docs/reference.
#
# This is an auto-generated example demonstrating basic usage of
# Google::Cloud::DiscoveryEngine::V1::DocumentService::Client#import_documents.
#
def import_documents
  # Create a client object. The client can be reused for multiple calls.
  client = Google::Cloud::DiscoveryEngine::V1::DocumentService::Client.new

  # Create a request. To set request fields, pass in keyword arguments.
  request = Google::Cloud::DiscoveryEngine::V1::ImportDocumentsRequest.new

  # Call the import_documents method.
  result = client.import_documents request

  # The returned object is of type Gapic::Operation. You can use it to
  # check the status of an operation, cancel it, or wait for results.
  # Here is how to wait for a response.
  result.wait_until_done! timeout: 60
  if result.response?
    p result.response
  else
    puts "No response received."
  end
end

Conectarse a Cloud Storage con sincronización periódica

Antes de importar los datos, consulta el artículo Preparar datos para la ingesta.

En el siguiente procedimiento se describe cómo crear un conector de datos que asocie una ubicación de Cloud Storage con un conector de datos de Búsqueda de Vertex AI y cómo especificar una carpeta o un archivo de esa ubicación para el almacén de datos que quieras crear. Los almacenes de datos que son elementos secundarios de conectores de datos se denominan almacenes de datos de entidades.

Los datos se sincronizan periódicamente con el almacén de datos de la entidad. Puedes especificar que la sincronización se realice a diario, cada tres días o cada cinco días.

Consola

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
Vaya a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona Cloud Storage.
Selecciona el tipo de datos que vas a importar.
Haz clic en Periódica.
Seleccione la frecuencia de sincronización, es decir, la frecuencia con la que quiere que el conector de Vertex AI Search se sincronice con la ubicación de Cloud Storage. Puedes cambiar la frecuencia más adelante.
En la sección Selecciona la carpeta o el archivo que quieras importar, elige Carpeta o Archivo.
Haz clic en Explorar, elige los datos que hayas preparado para la ingesta y, a continuación, haz clic en Seleccionar. También puedes introducir la ubicación directamente en el campo gs://.
Haz clic en Continuar.
Elige una región para tu conector de datos.
Escriba el nombre del conector de datos.
Opcional: Si has seleccionado documentos no estructurados, puedes seleccionar opciones de análisis y fragmentación para tus documentos. Para comparar analizadores, consulta Analizar documentos. Para obtener información sobre la fragmentación, consulta Fragmentar documentos para RAG.

El analizador de OCR y el analizador de diseño pueden generar costes adicionales. Consulta los precios de las funciones de Documentos.

Para seleccionar un analizador, despliega Opciones de procesamiento de documentos y especifica las opciones del analizador que quieras usar.
Haz clic en Crear.

Ya has creado un conector de datos que sincronizará periódicamente los datos con la ubicación de Cloud Storage. También has creado un almacén de datos de entidades, llamado gcs_store.
Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del conector de datos para ver los detalles en su página Datos.

Pestaña Actividad de ingestión de datos. Cuando el estado de la columna de la pestaña Actividad de ingestión de datos cambie de En curso a Completada, la primera ingestión se habrá completado.

En función del tamaño de los datos, la ingestión puede tardar desde varios minutos hasta varias horas.

Después de configurar la fuente de datos e importar datos por primera vez, los datos se sincronizan desde esa fuente con la frecuencia que elijas durante la configuración. Aproximadamente una hora después de crear el conector de datos, se produce la primera sincronización. La siguiente sincronización se producirá aproximadamente 24, 72 o 120 horas después.

Pasos siguientes

Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en Crear una aplicación de búsqueda.
Para ver una vista previa de cómo aparecerán los resultados de búsqueda después de configurar tu aplicación y tu almacén de datos, consulta Obtener resultados de búsqueda.

Conectar con Google Drive

Vertex AI Search puede buscar datos de Google Drive mediante la federación de datos, que obtiene información directamente de la fuente de datos especificada. Como los datos no se copian en el índice de Vertex AI Search, no tienes que preocuparte por el almacenamiento de datos.

Antes de empezar

Debes haber iniciado sesión en la consola Google Cloud con la misma cuenta que usas para la instancia de Google Drive a la que quieres conectarte. Vertex AI Search usa tu ID de cliente de Google Workspace para conectarse a Google Drive.

Para aplicar el control de acceso a las fuentes de datos y proteger los datos en Vertex AI Search, asegúrate de haber configurado tu proveedor de identidades.

Verifica que se pueda acceder a todos los documentos. Para ello, colócalos en una unidad compartida que sea propiedad del dominio o asigna la propiedad a un usuario del dominio.
Habilita las funciones inteligentes de Google Workspace en otros productos de Google para conectar los datos de Google Drive con la búsqueda de Vertex AI. Para obtener más información, consulta el artículo Activar o desactivar las funciones inteligentes de Google Workspace.

Si utilizas controles de seguridad, ten en cuenta sus limitaciones en relación con los datos de Google Drive, tal como se indica en la siguiente tabla:

Control de seguridad	Ten en cuenta lo siguiente
Residencia de los datos (DRZ)	Vertex AI Search solo garantiza la residencia de los datos en Google Cloud. Para obtener información sobre la residencia de los datos y Google Drive, consulta la guía de cumplimiento y la documentación de Google Workspace. Por ejemplo, Elige la región en la que se almacenan los datos y Soberanía digital.
Claves de encriptado gestionadas por el cliente (CMEK)	Tus claves solo cifran datos dentro de Google Cloud. Los controles de Cloud Key Management Service no se aplican a los datos almacenados en Google Drive.
Transparencia de acceso	Los registros de Transparencia de acceso muestran las acciones que lleva a cabo el personal de Google en el Google Cloud proyecto. También tendrás que revisar los registros de Transparencia de acceso creados por Google Workspace. Para obtener más información, consulta Eventos de registro de Transparencia de acceso en la documentación de ayuda para administradores de Google Workspace.

Crear un almacén de datos de Google Drive

Consola

Para usar la consola y hacer que los datos de Google Drive se puedan buscar, sigue estos pasos:

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
En el menú de navegación, haga clic en Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Seleccionar una fuente de datos, selecciona Google Drive.
Especifica la fuente de la unidad de tu almacén de datos.
- Todo: para añadir toda tu unidad al almacén de datos.
- Unidades compartidas específicas: añade el ID de carpeta de la unidad compartida.
- Carpetas compartidas específicas: añade el ID de las carpetas compartidas.
Para encontrar el ID de la carpeta de la unidad compartida o el ID de una carpeta específica, ve a la unidad o a la carpeta y copia el ID de la URL. La URL sigue este formato: https://drive.google.com/corp/drive/folders/ID.

Por ejemplo, https://drive.google.com/corp/drive/folders/123456789012345678901.
Haz clic en Continuar.
Elige una región para tu almacén de datos.
Escribe el nombre del almacén de datos.
Opcional: Para evitar que los datos de este almacén de datos se usen para generar contenido con IA generativa cuando consultes datos con la aplicación, haz clic en Opciones de IA generativa y selecciona Excluir de las funciones de IA generativa.
Haz clic en Crear.

Mensajes de error

En la siguiente tabla se describen los mensajes de error que pueden aparecer al trabajar con esta fuente de datos de Google, así como los códigos de error de HTTP y los pasos sugeridos para solucionar los problemas.

Código de error	Mensaje de error	Descripción	Solución de problemas
403 (Permiso denegado)	No se puede buscar con credenciales de cuentas de servicio en almacenes de datos de Google Workspace.	El motor en el que se realiza la búsqueda tiene almacenes de datos de Google Workspace y las credenciales transferidas son de una cuenta de servicio. No se admite la búsqueda con credenciales de cuenta de servicio en almacenes de datos de Google Workspace.	Llamar a la búsqueda con las credenciales de usuario o eliminar los almacenes de datos de Google Workspace del motor.
403 (Permiso denegado)	Las cuentas de consumidor no se admiten en los almacenes de datos de Google Workspace.	La búsqueda se llama con una credencial de cuenta de consumidor (@gmail.com), que no se admite en los almacenes de datos de Google Workspace.	Elimina los almacenes de datos de Google Workspace del buscador o usa una cuenta de Google gestionada.
403 (Permiso denegado)	El ID de cliente no coincide con el de Datastore	La búsqueda solo está permitida para los usuarios que pertenecen a la misma organización que los almacenes de datos de Google Workspace.	Quita los almacenes de datos de Google Workspace del motor o ponte en contacto con el equipo de Asistencia si el usuario y los almacenes de datos de Google Workspace deben estar en organizaciones diferentes.
400 (Invalid Argument)	El motor no puede contener almacenes de datos predeterminados y compartidos de Google Drive.	No puedes conectar a la misma aplicación un almacén de datos que tenga todas tus unidades (opción predeterminada) y otro que tenga unidades compartidas específicas.	Para conectar una nueva fuente de datos de Google Drive a tu aplicación, primero desvincula el almacén de datos que no necesites y, después, añade el nuevo almacén de datos que quieras usar.

Solución de problemas

Si tu búsqueda no devuelve el archivo que buscas, puede deberse a estas limitaciones del índice de búsqueda:

Solo se puede extraer 1 MB de texto y datos de formato de tu archivo para que se pueda buscar en él.
En la mayoría de los tipos de archivo, el tamaño no puede superar los 10 MB. Se aplican las siguientes excepciones:
- Los archivos XLSX (.xlsx) no pueden superar los 20 MB.
- Los archivos PDF (.pdf) no pueden superar los 30 MB.
- Los archivos de texto (.txt) no pueden superar los 100 MB.
Nota: Los archivos que superen el límite de tamaño no se podrán buscar y no aparecerán en los resultados de búsqueda.
El reconocimiento óptico de caracteres en archivos PDF está limitado a 80 páginas. No se indexará ningún PDF que tenga más de 50 MB o 80 páginas, y no se podrán buscar las palabras clave que superen el límite de indexación de 1 MB.

Pasos siguientes

Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en Crear una aplicación de búsqueda.
Para obtener los resultados de búsqueda después de configurar la aplicación y el almacén de datos, consulta Obtener resultados de búsqueda.

Conectarse a Gmail

Sigue estos pasos para crear un almacén de datos que se conecte a Gmail en la consola de Google Cloud . Después de conectar el almacén de datos, puedes adjuntarlo a tu aplicación de búsqueda y buscar en tus datos de Gmail.

Antes de empezar

Debes iniciar sesión en la consola de Google Cloud con la misma cuenta que usas para la instancia de Google Workspace que quieras conectar. Vertex AI Search usa tu ID de cliente de Google Workspace para conectarse a Gmail.

Para aplicar el control de acceso a las fuentes de datos y proteger los datos en Vertex AI Search, asegúrate de haber configurado tu proveedor de identidades.

Limitaciones

Si usas controles de seguridad, ten en cuenta sus limitaciones en relación con los datos de Gmail, tal como se indica en la siguiente tabla:

Control de seguridad	Ten en cuenta lo siguiente
Residencia de los datos (DRZ)	Vertex AI Search solo garantiza la residencia de los datos en Google Cloud. Para obtener información sobre la residencia de los datos y Gmail, consulta la guía y la documentación de cumplimiento de Google Workspace. Por ejemplo, Elige la región en la que se almacenan los datos y Soberanía digital.
Claves de encriptado gestionadas por el cliente (CMEK)	Tus claves solo cifran datos dentro de Google Cloud. Los controles de Cloud Key Management Service no se aplican a los datos almacenados en Gmail.
Transparencia de acceso	Los registros de Transparencia de acceso muestran las acciones que lleva a cabo el personal de Google en el Google Cloud proyecto. También tendrás que revisar los registros de Transparencia de acceso creados por Google Workspace. Para obtener más información, consulta Eventos de registro de Transparencia de acceso en la documentación de ayuda para administradores de Google Workspace.

Crear un almacén de datos de Gmail

Consola

Para usar la consola y hacer que los datos de Gmail se puedan buscar, sigue estos pasos:

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
En el menú de navegación, haga clic en Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Seleccionar una fuente de datos, selecciona Google Gmail.
Elige una región para tu almacén de datos.
Escribe el nombre del almacén de datos.
Haz clic en Crear.
Sigue los pasos que se indican en Crear una aplicación de búsqueda y adjunta el almacén de datos creado a una aplicación de búsqueda de Vertex AI.

Mensajes de error

Código de error	Mensaje de error	Descripción	Solución de problemas
403 (Permiso denegado)	No se puede buscar con credenciales de cuentas de servicio en almacenes de datos de Google Workspace.	El motor en el que se realiza la búsqueda tiene almacenes de datos de Google Workspace y las credenciales transferidas son de una cuenta de servicio. No se admite la búsqueda con credenciales de cuenta de servicio en almacenes de datos de Google Workspace.	Llamar a la búsqueda con las credenciales de usuario o eliminar los almacenes de datos de Google Workspace del motor.
403 (Permiso denegado)	Las cuentas de consumidor no se admiten en los almacenes de datos de Google Workspace.	La búsqueda se llama con una credencial de cuenta de consumidor (@gmail.com), que no se admite en los almacenes de datos de Google Workspace.	Elimina los almacenes de datos de Google Workspace del buscador o usa una cuenta de Google gestionada.
403 (Permiso denegado)	El ID de cliente no coincide con el de Datastore	La búsqueda solo está permitida para los usuarios que pertenecen a la misma organización que los almacenes de datos de Google Workspace.	Quita los almacenes de datos de Google Workspace del motor o ponte en contacto con el equipo de Asistencia si el usuario y los almacenes de datos de Google Workspace deben estar en organizaciones diferentes.
400 (Invalid Argument)	El motor no puede contener almacenes de datos predeterminados y compartidos de Google Drive.	No puedes conectar a la misma aplicación un almacén de datos que tenga todas tus unidades (opción predeterminada) y otro que tenga unidades compartidas específicas.	Para conectar una nueva fuente de datos de Google Drive a tu aplicación, primero desvincula el almacén de datos que no necesites y, después, añade el nuevo almacén de datos que quieras usar.

Pasos siguientes

Para ver una vista previa de cómo se muestran los resultados de búsqueda después de configurar tu aplicación y tu almacén de datos, consulta Vista previa de los resultados de búsqueda.

Conectarse a Google Sites

Para buscar datos de Google Sites, sigue estos pasos para crear un conector con la Google Cloud consola.

Antes de empezar:

Debes iniciar sesión en la consola de Google Cloud con la misma cuenta que usas para la instancia de Google Workspace que quieras conectar. Vertex AI Search usa tu ID de cliente de Google Workspace para conectarse a Google Sites.
Para aplicar el control de acceso a las fuentes de datos y proteger los datos en Vertex AI Search, asegúrate de haber configurado tu proveedor de identidades.

Si utiliza controles de seguridad, tenga en cuenta sus limitaciones en relación con los datos de Google Sites, tal como se indica en la siguiente tabla:

Control de seguridad	Ten en cuenta lo siguiente
Residencia de los datos (DRZ)	Vertex AI Search solo garantiza la residencia de los datos en Google Cloud. Para obtener información sobre la residencia de los datos y Google Sites, consulta la guía de cumplimiento y la documentación de Google Workspace. Por ejemplo, Elige la región en la que se almacenan los datos y Soberanía digital.
Claves de encriptado gestionadas por el cliente (CMEK)	Tus claves solo cifran datos dentro de Google Cloud. Los controles de Cloud Key Management Service no se aplican a los datos almacenados en Google Sites.
Transparencia de acceso	Los registros de Transparencia de acceso muestran las acciones que lleva a cabo el personal de Google en el Google Cloud proyecto. También tendrás que revisar los registros de Transparencia de acceso creados por Google Workspace. Para obtener más información, consulta Eventos de registro de Transparencia de acceso en la documentación de ayuda para administradores de Google Workspace.

Consola

Para usar la consola y hacer que los datos de Google Sites se puedan buscar, sigue estos pasos:

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
Vaya a la página Almacenes de datos.
Haz clic en Nuevo almacén de datos.
En la página Fuente, selecciona Google Sites.
Elige una región para tu almacén de datos.
Escribe el nombre del almacén de datos.
Haz clic en Crear.

Pasos siguientes

Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en Crear una aplicación de búsqueda.
Para ver una vista previa de cómo aparecerán los resultados de búsqueda después de configurar tu aplicación y tu almacén de datos, consulta Obtener resultados de búsqueda.

Conectar con Google Calendar

Nota: Esta función es una oferta de vista previa sujeta a los "Términos de las Ofertas Previas a la Disponibilidad General" de los Términos Específicos de los Servicios de GCP. Las funciones y los productos previos a la disponibilidad general pueden tener una asistencia limitada y los cambios que se produzcan en ellos podrían no ser compatibles con otras versiones previas a la disponibilidad general. Para obtener más información, consulta las descripciones de las fases de lanzamiento. Además, al usar esta función, aceptas los términos y condiciones de la vista previa de IA generativa ("Términos de la Vista Previa"). Para usar esta función, puedes tratar datos personales tal como se indica en la Adenda sobre Tratamiento de Datos de Cloud, de acuerdo con las restricciones y obligaciones aplicables del Contrato (tal como se definen en los Términos de la Vista Previa).

Para buscar datos de Google Calendar, sigue estos pasos para crear un almacén de datos con la consola de Google Cloud .

Antes de empezar

Debes iniciar sesión en la consola de Google Cloud con la misma cuenta que usas para la instancia de Google Workspace que quieras conectar. Vertex AI Search usa tu ID de cliente de Google Workspace para conectarse a Google Calendar.

Para aplicar el control de acceso a las fuentes de datos y proteger los datos en Vertex AI Search, asegúrate de haber configurado tu proveedor de identidades.

Si usas controles de seguridad, ten en cuenta sus limitaciones en relación con los datos de Google Calendar, tal como se indica en la siguiente tabla:

Control de seguridad	Ten en cuenta lo siguiente
Residencia de los datos (DRZ)	Vertex AI Search solo garantiza la residencia de los datos en Google Cloud. Para obtener información sobre la residencia de los datos y Google Calendar, consulta la guía de cumplimiento y la documentación de Google Workspace. Por ejemplo, Elige la región en la que se almacenan los datos y Soberanía digital.
Claves de encriptado gestionadas por el cliente (CMEK)	Tus claves solo cifran datos dentro de Google Cloud. Los controles de Cloud Key Management Service no se aplican a los datos almacenados en Google Calendar.
Transparencia de acceso	Los registros de Transparencia de acceso muestran las acciones que lleva a cabo el personal de Google en el Google Cloud proyecto. También tendrás que revisar los registros de Transparencia de acceso creados por Google Workspace. Para obtener más información, consulta Eventos de registro de Transparencia de acceso en la documentación de ayuda para administradores de Google Workspace.

Crear un almacén de datos de Google Calendar

Para usar la consola y hacer que los datos de Google Calendar se puedan buscar, sigue estos pasos:

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
En el menú de navegación, haga clic en Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Seleccionar una fuente de datos, elige Google Calendar.
Elige una región para tu almacén de datos.
Escribe el nombre del almacén de datos.
Haz clic en Crear.

Mensajes de error

Código de error	Mensaje de error	Descripción	Solución de problemas
403 (Permiso denegado)	No se puede buscar con credenciales de cuentas de servicio en almacenes de datos de Google Workspace.	El motor en el que se realiza la búsqueda tiene almacenes de datos de Google Workspace y las credenciales transferidas son de una cuenta de servicio. No se admite la búsqueda con credenciales de cuenta de servicio en almacenes de datos de Google Workspace.	Llamar a la búsqueda con las credenciales de usuario o eliminar los almacenes de datos de Google Workspace del motor.
403 (Permiso denegado)	Las cuentas de consumidor no se admiten en los almacenes de datos de Google Workspace.	La búsqueda se llama con una credencial de cuenta de consumidor (@gmail.com), que no se admite en los almacenes de datos de Google Workspace.	Elimina los almacenes de datos de Google Workspace del buscador o usa una cuenta de Google gestionada.
403 (Permiso denegado)	El ID de cliente no coincide con el de Datastore	La búsqueda solo está permitida para los usuarios que pertenecen a la misma organización que los almacenes de datos de Google Workspace.	Quita los almacenes de datos de Google Workspace del motor o ponte en contacto con el equipo de Asistencia si el usuario y los almacenes de datos de Google Workspace deben estar en organizaciones diferentes.
400 (Invalid Argument)	El motor no puede contener almacenes de datos predeterminados y compartidos de Google Drive.	No puedes conectar a la misma aplicación un almacén de datos que tenga todas tus unidades (opción predeterminada) y otro que tenga unidades compartidas específicas.	Para conectar una nueva fuente de datos de Google Drive a tu aplicación, primero desvincula el almacén de datos que no necesites y, después, añade el nuevo almacén de datos que quieras usar.

Pasos siguientes

Para conectar tu almacén de datos a una aplicación, crea la aplicación y, a continuación, selecciona tu almacén de datos siguiendo las instrucciones que se indican en el artículo Crear una aplicación de búsqueda.
Para obtener los resultados de búsqueda después de configurar la aplicación y el almacén de datos, consulta Obtener resultados de búsqueda.

Conectarse a Grupos de Google

Para buscar datos de Grupos de Google, sigue estos pasos para crear un conector mediante la Google Cloud consola.

Antes de empezar:

Debes iniciar sesión en la consola de Google Cloud con la misma cuenta que usas para la instancia de Google Workspace que quieras conectar. Vertex AI Search usa tu ID de cliente de Google Workspace para conectarse a Grupos de Google.
Para aplicar el control de acceso a las fuentes de datos y proteger los datos en Vertex AI Search, asegúrate de haber configurado tu proveedor de identidades.

Si usas controles de seguridad, ten en cuenta sus limitaciones en relación con los datos de Grupos de Google, tal como se indica en la siguiente tabla:

Control de seguridad	Ten en cuenta lo siguiente
Residencia de los datos (DRZ)	Vertex AI Search solo garantiza la residencia de los datos en Google Cloud. Para obtener información sobre la residencia de los datos y los grupos de Google, consulta la guía de cumplimiento de Google Workspace y la documentación. Por ejemplo, Elige la región donde se almacenan los datos y Soberanía digital.
Claves de encriptado gestionadas por el cliente (CMEK)	Tus claves solo cifran datos dentro de Google Cloud. Los controles de Cloud Key Management Service no se aplican a los datos almacenados en Grupos de Google.
Transparencia de acceso	Los registros de Transparencia de acceso muestran las acciones que lleva a cabo el personal de Google en el Google Cloud proyecto. También tendrás que revisar los registros de Transparencia de acceso creados por Google Workspace. Para obtener más información, consulta Eventos de registro de Transparencia de acceso en la documentación de ayuda para administradores de Google Workspace.

Consola

Para usar la consola y hacer que los datos de Grupos de Google se puedan buscar, sigue estos pasos:

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
Vaya a la página Almacenes de datos.
Haz clic en Nuevo almacén de datos.
En la página Fuente, selecciona Grupos de Google.
Elige una región para tu almacén de datos.
Escribe el nombre del almacén de datos.
Haz clic en Crear. En función del tamaño de los datos, la ingestión puede tardar desde varios minutos hasta varias horas. Espera al menos una hora antes de usar tu almacén de datos para buscar.

Pasos siguientes

Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en Crear una aplicación de búsqueda.
Para ver una vista previa de cómo aparecerán los resultados de búsqueda después de configurar tu aplicación y tu almacén de datos, consulta Obtener resultados de búsqueda.

Importar desde Cloud SQL

Para ingerir datos de Cloud SQL, sigue estos pasos para configurar el acceso a Cloud SQL, crear un almacén de datos e ingerir datos.

Configurar el acceso al bucket de almacenamiento provisional para instancias de Cloud SQL

Al ingerir datos de Cloud SQL, los datos se almacenan primero en un segmento de Cloud Storage. Sigue estos pasos para dar acceso a una instancia de Cloud SQL a segmentos de Cloud Storage.

En la Google Cloud consola, ve a la página SQL.

SQL
Haz clic en la instancia de Cloud SQL desde la que quieras importar.
Copia el identificador de la cuenta de servicio de la instancia, que tiene el formato de una dirección de correo electrónico, por ejemplo, p9876-abcd33f@gcp-sa-cloud-sql.iam.gserviceaccount.com.
Ve a la página IAM y administración.

IAM y administración
Haz clic en Conceder acceso.
En Principales nuevas, introduce el identificador de la cuenta de servicio de la instancia y selecciona el rol Cloud Storage > Administrador de Storage.
Haz clic en Guardar.

Si tus datos de Cloud SQL están en el mismo proyecto que Vertex AI Search, ve a Importar datos de Cloud SQL.
Si tus datos de Cloud SQL están en un proyecto distinto al de Vertex AI Search, consulta el artículo Configurar el acceso a Cloud SQL desde otro proyecto.

Configurar el acceso a Cloud SQL desde otro proyecto

Para dar acceso a Vertex AI Search a los datos de Cloud SQL que se encuentran en otro proyecto, sigue estos pasos:

Sustituye la siguiente variable PROJECT_NUMBER por el número de tu proyecto de búsqueda de Vertex AI y, a continuación, copia el contenido del bloque de código. Este es el identificador de tu cuenta de servicio de Vertex AI Search:
```
service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com`
```
Ve a la página IAM y administración.

IAM y administración
Cambia a tu proyecto de Cloud SQL en la página IAM y administración y haz clic en Conceder acceso.
En Principales nuevas, introduce el identificador de la cuenta de servicio y selecciona el rol Cloud SQL > Lector de Cloud SQL.
Haz clic en Guardar.

A continuación, ve a Importar datos de Cloud SQL.

Importar datos desde Cloud SQL

Consola

Para usar la consola y extraer datos de Cloud SQL, sigue estos pasos:

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
Vaya a la página Almacenes de datos.
Haz clic en Nuevo almacén de datos.
En la página Fuente, seleccione Cloud SQL.
Especifique el ID del proyecto, el ID de la instancia, el ID de la base de datos y el ID de la tabla de los datos que quiere importar.
Haz clic en Examinar y elige una ubicación intermedia de Cloud Storage a la que exportar los datos. A continuación, haz clic en Seleccionar. También puedes introducir la ubicación directamente en el campo gs://.
Selecciona si quieres activar la exportación sin servidor. La exportación sin servidor conlleva un coste adicional. Para obtener información sobre la exportación sin servidor, consulta el artículo Minimizar el impacto de las exportaciones en el rendimiento de la documentación de Cloud SQL.
Haz clic en Continuar.
Elige una región para tu almacén de datos.
Escribe el nombre del almacén de datos.
Haz clic en Crear.
Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del almacén de datos para ver los detalles en la página Datos. Cuando el estado de la columna de la pestaña Actividad cambie de En curso a Importación completada, la ingesta habrá finalizado.

En función del tamaño de los datos, la ingestión puede tardar varios minutos o varias horas.

REST

Para crear un almacén de datos e ingerir datos de Cloud SQL mediante la línea de comandos, sigue estos pasos:

Crea un almacén de datos.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
}'
```
Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto.
- DATA_STORE_ID: el ID del almacén de datos. El ID solo puede contener letras minúsculas, dígitos, guiones bajos y guiones.
- DISPLAY_NAME: el nombre visible del almacén de datos. Puede que se muestre en la consola Google Cloud .
Nota: El sector vertical GENERIC se usa para crear almacenes de datos estructurados, no estructurados y de sitios web para aplicaciones de búsqueda personalizadas.
Importar datos de Cloud SQL.
```
  curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
  -d '{
    "cloudSqlSource": {
      "projectId": "SQL_PROJECT_ID",
      "instanceId": "INSTANCE_ID",
      "databaseId": "DATABASE_ID",
      "tableId": "TABLE_ID",
      "gcsStagingDir": "STAGING_DIRECTORY"
    },
    "reconciliationMode": "RECONCILIATION_MODE",
    "autoGenerateIds": "AUTO_GENERATE_IDS",
    "idField": "ID_FIELD",
  }'
```
Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto de Vertex AI Search.
- DATA_STORE_ID: el ID del almacén de datos. El ID solo puede contener letras minúsculas, dígitos, guiones bajos y guiones.
- SQL_PROJECT_ID: el ID de tu proyecto de Cloud SQL.
- INSTANCE_ID: el ID de tu instancia de Cloud SQL.
- DATABASE_ID: el ID de tu base de datos de Cloud SQL.
- TABLE_ID: el ID de tu tabla de Cloud SQL.
- STAGING_DIRECTORY: opcional. Un directorio de Cloud Storage, por ejemplo, gs://<your-gcs-bucket>/directory/import_errors.
- RECONCILIATION_MODE: opcional. Los valores son FULL y INCREMENTAL. El valor predeterminado es INCREMENTAL. Si se especifica INCREMENTAL , se produce una actualización incremental de los datos de Cloud SQL en tu almacén de datos. De esta forma, se realiza una operación upsert, que añade documentos nuevos y sustituye los documentos que ya existen por documentos actualizados con el mismo ID. Si especificas FULL, se volverán a basar por completo los documentos de tu almacén de datos. Es decir, los documentos nuevos y actualizados se añaden a tu almacén de datos, y los documentos que no están en Cloud SQL se eliminan de él. El modo FULL es útil si quieres eliminar automáticamente los documentos que ya no necesitas.

Python

Para obtener más información, consulta la documentación de referencia de la API Python de Vertex AI Search.

Crear un almacén de datos


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importar documentos

from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"
# sql_project_id = "YOUR_SQL_PROJECT_ID"
# sql_instance_id = "YOUR_SQL_INSTANCE_ID"
# sql_database_id = "YOUR_SQL_DATABASE_ID"
# sql_table_id = "YOUR_SQL_TABLE_ID"

#  For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    cloud_sql_source=discoveryengine.CloudSqlSource(
        project_id=sql_project_id,
        instance_id=sql_instance_id,
        database_id=sql_database_id,
        table_id=sql_table_id,
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Pasos siguientes

Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en Crear una aplicación de búsqueda.
Para ver una vista previa de cómo aparecerán los resultados de búsqueda después de configurar tu aplicación y tu almacén de datos, consulta Obtener resultados de búsqueda.

Importar desde Spanner

Para ingerir datos de Spanner, sigue estos pasos para crear un almacén de datos e ingerir datos mediante la Google Cloud consola o la API.

Configurar el acceso a Spanner desde otro proyecto

Si tus datos de Spanner están en el mismo proyecto que Vertex AI Search, ve a Importar datos de Spanner.

Para dar acceso a Vertex AI Search a datos de Spanner que se encuentren en otro proyecto, sigue estos pasos:

Sustituye la siguiente variable PROJECT_NUMBER por el número de tu proyecto de búsqueda de Vertex AI y, a continuación, copia el contenido de este bloque de código. Este es el identificador de tu cuenta de servicio de Vertex AI Search:
```
service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
```
Ve a la página IAM y administración.

IAM y administración
Cambia al proyecto de Spanner en la página IAM y administración y haz clic en Conceder acceso.
En Principales nuevas, introduce el identificador de la cuenta de servicio y selecciona una de las siguientes opciones:
- Si no vas a usar Data Boost durante la importación, selecciona el rol Cloud Spanner > Lector de las bases de datos de Cloud Spanner.
- Si tienes previsto usar Data Boost durante la importación, selecciona el rol Administrador de bases de datos de Cloud Spanner o un rol personalizado con los permisos de Lector de bases de datos de Cloud Spanner y spanner.databases.useDataBoost. Para obtener información sobre Data Boost, consulta la descripción general de Data Boost en la documentación de Spanner.
Haz clic en Guardar.

A continuación, ve a Importar datos de Spanner.

Importar datos de Spanner

Consola

Para usar la consola y obtener datos de Spanner, sigue estos pasos:

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
Vaya a la página Almacenes de datos.
Haz clic en Nuevo almacén de datos.
En la página Fuente, selecciona Cloud Spanner.
Especifique el ID del proyecto, el ID de la instancia, el ID de la base de datos y el ID de la tabla de los datos que quiere importar.
Selecciona si quieres activar Data Boost. Para obtener información sobre Data Boost, consulta la descripción general de Data Boost en la documentación de Spanner.
Haz clic en Continuar.
Elige una región para tu almacén de datos.
Escribe el nombre del almacén de datos.
Haz clic en Crear.
Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del almacén de datos para ver los detalles en la página Datos. Cuando el estado de la columna de la pestaña Actividad cambie de En curso a Importación completada, la ingesta habrá finalizado.

En función del tamaño de los datos, la ingestión puede tardar varios minutos o varias horas.

REST

Para usar la línea de comandos para crear un almacén de datos e ingerir datos de Spanner, sigue estos pasos:

Crea un almacén de datos.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
  "contentConfig": "CONTENT_REQUIRED",
}'

Haz los cambios siguientes:

PROJECT_ID: el ID de tu proyecto de Vertex AI Search.
DATA_STORE_ID: el ID del almacén de datos. El ID solo puede contener letras minúsculas, dígitos, guiones bajos y guiones.
DISPLAY_NAME: el nombre visible del almacén de datos. Puede que se muestre en la consola Google Cloud .

Nota: El sector vertical GENERIC se usa para crear almacenes de datos estructurados, no estructurados y de sitios web para aplicaciones de búsqueda personalizadas.

Importar datos de Spanner.
```
  curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
  -d '{
    "cloudSpannerSource": {
      "projectId": "SPANNER_PROJECT_ID",
      "instanceId": "INSTANCE_ID",
      "databaseId": "DATABASE_ID",
      "tableId": "TABLE_ID",
      "enableDataBoost": "DATA_BOOST_BOOLEAN"
    },
    "reconciliationMode": "RECONCILIATION_MODE",
    "autoGenerateIds": "AUTO_GENERATE_IDS",
    "idField": "ID_FIELD",
  }'
```
Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto de Vertex AI Search.
- DATA_STORE_ID: el ID del almacén de datos.
- SPANNER_PROJECT_ID: el ID de tu proyecto de Spanner.
- INSTANCE_ID: el ID de tu instancia de Spanner.
- DATABASE_ID: el ID de tu base de datos de Spanner.
- TABLE_ID: el ID de tu tabla de Spanner.
- DATA_BOOST_BOOLEAN: opcional. Si quieres activar Data Boost. Para obtener información sobre Acelerador de datos, consulta la descripción general de Acelerador de datos en la documentación de Spanner.
- RECONCILIATION_MODE: opcional. Los valores son FULL y INCREMENTAL. El valor predeterminado es INCREMENTAL. Si especifica INCREMENTAL, se realizará una actualización incremental de los datos de Spanner a su almacén de datos. Esta acción realiza una operación de upsert, que añade documentos nuevos y sustituye los documentos que ya existen por documentos actualizados con el mismo ID. Si especificas FULL, se volverán a basar todos los documentos de tu almacén de datos. Es decir, los documentos nuevos y actualizados se añaden a tu almacén de datos, y los documentos que no están en Spanner se eliminan de tu almacén de datos. El modo FULL es útil si quieres eliminar automáticamente los documentos que ya no necesitas.
- AUTO_GENERATE_IDS: opcional. Especifica si se deben generar automáticamente los IDs de los documentos. Si se define como true, los IDs de documento se generan a partir de un hash de la carga útil. Ten en cuenta que es posible que los IDs de documento generados no sean coherentes en varias importaciones. Si generas automáticamente IDs en varias importaciones, Google te recomienda que definas reconciliationMode como FULL para mantener IDs de documento coherentes.
- ID_FIELD: opcional. Especifica qué campos son los IDs de documento.

Python

Para obtener más información, consulta la documentación de referencia de la API Python de Vertex AI Search.

Crear un almacén de datos


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importar documentos

from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"
# spanner_project_id = "YOUR_SPANNER_PROJECT_ID"
# spanner_instance_id = "YOUR_SPANNER_INSTANCE_ID"
# spanner_database_id = "YOUR_SPANNER_DATABASE_ID"
# spanner_table_id = "YOUR_SPANNER_TABLE_ID"

#  For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    spanner_source=discoveryengine.SpannerSource(
        project_id=spanner_project_id,
        instance_id=spanner_instance_id,
        database_id=spanner_database_id,
        table_id=spanner_table_id,
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Pasos siguientes

Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en Crear una aplicación de búsqueda.
Para ver una vista previa de cómo aparecerán los resultados de búsqueda después de configurar tu aplicación y tu almacén de datos, consulta Obtener resultados de búsqueda.

Importar desde Firestore

Para ingerir datos de Firestore, sigue estos pasos para crear un almacén de datos e ingerir datos con la Google Cloud consola o la API.

Si tus datos de Firestore están en el mismo proyecto que Vertex AI Search, ve a Importar datos de Firestore.

Si tus datos de Firestore están en un proyecto distinto al de Vertex AI Search, consulta Configurar el acceso a Firestore.

Configurar el acceso a Firestore desde otro proyecto

Para dar acceso a Vertex AI Search a los datos de Firestore que se encuentran en otro proyecto, sigue estos pasos:

Sustituye la siguiente variable PROJECT_NUMBER por el número de tu proyecto de búsqueda de Vertex AI y, a continuación, copia el contenido de este bloque de código. Este es el identificador de tu cuenta de servicio de Vertex AI Search:
```
service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
```
Ve a la página IAM y administración.

IAM y administración
Cambia al proyecto de Firestore en la página IAM y administración y haz clic en Conceder acceso.
En Nuevos principales, introduce el identificador de la cuenta de servicio de la instancia y selecciona el rol Datastore > Cloud Datastore Import Export Admin (Datastore > Administrador de importación y exportación de Cloud Datastore).
Haz clic en Guardar.
Vuelve a tu proyecto de Vertex AI Search.

A continuación, ve a Importar datos de Firestore.

Importar datos de Firestore

Consola

Para usar la consola y extraer datos de Firestore, sigue estos pasos:

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
Vaya a la página Almacenes de datos.
Haz clic en Nuevo almacén de datos.
En la página Fuente, selecciona Firestore.
Especifica el ID del proyecto, el ID de la base de datos y el ID de la colección de los datos que quieras importar.
Haz clic en Continuar.
Elige una región para tu almacén de datos.
Escribe el nombre del almacén de datos.
Haz clic en Crear.
Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del almacén de datos para ver los detalles en la página Datos. Cuando el estado de la columna de la pestaña Actividad cambie de En curso a Importación completada, la ingesta habrá finalizado.

En función del tamaño de los datos, la ingestión puede tardar varios minutos o varias horas.

REST

Para usar la línea de comandos para crear un almacén de datos e ingerir datos de Firestore, sigue estos pasos:

Crea un almacén de datos.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
}'
```
Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto.
- DATA_STORE_ID: el ID del almacén de datos. El ID solo puede contener letras minúsculas, dígitos, guiones bajos y guiones.
- DISPLAY_NAME: el nombre visible del almacén de datos. Puede que se muestre en la consola Google Cloud .
Nota: El sector vertical GENERIC se usa para crear almacenes de datos estructurados, no estructurados y de sitios web para aplicaciones de búsqueda personalizadas.
Importar datos de Firestore.
```
  curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
  -d '{
    "firestoreSource": {
      "projectId": "FIRESTORE_PROJECT_ID",
      "databaseId": "DATABASE_ID",
      "collectionId": "COLLECTION_ID",
    },
    "reconciliationMode": "RECONCILIATION_MODE",
    "autoGenerateIds": "AUTO_GENERATE_IDS",
    "idField": "ID_FIELD",
  }'
```
Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto de Vertex AI Search.
- DATA_STORE_ID: el ID del almacén de datos. El ID solo puede contener letras minúsculas, dígitos, guiones bajos y guiones.
- FIRESTORE_PROJECT_ID: el ID de tu proyecto de Firestore.
- DATABASE_ID: el ID de tu base de datos de Firestore.
- COLLECTION_ID: el ID de tu colección de Firestore.
- RECONCILIATION_MODE: opcional. Los valores son FULL y INCREMENTAL. El valor predeterminado es INCREMENTAL. Si especificas INCREMENTAL , se realizará una actualización incremental de los datos de Firestore a tu almacén de datos. De esta forma, se realiza una operación upsert, que añade documentos nuevos y sustituye los documentos que ya existen por documentos actualizados con el mismo ID. Si especificas FULL, se volverán a basar por completo los documentos de tu almacén de datos. Es decir, los documentos nuevos y actualizados se añaden a tu almacén de datos, y los documentos que no están en Firestore se eliminan de él. El modo FULL es útil si quieres eliminar automáticamente los documentos que ya no necesitas.
- AUTO_GENERATE_IDS: opcional. Especifica si se deben generar automáticamente los IDs de los documentos. Si se define como true, los IDs de documento se generan a partir de un hash de la carga útil. Ten en cuenta que es posible que los IDs de documento generados no sean coherentes en varias importaciones. Si generas automáticamente IDs en varias importaciones, Google te recomienda que definas reconciliationMode como FULL para mantener IDs de documento coherentes.
- ID_FIELD: opcional. Especifica qué campos son los IDs de documento.

Python

Para obtener más información, consulta la documentación de referencia de la API Python de Vertex AI Search.

Crear un almacén de datos


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importar documentos

from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"
# firestore_project_id = "YOUR_FIRESTORE_PROJECT_ID"
# firestore_database_id = "YOUR_FIRESTORE_DATABASE_ID"
# firestore_collection_id = "YOUR_FIRESTORE_COLLECTION_ID"

#  For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    firestore_source=discoveryengine.FirestoreSource(
        project_id=firestore_project_id,
        database_id=firestore_database_id,
        collection_id=firestore_collection_id,
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Pasos siguientes

Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en Crear una aplicación de búsqueda.
Para ver una vista previa de cómo aparecerán los resultados de búsqueda después de configurar tu aplicación y tu almacén de datos, consulta Obtener resultados de búsqueda.

Importar de Bigtable

Para ingerir datos de Bigtable, siga estos pasos para crear un almacén de datos e ingerir datos mediante la API.

Configurar el acceso a Bigtable

Para dar acceso a Vertex AI Search a los datos de Bigtable que se encuentran en otro proyecto, sigue estos pasos:

Sustituye la siguiente variable PROJECT_NUMBER por el número de tu proyecto de búsqueda de Vertex AI y, a continuación, copia el contenido de este bloque de código. Este es el identificador de tu cuenta de servicio de Vertex AI Search:
```
service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com`
```
Ve a la página IAM y administración.

IAM y administración
Cambia a tu proyecto de Bigtable en la página IAM y administración y haz clic en Conceder acceso.
En Principales nuevas, introduce el identificador de la cuenta de servicio de la instancia y selecciona el rol Bigtable > Lector de Bigtable.
Haz clic en Guardar.
Vuelve a tu proyecto de Vertex AI Search.

A continuación, ve a Importar datos de Bigtable.

Importar datos de Bigtable

REST

Para usar la línea de comandos para crear un almacén de datos e ingerir datos de Bigtable, sigue estos pasos:

Crea un almacén de datos.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
}'
```
Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto.
- DATA_STORE_ID: el ID del almacén de datos. El ID solo puede contener letras minúsculas, dígitos, guiones bajos y guiones.
- DISPLAY_NAME: el nombre visible del almacén de datos. Puede que se muestre en la consola Google Cloud .
Nota: El sector vertical GENERIC se usa para crear almacenes de datos estructurados, no estructurados y de sitios web para aplicaciones de búsqueda personalizadas.
Importa datos de Bigtable.
```
  curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
  -d '{
    "bigtableSource ": {
      "projectId": "BIGTABLE_PROJECT_ID",
      "instanceId": "INSTANCE_ID",
      "tableId": "TABLE_ID",
      "bigtableOptions": {
        "keyFieldName": "KEY_FIELD_NAME",
        "families": {
          "key": "KEY",
          "value": {
            "fieldName": "FIELD_NAME",
            "encoding": "ENCODING",
            "type": "TYPE",
            "columns": [
              {
                "qualifier": "QUALIFIER",
                "fieldName": "FIELD_NAME",
                "encoding": "COLUMN_ENCODING",
                "type": "COLUMN_VALUES_TYPE"
              }
            ]
          }
         }
         ...
      }
    },
    "reconciliationMode": "RECONCILIATION_MODE",
    "autoGenerateIds": "AUTO_GENERATE_IDS",
    "idField": "ID_FIELD",
  }'
```
Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto de Vertex AI Search.
- DATA_STORE_ID: el ID del almacén de datos. El ID solo puede contener letras minúsculas, dígitos, guiones bajos y guiones.
- BIGTABLE_PROJECT_ID: el ID de tu proyecto de Bigtable.
- INSTANCE_ID: el ID de tu instancia de Bigtable.
- TABLE_ID: el ID de tu tabla de Bigtable.
- KEY_FIELD_NAME: opcional, pero recomendado. Nombre del campo que se va a usar para el valor de la clave de fila después de la ingestión en Vertex AI Search.
- KEY: obligatorio. Valor de cadena de la clave de la familia de columnas.
- ENCODING: opcional. El modo de codificación de los valores cuando el tipo no es STRING.Se puede anular en una columna específica si se incluye en columns y se especifica una codificación para ella.
- COLUMN_TYPE: opcional. El tipo de valores de esta familia de columnas.
- QUALIFIER: obligatorio. Calificador de la columna.
- FIELD_NAME: opcional, pero recomendado. Nombre del campo que se usará para esta columna después de la ingestión en Vertex AI Search.
- COLUMN_ENCODING: opcional. El modo de codificación de los valores de una columna específica cuando el tipo no es STRING.
- RECONCILIATION_MODE: opcional. Los valores son FULL y INCREMENTAL. El valor predeterminado es INCREMENTAL. Si especificas INCREMENTAL , se realizará una actualización incremental de los datos de Bigtable a tu almacén de datos. De esta forma, se realiza una operación upsert, que añade documentos nuevos y sustituye los documentos que ya existen por documentos actualizados con el mismo ID. Si especificas FULL, se volverán a basar todos los documentos de tu almacén de datos. Es decir, los documentos nuevos y actualizados se añaden a tu almacén de datos, y los documentos que no están en Bigtable se eliminan de tu almacén de datos. El modo FULL es útil si quieres eliminar automáticamente los documentos que ya no necesitas.
- AUTO_GENERATE_IDS: opcional. Especifica si se deben generar automáticamente los IDs de los documentos. Si se define como true, los IDs de documento se generan a partir de un hash de la carga útil. Ten en cuenta que es posible que los IDs de documento generados no sean coherentes en varias importaciones. Si generas automáticamente IDs en varias importaciones, Google te recomienda que definas reconciliationMode como FULL para mantener IDs de documento coherentes.
  
  Especifica autoGenerateIds solo cuando bigquerySource.dataSchema se defina como custom. De lo contrario, se devuelve un error INVALID_ARGUMENT. Si no especificas autoGenerateIds o lo defines como false, debes especificar idField. De lo contrario, no se podrán importar los documentos.
- ID_FIELD: opcional. Especifica qué campos son los IDs de documento.

Python

Para obtener más información, consulta la documentación de referencia de la API Python de Vertex AI Search.

Crear un almacén de datos


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importar documentos

from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"
# bigtable_project_id = "YOUR_BIGTABLE_PROJECT_ID"
# bigtable_instance_id = "YOUR_BIGTABLE_INSTANCE_ID"
# bigtable_table_id = "YOUR_BIGTABLE_TABLE_ID"

#  For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

bigtable_options = discoveryengine.BigtableOptions(
    families={
        "family_name_1": discoveryengine.BigtableOptions.BigtableColumnFamily(
            type_=discoveryengine.BigtableOptions.Type.STRING,
            encoding=discoveryengine.BigtableOptions.Encoding.TEXT,
            columns=[
                discoveryengine.BigtableOptions.BigtableColumn(
                    qualifier="qualifier_1".encode("utf-8"),
                    field_name="field_name_1",
                ),
            ],
        ),
        "family_name_2": discoveryengine.BigtableOptions.BigtableColumnFamily(
            type_=discoveryengine.BigtableOptions.Type.INTEGER,
            encoding=discoveryengine.BigtableOptions.Encoding.BINARY,
        ),
    }
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    bigtable_source=discoveryengine.BigtableSource(
        project_id=bigtable_project_id,
        instance_id=bigtable_instance_id,
        table_id=bigtable_table_id,
        bigtable_options=bigtable_options,
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Pasos siguientes

Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en Crear una aplicación de búsqueda.
Para ver una vista previa de cómo aparecerán los resultados de búsqueda después de configurar tu aplicación y tu almacén de datos, consulta Obtener resultados de búsqueda.

Importar desde AlloyDB para PostgreSQL

Para ingerir datos de AlloyDB para PostgreSQL, sigue estos pasos para crear un almacén de datos e ingerir datos mediante la Google Cloud consola o la API.

Si tus datos de AlloyDB para PostgreSQL están en el mismo proyecto que el proyecto de búsqueda de Vertex AI, ve a Importar datos de AlloyDB para PostgreSQL.

Si tus datos de AlloyDB para PostgreSQL están en un proyecto distinto al de tu proyecto de búsqueda de Vertex AI, ve a Configurar el acceso a AlloyDB para PostgreSQL.

Configurar el acceso a AlloyDB para PostgreSQL desde otro proyecto

Para dar acceso a Vertex AI Search a los datos de AlloyDB para PostgreSQL que se encuentran en otro proyecto, sigue estos pasos:

Sustituye la siguiente variable PROJECT_NUMBER por el número de tu proyecto de búsqueda de Vertex AI y, a continuación, copia el contenido de este bloque de código. Este es el identificador de tu cuenta de servicio de Vertex AI Search:
```
service-PROJECT_NUMBER@gcp-sa-discoveryengine.iam.gserviceaccount.com
```
Cambia al Google Cloud proyecto en el que se encuentran tus datos de AlloyDB para PostgreSQL.
Ve a la página Gestión de identidades y accesos.

IAM
Haz clic en Conceder acceso.
En Principales nuevas, introduce el identificador de la cuenta de servicio de Vertex AI Search y selecciona el rol Cloud AlloyDB > Administrador de Cloud AlloyDB.
Haz clic en Guardar.
Vuelve a tu proyecto de Vertex AI Search.

A continuación, ve a Importar datos de AlloyDB para PostgreSQL.

Importar datos de AlloyDB para PostgreSQL

Consola

Para usar la consola y obtener datos de AlloyDB para PostgreSQL, sigue estos pasos:

En la Google Cloud consola, ve a la página Aplicaciones de IA.

Aplicaciones de IA
En el menú de navegación, haga clic en Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona AlloyDB.
Especifique el ID del proyecto, el ID de la ubicación, el ID del clúster, el ID de la base de datos y el ID de la tabla de los datos que quiere importar.
Haz clic en Continuar.
Elige una región para tu almacén de datos.
Escribe el nombre del almacén de datos.
Haz clic en Crear.
Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del almacén de datos para ver los detalles en la página Datos. Cuando el estado de la columna de la pestaña Actividad cambie de En curso a Importación completada, la ingesta habrá finalizado.

En función del tamaño de los datos, la ingestión puede tardar varios minutos o varias horas.

REST

Para usar la línea de comandos para crear un almacén de datos e ingerir datos de AlloyDB para PostgreSQL, siga estos pasos:

Crea un almacén de datos.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
}'
```
Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto.
- DATA_STORE_ID: el ID del almacén de datos. El ID solo puede contener letras minúsculas, dígitos, guiones bajos y guiones.
- DISPLAY_NAME: el nombre visible del almacén de datos. Puede que se muestre en la consola Google Cloud .
Nota: El sector vertical GENERIC se usa para crear almacenes de datos estructurados, no estructurados y de sitios web para aplicaciones de búsqueda personalizadas.
Importa datos de AlloyDB para PostgreSQL.
```
  curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
  -d '{
    "alloydbSource": {
      "projectId": "ALLOYDB_PROJECT_ID",
      "locationId": "LOCATION_ID",
      "clusterId": "CLUSTER_ID",
      "databaseId": "DATABASE_ID",
      "tableId": "TABLE_ID",
    },
    "reconciliationMode": "RECONCILIATION_MODE",
    "autoGenerateIds": "AUTO_GENERATE_IDS",
    "idField": "ID_FIELD",
  }'
```
Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto de Vertex AI Search.
- DATA_STORE_ID: el ID del almacén de datos. El ID solo puede contener letras minúsculas, dígitos, guiones bajos y guiones.
- ALLOYDB_PROJECT_ID: el ID de tu proyecto de AlloyDB para PostgreSQL.
- LOCATION_ID: el ID de tu ubicación de AlloyDB para PostgreSQL.
- CLUSTER_ID: el ID de tu clúster de AlloyDB para PostgreSQL.
- DATABASE_ID: el ID de tu base de datos de AlloyDB para PostgreSQL.
- TABLE_ID: el ID de tu tabla de AlloyDB para PostgreSQL.
- RECONCILIATION_MODE: opcional. Los valores son FULL y INCREMENTAL. El valor predeterminado es INCREMENTAL. Si especificas INCREMENTAL , se realizará una actualización incremental de los datos de AlloyDB para PostgreSQL a tu almacén de datos. De esta forma, se realiza una operación upsert, que añade documentos nuevos y sustituye los documentos que ya existen por documentos actualizados con el mismo ID. Si especificas FULL, se volverán a basar por completo los documentos de tu almacén de datos. Es decir, los documentos nuevos y actualizados se añaden a tu almacén de datos, y los documentos que no están en AlloyDB para PostgreSQL se eliminan de él. El modo FULL es útil si quieres eliminar automáticamente los documentos que ya no necesitas.
- AUTO_GENERATE_IDS: opcional. Especifica si se deben generar automáticamente los IDs de los documentos. Si se define como true, los IDs de documento se generan a partir de un hash de la carga útil. Ten en cuenta que es posible que los IDs de documento generados no sean coherentes en varias importaciones. Si generas automáticamente IDs en varias importaciones, Google te recomienda que definas reconciliationMode como FULL para mantener IDs de documento coherentes.
- ID_FIELD: opcional. Especifica qué campos son los IDs de documento.

Python

Para obtener más información, consulta la documentación de referencia de la API Python de Vertex AI Search.

Crear un almacén de datos


from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"


def create_data_store_sample(
    project_id: str,
    location: str,
    data_store_id: str,
) -> str:
    #  For more information, refer to:
    # https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
    client_options = (
        ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
        if location != "global"
        else None
    )

    # Create a client
    client = discoveryengine.DataStoreServiceClient(client_options=client_options)

    # The full resource name of the collection
    # e.g. projects/{project}/locations/{location}/collections/default_collection
    parent = client.collection_path(
        project=project_id,
        location=location,
        collection="default_collection",
    )

    data_store = discoveryengine.DataStore(
        display_name="My Data Store",
        # Options: GENERIC, MEDIA, HEALTHCARE_FHIR
        industry_vertical=discoveryengine.IndustryVertical.GENERIC,
        # Options: SOLUTION_TYPE_RECOMMENDATION, SOLUTION_TYPE_SEARCH, SOLUTION_TYPE_CHAT, SOLUTION_TYPE_GENERATIVE_CHAT
        solution_types=[discoveryengine.SolutionType.SOLUTION_TYPE_SEARCH],
        # TODO(developer): Update content_config based on data store type.
        # Options: NO_CONTENT, CONTENT_REQUIRED, PUBLIC_WEBSITE
        content_config=discoveryengine.DataStore.ContentConfig.CONTENT_REQUIRED,
    )

    request = discoveryengine.CreateDataStoreRequest(
        parent=parent,
        data_store_id=data_store_id,
        data_store=data_store,
        # Optional: For Advanced Site Search Only
        # create_advanced_site_search=True,
    )

    # Make the request
    operation = client.create_data_store(request=request)

    print(f"Waiting for operation to complete: {operation.operation.name}")
    response = operation.result()

    # After the operation is complete,
    # get information from operation metadata
    metadata = discoveryengine.CreateDataStoreMetadata(operation.metadata)

    # Handle the response
    print(response)
    print(metadata)

    return operation.operation.name

Importar documentos

from google.api_core.client_options import ClientOptions
from google.cloud import discoveryengine_v1 as discoveryengine

# TODO(developer): Uncomment these variables before running the sample.
# project_id = "YOUR_PROJECT_ID"
# location = "YOUR_LOCATION" # Values: "global"
# data_store_id = "YOUR_DATA_STORE_ID"
# alloy_db_project_id = "YOUR_ALLOY_DB_PROJECT_ID"
# alloy_db_location_id = "YOUR_ALLOY_DB_LOCATION_ID"
# alloy_db_cluster_id = "YOUR_ALLOY_DB_CLUSTER_ID"
# alloy_db_database_id = "YOUR_ALLOY_DB_DATABASE_ID"
# alloy_db_table_id = "YOUR_ALLOY_DB_TABLE_ID"

# For more information, refer to:
# https://cloud.google.com/generative-ai-app-builder/docs/locations#specify_a_multi-region_for_your_data_store
client_options = (
    ClientOptions(api_endpoint=f"{location}-discoveryengine.googleapis.com")
    if location != "global"
    else None
)

# Create a client
client = discoveryengine.DocumentServiceClient(client_options=client_options)

# The full resource name of the search engine branch.
# e.g. projects/{project}/locations/{location}/dataStores/{data_store_id}/branches/{branch}
parent = client.branch_path(
    project=project_id,
    location=location,
    data_store=data_store_id,
    branch="default_branch",
)

request = discoveryengine.ImportDocumentsRequest(
    parent=parent,
    alloy_db_source=discoveryengine.AlloyDbSource(
        project_id=alloy_db_project_id,
        location_id=alloy_db_location_id,
        cluster_id=alloy_db_cluster_id,
        database_id=alloy_db_database_id,
        table_id=alloy_db_table_id,
    ),
    # Options: `FULL`, `INCREMENTAL`
    reconciliation_mode=discoveryengine.ImportDocumentsRequest.ReconciliationMode.INCREMENTAL,
)

# Make the request
operation = client.import_documents(request=request)

print(f"Waiting for operation to complete: {operation.operation.name}")
response = operation.result()

# After the operation is complete,
# get information from operation metadata
metadata = discoveryengine.ImportDocumentsMetadata(operation.metadata)

# Handle the response
print(response)
print(metadata)

Pasos siguientes

Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en Crear una aplicación de búsqueda.
Para ver una vista previa de cómo aparecerán los resultados de búsqueda después de configurar tu aplicación y tu almacén de datos, consulta Obtener resultados de búsqueda.

Subir datos JSON estructurados con la API

Para subir directamente un documento o un objeto JSON mediante la API, sigue estos pasos.

Antes de importar los datos, prepáralos para la ingesta.

REST

Para crear un almacén de datos e importar datos JSON estructurados mediante la línea de comandos, sigue estos pasos.

Crea un almacén de datos.
```
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
-d '{
  "displayName": "DATA_STORE_DISPLAY_NAME",
  "industryVertical": "GENERIC",
  "solutionTypes": ["SOLUTION_TYPE_SEARCH"]
}'
```
Haz los cambios siguientes:
- PROJECT_ID: el ID de tu proyecto de Google Cloud .
- DATA_STORE_ID: el ID del almacén de datos de Vertex AI Search que quieres crear. Este ID solo puede contener letras en minúscula, números, guiones bajos y guiones.
- DATA_STORE_DISPLAY_NAME: el nombre visible del almacén de datos de Vertex AI Search que quieres crear.
Nota: El sector vertical GENERIC se usa para crear almacenes de datos estructurados, no estructurados y de sitios web para aplicaciones de búsqueda personalizadas.

Importar datos estructurados.

Hay varios métodos que puedes usar para subir datos, entre los que se incluyen los siguientes:

Sube un documento JSON.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \
-d '{
  "jsonData": "JSON_DOCUMENT_STRING"
}'

Haz los cambios siguientes:

DOCUMENT_ID: un ID único del documento. Este ID puede tener hasta 63 caracteres y solo puede contener letras minúsculas, dígitos, guiones bajos y guiones.
JSON_DOCUMENT_STRING: el documento JSON como una sola cadena. Debe ajustarse al esquema JSON que ha proporcionado en el paso anterior. Por ejemplo:
```
{ \"title\": \"test title\", \"categories\": [\"cat_1\", \"cat_2\"], \"uri\": \"test uri\"}
```

Sube un objeto JSON.

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \
-d '{
  "structData": JSON_DOCUMENT_OBJECT
}'

Sustituye JSON_DOCUMENT_OBJECT por el documento JSON como objeto JSON. Debe ajustarse al esquema JSON que has proporcionado en el paso anterior. Por ejemplo:

 {
   "title": "test title",
   "categories": [
     "cat_1",
     "cat_2"
   ],
   "uri": "test uri"
 }

Actualizar con un documento JSON.

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \
-d '{
  "jsonData": "JSON_DOCUMENT_STRING"
}'

Actualizar con un objeto JSON.

curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \
-d '{
  "structData": JSON_DOCUMENT_OBJECT
}'

Pasos siguientes

Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en Crear una aplicación de búsqueda.
Para ver una vista previa de cómo aparecerán los resultados de búsqueda después de configurar tu aplicación y tu almacén de datos, consulta Obtener resultados de búsqueda.

Solucionar problemas de ingestión de datos

Si tienes problemas con la ingesta de datos, consulta estos consejos:

Si usas claves de cifrado gestionadas por el cliente y la importación de datos falla (con el mensaje de error The caller does not have permission), asegúrate de que el rol de gestión de identidades y accesos (IAM) de cifrado o descifrado de CryptoKey (roles/cloudkms.cryptoKeyEncrypterDecrypter) de la clave se haya asignado al agente de servicio de Cloud Storage. Para obtener más información, consulta la sección Antes de empezar del artículo "Claves de cifrado gestionadas por el cliente".
Si utiliza la indexación avanzada de sitios web y el Uso de documentos del almacén de datos es mucho menor de lo esperado, revise los patrones de URL que ha especificado para la indexación y asegúrese de que cubren las páginas que quiere indexar. Amplíelos si es necesario. Por ejemplo, si has usado *.en.example.com/*, puede que tengas que añadir *.example.com/* a los sitios que quieras indexar.

Crear un almacén de datos con Terraform

Puedes usar Terraform para crear un almacén de datos vacío. Una vez creado el almacén de datos vacío, puedes ingerir datos en él mediante la Google Cloud consola o comandos de la API.

Para saber cómo aplicar o quitar una configuración de Terraform, consulta Comandos básicos de Terraform.

Para crear un almacén de datos vacío con Terraform, consulta google_discovery_engine_data_store.

Conectar una fuente de datos de terceros

La conexión de fuentes de datos de terceros a Vertex AI Search es una función que solo está disponible para los usuarios incluidos en la lista de permitidos.

Si estás en la lista de permitidos cerrada de esta función, consulta las instrucciones sobre cómo conectar una fuente de datos de terceros en la documentación de Gemini Enterprise. Los procedimientos son los mismos tanto si creas conectores en Vertex AI Search como en Gemini Enterprise.