Para crear un almacén de datos e ingerir datos para recomendaciones personalizadas, ve a la sección de la fuente que quieras usar:
BigQuery
Puede crear almacenes de datos a partir de tablas de BigQuery de dos formas:
Ingestión única: importa datos de una tabla de BigQuery a un almacén de datos. Los datos del almacén de datos no cambian a menos que actualices los datos manualmente.
Ingestión periódica: importa datos de una o varias tablas de BigQuery y define una frecuencia de sincronización que determina la frecuencia con la que se actualizan los almacenes de datos con los datos más recientes del conjunto de datos de BigQuery.
En la siguiente tabla se comparan las dos formas de importar datos de BigQuery a los almacenes de datos de Vertex AI Search.
Ingestión única | Ingestión periódica |
---|---|
Disponible de forma general. | Vista previa pública. |
Los datos deben actualizarse manualmente. | Los datos se actualizan automáticamente cada 1, 3 o 5 días. Los datos no se pueden actualizar manualmente. |
Vertex AI Search crea un único almacén de datos a partir de una tabla de BigQuery. | Vertex AI Search crea un conector de datos para un conjunto de datos de BigQuery y un almacén de datos (denominado almacén de datos de entidades) para cada tabla especificada. En cada conector de datos, las tablas deben tener el mismo tipo de datos (por ejemplo, estructurados) y estar en el mismo conjunto de datos de BigQuery. |
Los datos de varias tablas se pueden combinar en un único almacén de datos. Para ello, primero se ingieren los datos de una tabla y, después, se añaden más datos de otra fuente o tabla de BigQuery. | Como no se admite la importación manual de datos, los datos de un almacén de datos de entidad solo se pueden obtener de una tabla de BigQuery. |
Se admite el control de acceso a fuentes de datos. | No se admite el control de acceso a la fuente de datos. Los datos importados pueden contener controles de acceso, pero estos controles no se respetarán. |
Puedes crear un almacén de datos con la consola o la API.Google Cloud | Debes usar la consola para crear conectores de datos y sus almacenes de datos de entidades. |
Cumple los requisitos de CMEK. | Cumple los requisitos de CMEK. |
Importar una vez desde BigQuery
Para ingerir datos de una tabla de BigQuery, sigue estos pasos para crear un almacén de datos e ingerir datos mediante la Google Cloud consola o la API.
Antes de importar los datos, consulta el artículo Preparar datos para la ingestión.
Consola
Para usar la consola y extraer datos de BigQuery, sigue estos pasos: Google Cloud
En la Google Cloud consola, ve a la página Aplicaciones de IA.
Vaya a la página Almacenes de datos.
Haz clic en
Crear almacén de datos.En la página Fuente, selecciona BigQuery.
Seleccione el tipo de datos que va a importar en la sección ¿Qué tipo de datos va a importar?.
Selecciona Una vez en la sección Frecuencia de sincronización.
En el campo Ruta de BigQuery, haz clic en Examinar, selecciona una tabla que hayas preparado para la ingesta y, a continuación, haz clic en Seleccionar. También puedes introducir la ubicación de la tabla directamente en el campo Ruta de BigQuery.
Haz clic en Continuar.
Si vas a importar datos estructurados una sola vez, sigue estos pasos:
Asigna campos a propiedades clave.
Si faltan campos importantes en el esquema, usa Añadir nuevo campo para añadirlos.
Para obtener más información, consulta Acerca de la detección automática y la edición.
Haz clic en Continuar.
Elige una región para tu almacén de datos.
Escriba el nombre del almacén de datos.
Haz clic en Crear.
Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del almacén de datos para ver los detalles en la página Datos. Cuando el estado de la columna de la pestaña Actividad cambie de En curso a Importación completada, la ingestión habrá finalizado.
En función del tamaño de los datos, la ingestión puede tardar desde varios minutos hasta varias horas.
REST
Para usar la línea de comandos para crear un almacén de datos e importar datos de BigQuery, sigue estos pasos.
Crea un almacén de datos.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Haz los cambios siguientes:
PROJECT_ID
: el ID de tu proyecto de Google Cloud .DATA_STORE_ID
: el ID del almacén de datos de Vertex AI Search que quieres crear. Este ID solo puede contener letras en minúscula, números, guiones bajos y guiones.DATA_STORE_DISPLAY_NAME
: el nombre visible del almacén de datos de Vertex AI Search que quieres crear.
Importar datos de BigQuery.
Si ha definido un esquema, asegúrese de que los datos se ajusten a él.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Haz los cambios siguientes:
PROJECT_ID
: el ID de tu proyecto de Google Cloud .DATA_STORE_ID
: el ID del almacén de datos de Vertex AI Search.DATASET_ID
: el ID del conjunto de datos de BigQuery.TABLE_ID
: el ID de la tabla de BigQuery.- Si la tabla de BigQuery no está en PROJECT_ID, debes dar a la cuenta de servicio
service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
permiso de "lector de datos de BigQuery" para la tabla de BigQuery. Por ejemplo, si vas a importar una tabla de BigQuery del proyecto de origen "123" al proyecto de destino "456", da permisos aservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
para la tabla de BigQuery del proyecto "123".
- Si la tabla de BigQuery no está en PROJECT_ID, debes dar a la cuenta de servicio
DATA_SCHEMA
: opcional. Los valores sondocument
ycustom
. El valor predeterminado esdocument
.document
: la tabla de BigQuery que utilices debe ajustarse al esquema predeterminado de BigQuery que se proporciona en Preparar datos para la ingesta. Puedes definir el ID de cada documento tú mismo, mientras envuelves todos los datos en la cadena jsonData.custom
: se acepta cualquier esquema de tabla de BigQuery y Vertex AI Search genera automáticamente los IDs de cada documento que se importa.
ERROR_DIRECTORY
: opcional. Un directorio de Cloud Storage con información sobre errores de la importación. Por ejemplo,gs://<your-gcs-bucket>/directory/import_errors
. Google recomienda dejar este campo en blanco para que Vertex AI Search cree automáticamente un directorio temporal.RECONCILIATION_MODE
: opcional. Los valores sonFULL
yINCREMENTAL
. El valor predeterminado esINCREMENTAL
. Si especificasINCREMENTAL
, se realizará una actualización incremental de los datos de BigQuery en tu almacén de datos. De esta forma, se realiza una operación upsert, que añade documentos nuevos y sustituye los documentos que ya existen por documentos actualizados con el mismo ID. Si especificaFULL
, se volverán a basar por completo los documentos de su almacén de datos. Es decir, los documentos nuevos y actualizados se añaden al almacén de datos, y los documentos que no están en BigQuery se eliminan del almacén de datos. El modoFULL
puede ser útil si quieres eliminar automáticamente los documentos que ya no necesitas.AUTO_GENERATE_IDS
: opcional. Especifica si se deben generar automáticamente los IDs de los documentos. Si se define comotrue
, los IDs de documento se generan a partir de un hash de la carga útil. Ten en cuenta que es posible que los IDs de documento generados no sean coherentes en varias importaciones. Si generas automáticamente IDs en varias importaciones, Google te recomienda que definasreconciliationMode
comoFULL
para mantener IDs de documento coherentes.Especifica
autoGenerateIds
solo cuandobigquerySource.dataSchema
se haya definido comocustom
. De lo contrario, se devuelve un errorINVALID_ARGUMENT
. Si no especificaautoGenerateIds
o lo define comofalse
, debe especificaridField
. De lo contrario, no se podrán importar los documentos.ID_FIELD
: opcional. Especifica qué campos son los IDs de documento. En el caso de los archivos de origen de BigQuery,idField
indica el nombre de la columna de la tabla de BigQuery que contiene los IDs de los documentos.Especifica
idField
solo cuando: (1)bigquerySource.dataSchema
se haya definido comocustom
y (2)auto_generate_ids
se haya definido comofalse
o no se haya especificado. De lo contrario, se devuelve un errorINVALID_ARGUMENT
.El valor del nombre de la columna de BigQuery debe ser de tipo string, tener entre 1 y 63 caracteres y cumplir el estándar RFC-1034. De lo contrario, no se podrán importar los documentos.
C#
Para obtener más información, consulta la documentación de referencia de la API AI Applications C#.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Crear un almacén de datos
Importar documentos
Go
Para obtener más información, consulta la documentación de referencia de la API AI Applications Go.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Crear un almacén de datos
Importar documentos
Java
Para obtener más información, consulta la documentación de referencia de la API AI Applications Java.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Crear un almacén de datos
Importar documentos
Node.js
Para obtener más información, consulta la documentación de referencia de la API AI Applications Node.js.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Crear un almacén de datos
Importar documentos
Python
Para obtener más información, consulta la documentación de referencia de la API AI Applications Python.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Crear un almacén de datos
Importar documentos
Ruby
Para obtener más información, consulta la documentación de referencia de la API AI Applications Ruby.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Crear un almacén de datos
Importar documentos
Conectarse a BigQuery con sincronización periódica
Antes de importar los datos, consulta el artículo Preparar datos para la ingestión.
En el siguiente procedimiento se describe cómo crear un conector de datos que asocie un conjunto de datos de BigQuery con un conector de datos de búsqueda de Vertex AI y cómo especificar una tabla en el conjunto de datos para cada almacén de datos que quieras crear. Los almacenes de datos que son elementos secundarios de conectores de datos se denominan almacenes de datos de entidades.
Los datos del conjunto de datos se sincronizan periódicamente con los almacenes de datos de la entidad. Puedes especificar que la sincronización se realice a diario, cada tres días o cada cinco días.
Consola
Para usar la Google Cloud consola y crear un conector que sincronice periódicamente los datos de un conjunto de datos de BigQuery con Vertex AI Search, sigue estos pasos:
En la Google Cloud consola, ve a la página Aplicaciones de IA.
En el menú de navegación, haga clic en Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona BigQuery.
Selecciona el tipo de datos que vas a importar.
Haz clic en Periódica.
Seleccione la Frecuencia de sincronización, es decir, la frecuencia con la que quiere que el conector de Vertex AI Search se sincronice con el conjunto de datos de BigQuery. Puedes cambiar la frecuencia más adelante.
En el campo Ruta del conjunto de datos de BigQuery, haz clic en Buscar y selecciona el conjunto de datos que contiene las tablas que has preparado para la ingesta. También puedes introducir la ubicación de la tabla directamente en el campo Ruta de BigQuery. El formato de la ruta es
projectname.datasetname
.En el campo Tablas que sincronizar, haga clic en Examinar y, a continuación, seleccione una tabla que contenga los datos que quiera incluir en su almacén de datos.
Si hay otras tablas en el conjunto de datos que quieras usar para los almacenes de datos, haz clic en Añadir tabla y especifica también esas tablas.
Haz clic en Continuar.
Elige una región para tu almacén de datos, introduce un nombre para tu conector de datos y haz clic en Crear.
Ya has creado un conector de datos que sincronizará periódicamente los datos con el conjunto de datos de BigQuery. Además, ha creado uno o varios almacenes de datos de entidades. Los almacenes de datos tienen los mismos nombres que las tablas de BigQuery.
Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del conector de datos para ver los detalles en la página Datos > pestaña Actividad de ingestión de datos. Cuando el estado de la columna de la pestaña Actividad cambie de En curso a Completado, la primera ingestión habrá finalizado.
En función del tamaño de los datos, la ingestión puede tardar desde varios minutos hasta varias horas.
Después de configurar la fuente de datos e importar datos por primera vez, el almacén de datos sincroniza los datos de esa fuente con la frecuencia que selecciones durante la configuración. Aproximadamente una hora después de crear el conector de datos, se produce la primera sincronización. La siguiente sincronización se producirá aproximadamente 24, 72 o 120 horas después.
Pasos siguientes
Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en el artículo Crear una aplicación de recomendaciones personalizada.
Para obtener una vista previa o recibir recomendaciones después de configurar tu aplicación y tu almacén de datos, consulta el artículo Recibir recomendaciones.
Cloud Storage
Puede crear almacenes de datos a partir de tablas de Cloud Storage de dos formas:
Ingestión única: importa datos de una carpeta o un archivo de Cloud Storage a un almacén de datos. Los datos del almacén de datos no cambian a menos que actualices los datos manualmente.
Ingestión periódica: importa datos de una carpeta o un archivo de Cloud Storage y define una frecuencia de sincronización que determina con qué frecuencia se actualiza el almacén de datos con los datos más recientes de esa ubicación de Cloud Storage.
En la siguiente tabla se comparan las dos formas de importar datos de Cloud Storage a almacenes de datos de Vertex AI Search.
Ingestión única | Ingestión periódica |
---|---|
Disponible de forma general. | Vista previa pública. |
Los datos deben actualizarse manualmente. | Los datos se actualizan automáticamente cada uno, tres o cinco días. Los datos no se pueden actualizar manualmente. |
Vertex AI Search crea un único almacén de datos a partir de una carpeta o un archivo de Cloud Storage. | Vertex AI Search crea un conector de datos y asocia un almacén de datos (llamado almacén de datos de entidades) con el archivo o la carpeta especificados. Cada conector de datos de Cloud Storage puede tener un único almacén de datos de entidades. |
Para combinar datos de varios archivos, carpetas y segmentos en un único almacén de datos, primero ingiere datos de una ubicación de Cloud Storage y, después, más datos de otra ubicación. | Como no se admite la importación manual de datos, los datos de un almacén de datos de entidad solo se pueden obtener de un archivo o una carpeta de Cloud Storage. |
Se admite el control de acceso a fuentes de datos. Para obtener más información, consulta Control de acceso a fuentes de datos. | No se admite el control de acceso a la fuente de datos. Los datos importados pueden contener controles de acceso, pero estos controles no se respetarán. |
Puedes crear un almacén de datos con la consola o la API.Google Cloud | Debes usar la consola para crear conectores de datos y sus almacenes de datos de entidades. |
Cumple los requisitos de CMEK. | Cumple los requisitos de CMEK. |
Importar una vez desde Cloud Storage
Para ingerir datos de Cloud Storage, sigue estos pasos para crear un almacén de datos e ingerir datos mediante la Google Cloud consola o la API.
Antes de importar los datos, consulta el artículo Preparar datos para la ingestión.
Consola
Para usar la consola y extraer datos de un segmento de Cloud Storage, sigue estos pasos:
En la Google Cloud consola, ve a la página Aplicaciones de IA.
Vaya a la página Almacenes de datos.
Haz clic en
Crear almacén de datos.En la página Fuente, selecciona Cloud Storage.
En la sección Selecciona la carpeta o el archivo que quieras importar, elige Carpeta o Archivo.
Haz clic en Explorar, elige los datos que hayas preparado para la ingesta y, a continuación, haz clic en Seleccionar. También puedes introducir la ubicación directamente en el campo
gs://
.Selecciona el tipo de datos que vas a importar.
Haz clic en Continuar.
Si vas a importar datos estructurados una sola vez, sigue estos pasos:
Asigna campos a propiedades clave.
Si faltan campos importantes en el esquema, usa Añadir nuevo campo para añadirlos.
Para obtener más información, consulta Acerca de la detección automática y la edición.
Haz clic en Continuar.
Elige una región para tu almacén de datos.
Escriba el nombre del almacén de datos.
Opcional: Si has seleccionado documentos no estructurados, puedes seleccionar opciones de análisis y fragmentación para tus documentos. Para comparar los analizadores, consulta Analizar documentos. Para obtener información sobre la fragmentación, consulta Fragmentar documentos para RAG.
El analizador de OCR y el analizador de diseño pueden generar costes adicionales. Consulta los precios de las funciones de Documentos.
Para seleccionar un analizador, despliega Opciones de procesamiento de documentos y especifica las opciones del analizador que quieras usar.
Haz clic en Crear.
Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del almacén de datos para ver los detalles en la página Datos. Cuando el estado de la columna de la pestaña Actividad cambie de En curso a Importación completada, la ingestión habrá finalizado.
En función del tamaño de los datos, la ingestión puede tardar varios minutos o varias horas.
REST
Para crear un almacén de datos e ingerir datos de Cloud Storage mediante la línea de comandos, sigue estos pasos.
Crea un almacén de datos.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Haz los cambios siguientes:
PROJECT_ID
: el ID de tu proyecto de Google Cloud .DATA_STORE_ID
: el ID del almacén de datos de Vertex AI Search que quieres crear. Este ID solo puede contener letras en minúscula, números, guiones bajos y guiones.DATA_STORE_DISPLAY_NAME
: el nombre visible del almacén de datos de Vertex AI Search que quieres crear.
Importa datos de Cloud Storage.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"], "dataSchema": "DATA_SCHEMA", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Haz los cambios siguientes:
PROJECT_ID
: el ID de tu proyecto de Google Cloud .DATA_STORE_ID
: el ID del almacén de datos de Vertex AI Search.INPUT_FILE_PATTERN
: un patrón de archivo de Cloud Storage que contiene tus documentos.En el caso de los datos estructurados o de los datos no estructurados con metadatos, un ejemplo de patrón de archivo de entrada es
gs://<your-gcs-bucket>/directory/object.json
y un ejemplo de patrón que coincide con uno o varios archivos esgs://<your-gcs-bucket>/directory/*.json
.En el caso de los documentos sin estructurar, un ejemplo es
gs://<your-gcs-bucket>/directory/*.pdf
. Cada archivo que coincida con el patrón se convertirá en un documento.Si
<your-gcs-bucket>
no está en PROJECT_ID, debes dar a la cuenta de servicioservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
permisos de "lector de objetos de almacenamiento" para el segmento de Cloud Storage. Por ejemplo, si vas a importar un segmento de Cloud Storage del proyecto de origen "123" al proyecto de destino "456", concede permisosservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
en el segmento de Cloud Storage del proyecto "123".DATA_SCHEMA
: opcional. Los valores sondocument
,custom
,csv
ycontent
. El valor predeterminado esdocument
.document
: sube datos no estructurados con metadatos de documentos no estructurados. Cada línea del archivo debe seguir uno de los siguientes formatos. Puedes definir el ID de cada documento:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
{ "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
custom
: sube archivos JSON para documentos estructurados. Los datos se organizan según un esquema. Puedes especificar el esquema; de lo contrario, se detectará automáticamente. Puedes colocar la cadena JSON del documento en un formato coherente directamente en cada línea y Vertex AI Search generará automáticamente los IDs de cada documento importado.content
: sube documentos no estructurados (PDF, HTML, DOC, TXT y PPTX). El ID de cada documento se genera automáticamente como los primeros 128 bits de SHA256(GCS_URI) codificados como una cadena hexadecimal. Puedes especificar varios patrones de archivo de entrada siempre que los archivos coincidentes no superen el límite de 100.000 archivos.csv
: incluya una fila de encabezado en el archivo CSV, de forma que cada encabezado se corresponda con un campo del documento. Especifica la ruta al archivo CSV en el campoinputUris
.
ERROR_DIRECTORY
: opcional. Un directorio de Cloud Storage con información sobre errores de la importación. Por ejemplo,gs://<your-gcs-bucket>/directory/import_errors
. Google recomienda dejar este campo en blanco para que Vertex AI Search cree automáticamente un directorio temporal.RECONCILIATION_MODE
: opcional. Los valores sonFULL
yINCREMENTAL
. El valor predeterminado esINCREMENTAL
. Si especificasINCREMENTAL
, se realizará una actualización incremental de los datos de Cloud Storage en tu almacén de datos. De esta forma, se realiza una operación upsert, que añade documentos nuevos y sustituye los documentos que ya existen por documentos actualizados con el mismo ID. Si especificasFULL
, se volverán a basar por completo los documentos de tu almacén de datos. Es decir, los documentos nuevos y actualizados se añaden a tu almacén de datos, y los documentos que no están en Cloud Storage se eliminan de él. El modoFULL
es útil si quieres eliminar automáticamente los documentos que ya no necesitas.AUTO_GENERATE_IDS
: opcional. Especifica si se deben generar automáticamente los IDs de los documentos. Si se define comotrue
, los IDs de documento se generan a partir de un hash de la carga útil. Ten en cuenta que es posible que los IDs de documento generados no sean los mismos en varias importaciones. Si generas automáticamente IDs en varias importaciones, Google te recomienda que definasreconciliationMode
comoFULL
para mantener IDs de documento coherentes.Especifica
autoGenerateIds
solo cuandogcsSource.dataSchema
tenga el valorcustom
ocsv
. De lo contrario, se devuelve un errorINVALID_ARGUMENT
. Si no especificaautoGenerateIds
o lo define comofalse
, debe especificaridField
. De lo contrario, no se podrán importar los documentos.ID_FIELD
: opcional. Especifica qué campos son los IDs de documento. En el caso de los documentos de origen de Cloud Storage,idField
especifica el nombre de los campos JSON que son IDs de documento. Por ejemplo, si{"my_id":"some_uuid"}
es el campo de ID de documento de uno de sus documentos, especifique"idField":"my_id"
. Identifica todos los campos JSON con el nombre"my_id"
como IDs de documento.Especifique este campo solo cuando: (1)
gcsSource.dataSchema
tenga el valorcustom
ocsv
, y (2)auto_generate_ids
tenga el valorfalse
o no se haya especificado. De lo contrario, se devuelve un errorINVALID_ARGUMENT
.Ten en cuenta que el valor del campo JSON de Cloud Storage debe ser de tipo string, debe tener entre 1 y 63 caracteres y debe cumplir el estándar RFC-1034. De lo contrario, no se podrán importar los documentos.
Ten en cuenta que el nombre del campo JSON especificado por
id_field
debe ser de tipo cadena, tener entre 1 y 63 caracteres y cumplir el estándar RFC-1034. De lo contrario, no se podrán importar los documentos.
C#
Para obtener más información, consulta la documentación de referencia de la API AI Applications C#.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Crear un almacén de datos
Importar documentos
Go
Para obtener más información, consulta la documentación de referencia de la API AI Applications Go.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Crear un almacén de datos
Importar documentos
Java
Para obtener más información, consulta la documentación de referencia de la API AI Applications Java.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Crear un almacén de datos
Importar documentos
Node.js
Para obtener más información, consulta la documentación de referencia de la API AI Applications Node.js.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Crear un almacén de datos
Importar documentos
Python
Para obtener más información, consulta la documentación de referencia de la API AI Applications Python.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Crear un almacén de datos
Importar documentos
Ruby
Para obtener más información, consulta la documentación de referencia de la API AI Applications Ruby.
Para autenticarte en las aplicaciones de IA, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Crear un almacén de datos
Importar documentos
Conectarse a Cloud Storage con sincronización periódica
Antes de importar los datos, consulta el artículo Preparar datos para la ingestión.
En el siguiente procedimiento se describe cómo crear un conector de datos que asocie una ubicación de Cloud Storage con un conector de datos de Búsqueda de Vertex AI y cómo especificar una carpeta o un archivo de esa ubicación para el almacén de datos que quieras crear. Los almacenes de datos que son elementos secundarios de los conectores de datos se denominan almacenes de datos de entidades.
Los datos se sincronizan periódicamente con el almacén de datos de la entidad. Puedes especificar que la sincronización se realice a diario, cada tres días o cada cinco días.
Consola
En la Google Cloud consola, ve a la página Aplicaciones de IA.
Vaya a la página Almacenes de datos.
Haz clic en Crear almacén de datos.
En la página Fuente, selecciona Cloud Storage.
Selecciona el tipo de datos que vas a importar.
Haz clic en Periódica.
Seleccione la frecuencia de sincronización, es decir, la frecuencia con la que quiere que el conector de Vertex AI Search se sincronice con la ubicación de Cloud Storage. Puedes cambiar la frecuencia más adelante.
En la sección Selecciona la carpeta o el archivo que quieras importar, elige Carpeta o Archivo.
Haz clic en Explorar, elige los datos que hayas preparado para la ingesta y, a continuación, haz clic en Seleccionar. También puedes introducir la ubicación directamente en el campo
gs://
.Haz clic en Continuar.
Elige una región para el conector de datos.
Escriba el nombre del conector de datos.
Opcional: Si has seleccionado documentos no estructurados, puedes seleccionar opciones de análisis y fragmentación para tus documentos. Para comparar los analizadores, consulta Analizar documentos. Para obtener información sobre la fragmentación, consulta Fragmentar documentos para RAG.
El analizador de OCR y el analizador de diseño pueden generar costes adicionales. Consulta los precios de las funciones de Documentos.
Para seleccionar un analizador, despliega Opciones de procesamiento de documentos y especifica las opciones del analizador que quieras usar.
Haz clic en Crear.
Ya has creado un conector de datos que sincronizará periódicamente los datos con la ubicación de Cloud Storage. También has creado un almacén de datos de entidades, llamado
gcs_store
.Para comprobar el estado de la ingestión, vaya a la página Almacenes de datos y haga clic en el nombre del conector de datos para ver los detalles en la página Datos.
Pestaña Actividad de ingestión de datos. Cuando el estado de la columna de la pestaña Actividad de ingestión de datos cambie de En curso a Completada, la primera ingestión se habrá completado.
En función del tamaño de los datos, la ingestión puede tardar desde varios minutos hasta varias horas.
Después de configurar la fuente de datos e importar datos por primera vez, los datos se sincronizan desde esa fuente con la frecuencia que elijas durante la configuración. Aproximadamente una hora después de crear el conector de datos, se produce la primera sincronización. La siguiente sincronización se producirá aproximadamente 24, 72 o 120 horas después.
Pasos siguientes
Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en el artículo Crear una aplicación de recomendaciones personalizada.
Para obtener una vista previa o recibir recomendaciones después de configurar tu aplicación y tu almacén de datos, consulta el artículo Recibir recomendaciones.
Subir datos JSON estructurados con la API
Para subir directamente un documento o un objeto JSON mediante la API, sigue estos pasos.
Antes de importar los datos, prepáralos para la ingesta.
REST
Para crear un almacén de datos e importar datos JSON estructurados mediante la línea de comandos, sigue estos pasos:
Crea un almacén de datos.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Haz los cambios siguientes:
PROJECT_ID
: el ID de tu proyecto de Google Cloud .DATA_STORE_ID
: el ID del almacén de datos de recomendaciones que quieres crear. Este ID solo puede contener letras en minúscula, números, guiones bajos y guiones.DATA_STORE_DISPLAY_NAME
: el nombre visible del almacén de datos de recomendaciones que quieres crear.
Opcional: Proporciona tu propio esquema. Si proporcionas un esquema, normalmente obtendrás mejores resultados. Para obtener más información, consulta Proporcionar o detectar automáticamente un esquema.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/schemas/default_schema" \ -d '{ "structSchema": JSON_SCHEMA_OBJECT }'
Haz los cambios siguientes:
PROJECT_ID
: el ID de tu proyecto de Google Cloud .DATA_STORE_ID
: ID del almacén de datos de recomendaciones.JSON_SCHEMA_OBJECT
: tu esquema JSON como objeto JSON. Por ejemplo:{ "$schema": "https://json-schema.org/draft/2020-12/schema", "type": "object", "properties": { "title": { "type": "string", "keyPropertyMapping": "title" }, "categories": { "type": "array", "items": { "type": "string", "keyPropertyMapping": "category" } }, "uri": { "type": "string", "keyPropertyMapping": "uri" } } }
Importar datos estructurados que se ajusten al esquema definido.
Hay varios métodos que puedes usar para subir datos, entre los que se incluyen los siguientes:
Sube un documento JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Sustituye
JSON_DOCUMENT_STRING
por el documento JSON como una sola cadena. Debe ajustarse al esquema JSON que proporcionaste en el paso anterior. Por ejemplo:```none { \"title\": \"test title\", \"categories\": [\"cat_1\", \"cat_2\"], \"uri\": \"test uri\"} ```
Sube un objeto JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Sustituye
JSON_DOCUMENT_OBJECT
por el documento JSON como objeto JSON. Debe ajustarse al esquema JSON que has proporcionado en el paso anterior. Por ejemplo:```json { "title": "test title", "categories": [ "cat_1", "cat_2" ], "uri": "test uri" } ```
Actualizar con un documento JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Actualiza con un objeto JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Pasos siguientes
Para adjuntar tu almacén de datos a una aplicación, crea una aplicación y selecciona tu almacén de datos siguiendo los pasos que se indican en el artículo Crear una aplicación de recomendaciones personalizada.
Para ver una vista previa de cómo aparecerán las recomendaciones después de configurar tu aplicación y tu almacén de datos, consulta Obtener recomendaciones.
Crear un almacén de datos con Terraform
Puedes usar Terraform para crear un almacén de datos vacío. Una vez creado el almacén de datos vacío, puedes ingerir datos en él mediante la Google Cloud consola o comandos de la API.
Para saber cómo aplicar o quitar una configuración de Terraform, consulta Comandos básicos de Terraform.
Para crear un almacén de datos vacío con Terraform, consulta
google_discovery_engine_data_store
.