Importa desde Bigtable

Para transferir datos desde Bigtable, sigue estos pasos para crear un almacén de datos y transferir datos con la API.

Configura el acceso a Bigtable

Para otorgar acceso a Gemini Enterprise a los datos de Bigtable que se encuentran en otro proyecto, sigue estos pasos:

  1. Reemplaza la siguiente variable PROJECT_NUMBER por el número de tu proyecto de Gemini Enterprise y, luego, copia el contenido de este bloque de código. Este es el identificador de tu cuenta de servicio de Gemini Enterprise:

    service-PROJECT_NUMBER@gcp-sa-discoveryengine.`
    
  2. Ir a la página IAM y administración

    IAM y administración

  3. Cambia a tu proyecto de Bigtable en la página IAM y administración y haz clic en Otorgar acceso.

  4. En Principales nuevas, ingresa el identificador de la cuenta de servicio de la instancia y selecciona el rol Bigtable > Lector de Bigtable.

  5. Haz clic en Guardar.

  6. Vuelve a tu proyecto de Gemini Enterprise.

A continuación, ve a Importar datos de Bigtable.

Importa datos de Bigtable

REST

Para usar la línea de comandos para crear un almacén de datos y transferir datos desde Bigtable, sigue estos pasos:

  1. Crea un almacén de datos.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DISPLAY_NAME",
      "industryVertical": "GENERIC",
      "solutionTypes": ["SOLUTION_TYPE_SEARCH"],
    }'
    

    Reemplaza lo siguiente:

    • PROJECT_ID: el ID de tu proyecto.
    • DATA_STORE_ID: Es el ID del almacén de datos. El ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.
    • DISPLAY_NAME: Es el nombre visible del almacén de datos. Esto podría mostrarse en la consola de Google Cloud .
  2. Importa datos de Bigtable.

      curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \
      -d '{
        "bigtableSource ": {
          "projectId": "BIGTABLE_PROJECT_ID",
          "instanceId": "INSTANCE_ID",
          "tableId": "TABLE_ID",
          "bigtableOptions": {
            "keyFieldName": "KEY_FIELD_NAME",
            "families": {
              "key": "KEY",
              "value": {
                "fieldName": "FIELD_NAME",
                "encoding": "ENCODING",
                "type": "TYPE",
                "columns": [
                  {
                    "qualifier": "QUALIFIER",
                    "fieldName": "FIELD_NAME",
                    "encoding": "COLUMN_ENCODING",
                    "type": "COLUMN_VALUES_TYPE"
                  }
                ]
              }
             }
             ...
          }
        },
        "reconciliationMode": "RECONCILIATION_MODE",
        "autoGenerateIds": "AUTO_GENERATE_IDS",
        "idField": "ID_FIELD",
      }'
    

    Reemplaza lo siguiente:

    • PROJECT_ID: Es el ID de tu proyecto de Gemini Enterprise.
    • DATA_STORE_ID: Es el ID del almacén de datos. El ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.
    • BIGTABLE_PROJECT_ID: Es el ID de tu proyecto de Bigtable.
    • INSTANCE_ID: Es el ID de tu instancia de Bigtable.
    • TABLE_ID: Es el ID de tu tabla de Bigtable.
    • KEY_FIELD_NAME: Es opcional, pero se recomienda. Nombre del campo que se usará para el valor de la clave de fila después de la transferencia a Gemini Enterprise.
    • KEY: Obligatorio. Es un valor de cadena para la clave de la familia de columnas.
    • ENCODING: es opcional. Es el modo de codificación de los valores cuando el tipo no es STRING.Se puede anular para una columna específica si se incluye esa columna en columns y se especifica una codificación para ella.
    • COLUMN_TYPE: es opcional. Es el tipo de valores de esta familia de columnas.
    • QUALIFIER: Obligatorio. Es el calificador de la columna.
    • FIELD_NAME: Es opcional, pero se recomienda. Nombre del campo que se usará para esta columna después de la transferencia a Gemini Enterprise.
    • COLUMN_ENCODING: es opcional. Es el modo de codificación de los valores para una columna específica cuando el tipo no es STRING.
    • RECONCILIATION_MODE: es opcional. Los valores son FULL y INCREMENTAL. El valor predeterminado es INCREMENTAL. Si especificas INCREMENTAL, se realizará una actualización incremental de los datos de Bigtable a tu almacén de datos. Esto realiza una operación de upsert, que agrega documentos nuevos y reemplaza los existentes por documentos actualizados con el mismo ID. Si especificas FULL, se realizará una nueva base completa de los documentos en tu almacén de datos. En otras palabras, se agregan documentos nuevos y actualizados a tu almacén de datos, y se quitan los documentos que no están en Bigtable. El modo FULL es útil si deseas borrar automáticamente los documentos que ya no necesitas.
    • AUTO_GENERATE_IDS: es opcional. Especifica si se deben generar automáticamente IDs de documentos. Si se establece en true, los IDs de documentos se generan en función de un hash de la carga útil. Ten en cuenta que es posible que los IDs de documentos generados no sigan siendo coherentes en varias importaciones. Si generas IDs automáticamente en varias importaciones, Google recomienda establecer reconciliationMode en FULL para mantener IDs de documentos coherentes.

      Especifica autoGenerateIds solo cuando bigquerySource.dataSchema se establece en custom. De lo contrario, se muestra un error INVALID_ARGUMENT. Si no especificas autoGenerateIds o lo configuras como false, debes especificar idField. De lo contrario, no se podrán importar los documentos.

    • ID_FIELD: es opcional. Especifica qué campos son los IDs de documento.

Próximos pasos