Fuente de lote de base de datos

En esta página se ofrecen directrices sobre cómo configurar el complemento de fuente de lote de base de datos en Cloud Data Fusion.

Puedes usar esta fuente genérica siempre que necesites leer datos de una base de datos. Por ejemplo, puedes usarlo para crear copias de una tabla de base de datos genérica y escribir la salida en BigQuery.

Configurar el complemento

  1. Ve a la interfaz web de Cloud Data Fusion y haz clic en Studio.
  2. Comprueba que esté seleccionada la opción Flujo de procesamiento de datos - Lote (no En tiempo real).
  3. En el menú Fuente, haga clic en Base de datos.
  4. Para configurar el complemento, coloque el cursor sobre el nodo del complemento y haga clic en Propiedades.
  5. Introduce las siguientes propiedades. Para obtener más información sobre cada propiedad, consulta Propiedades.

    1. Introduce una etiqueta para el nodo de la base de datos. Por ejemplo, database tables.
    2. Introduce los detalles de la conexión. Puedes configurar una conexión nueva y puntual o una conexión reutilizable que ya tengas.

      Nueva conexión

      Para añadir una conexión única a la base de datos, sigue estos pasos:

      1. Mantén desactivada la opción Usar conexión.
      2. Introduce las siguientes propiedades de conexión:
        1. En el campo Nombre del controlador JDBC, introduce el nombre del controlador (si lo hay). De lo contrario, deja seleccionada la opción No JDBC plugins (Sin complementos JDBC).
        2. En el campo Cadena de conexión, introduce la cadena de conexión JDBC, incluido el nombre de la base de datos.
        3. Opcional: Si tu base de datos requiere autenticación, introduce las credenciales de nombre de usuario y contraseña de la base de datos.
        4. Opcional: si tu controlador JDBC necesita configuraciones adicionales, en el campo Argumentos de conexión, introduce argumentos de clave-valor para la conexión.

      Conexión reutilizable

      Para reutilizar una conexión, sigue estos pasos:

      1. Activa Usar conexión.
      2. Haz clic en Ver conexiones.
      3. Selecciona la conexión.

        .
      4. Opcional: Si no existe ninguna conexión y quieres crear una nueva que puedas reutilizar, haz clic en Añadir conexión y sigue los pasos de la pestaña Nueva conexión de esta página.

    3. Opcional: Para probar la conectividad, haga clic en Obtener el esquema. Este esquema se usa en lugar del esquema que devuelva la consulta. Debe coincidir con el esquema que devuelve la consulta, pero puede marcar campos como anulables y contener un subconjunto de los campos.

    4. En el campo Import query (Consulta de importación), introduzca una consulta SELECT para importar datos de la tabla especificada. Por ejemplo, select id, name, email, phone from users;.

    5. Opcional: En el campo Consulta de límite, introduce los valores mínimo y máximo que quieras leer (por ejemplo, SELECT * FROM table WHERE $CONDITIONS).

    6. Opcional: En el campo Nombre del campo de división, introduce el nombre del campo que genera las divisiones.

    7. Opcional: En el campo Número de divisiones que se van a generar, introduce un número (por ejemplo, 2).

    8. Opcional: En el campo Tamaño de la petición, introduce un número (por ejemplo, 1000).

    9. Opcional: introduzca Propiedades avanzadas, como cambiar las mayúsculas y minúsculas de los nombres de las columnas.

  6. Opcional: haz clic en Validar y corrige los errores que se hayan encontrado.

  7. Haz clic en Cerrar. Las propiedades se guardan y puedes seguir creando tu flujo de datos en Cloud Data Fusion Studio.

Propiedades

Propiedad Compatible con macros Obligatorio Descripción
Etiqueta No El nombre del nodo de su canalización de datos.
Usar conexión No No Busca una conexión a la fuente. Si se selecciona Usar conexión, no es necesario que proporciones credenciales.
Conexión Nombre de la conexión que se va a usar. Si se selecciona Usar conexión, se muestra este campo. La conexión proporciona información sobre la base de datos y la tabla.
Nombre del controlador JDBC El controlador JDBC que se va a usar.
El valor predeterminado es Sin complementos JDBC.
Cadena de conexión Cadena de conexión JDBC, incluido el nombre de la base de datos.
Username (Nombre de usuario) No Identidad de usuario para conectarse a la base de datos. Es obligatoria para las bases de datos que necesitan autenticación. Opcional para las bases de datos que no requieren autenticación.
Password (Contraseña) No Contraseña que se usa para conectarse a la base de datos especificada. Obligatorio para las bases de datos que necesitan autenticación. Opcional para las bases de datos que no requieren autenticación.
Argumentos de conexión No Lista de pares arbitrarios de etiquetas y valores de cadena como argumentos de conexión. En el caso de los controladores JDBC que necesiten una configuración adicional, estos argumentos se transfieren al controlador JDBC como argumentos de conexión con el siguiente formato: key1=value1;key2=value.
Nombre de referencia No Nombre que identifica de forma exclusiva esta fuente para el linaje y la anotación de metadatos. Normalmente, es el nombre de la tabla o de la vista.
Obtener esquema No No El esquema de los registros que genera la fuente. Se usa en lugar del esquema que devuelve la consulta. Debe coincidir con el esquema que devuelve la consulta, pero permite marcar campos como anulables y puede contener un subconjunto de los campos.
Importar consulta La consulta SELECT para importar datos de la tabla especificada. Puedes especificar un número arbitrario de columnas para importar o importar todas las columnas con *. La consulta debe contener la cadena $CONDITIONS. Por ejemplo, SELECT * FROM table WHERE $CONDITIONS. La cadena $CONDITIONS se sustituye por el límite del campo splitBy especificado en el campo Consulta de límites. La cadena $CONDITIONS no es obligatoria si el campo Número de divisiones tiene el valor 1.
Consulta de recuadro No La consulta de delimitación que devuelve los valores mínimo y máximo de la columna dividida. Por ejemplo, SELECT MIN(id),MAX(id) FROM table. No es obligatorio si el número de divisiones es 1.
Nombre del campo de división No Nombre del campo usado para generar divisiones. No es obligatorio si el número de divisiones que se van a generar es 1.
Número de divisiones que se van a generar No Número de divisiones que se van a generar.
El valor predeterminado es 1.
Tamaño de la búsqueda No Número de filas que se van a obtener a la vez por división. Un tamaño de obtención mayor puede acelerar la importación, pero a costa de un mayor uso de memoria.
El valor predeterminado es 1000.
Habilitar la confirmación automática No No Indica si se debe habilitar la confirmación automática de las consultas ejecutadas por esta fuente. Mantén este valor en False a menos que uses un controlador JDBC que provoque un error al ejecutar la operación de confirmación.
El valor predeterminado es False.
Uso de mayúsculas y minúsculas en los nombres de las columnas No Define las mayúsculas y minúsculas de los nombres de las columnas devueltas por la consulta. Puedes elegir entre mayúsculas o minúsculas. De forma predeterminada o para cualquier otra entrada, los nombres de las columnas no se modifican y se usa el caso de las letras devuelto por la base de datos. Al definir esta propiedad, se puede predecir el uso de mayúsculas y minúsculas en los nombres de las columnas de diferentes bases de datos, pero puede provocar conflictos si varios nombres de columna son iguales cuando se ignoran las mayúsculas y minúsculas.
El valor predeterminado es Sin cambios.
Nivel de aislamiento de la transacción No Nivel de aislamiento de las transacciones de las consultas que ejecuta este receptor. Para obtener más información, consulta el setTransactionIsolation(). El controlador JDBC de Phoenix genera una excepción si la base de datos de Phoenix no tiene habilitadas las transacciones y este campo se ha definido como true. En el caso de los controladores de ese tipo, asigna a este campo el valor TRANSACTION_NONE.
El valor predeterminado es TRANSACTION_SERIALIZABLE.
Patrón que se va a sustituir No No El patrón que se va a sustituir en el nombre del campo de la tabla (normalmente se usa con la propiedad Reemplazar por). Si no se define la propiedad Replace with, el patrón se elimina del nombre del campo.
Reemplazar por No No La cadena que se sustituye en el nombre del campo de la tabla. También debe configurar el campo Patrón que se va a sustituir.
Esquema de salida No No Especifica el esquema de salida. En el registro de salida solo se incluyen las columnas definidas en el esquema.

Prácticas recomendadas

Comprueba si hay un complemento más específico disponible para tu base de datos. Por ejemplo, si tienes una fuente de base de datos de Oracle, usa el complemento de fuente de lote de base de datos de Oracle, ya que está diseñado para funcionar con el esquema de Oracle.

Siguientes pasos