Fuente por lotes de la base de datos

En esta página, se proporcionan instrucciones para configurar la fuente por lotes de la base de datos. en Cloud Data Fusion.

Puedes usar esta fuente genérica cada vez que necesites leer desde una base de datos. Por ejemplo, puedes usarlo para crear instantáneas diarias de una tabla de base de datos genérica y escribir el resultado en BigQuery.

Configura el complemento

  1. Ir a la interfaz web de Cloud Data Fusion y haz clic en Studio.
  2. Comprueba que la opción Canalización de datos - Por lotes esté seleccionada (no En tiempo real).
  3. En el menú Fuente, haz clic en Base de datos.
  4. Para configurar el complemento, mantén el puntero sobre el nodo del complemento y haz clic en Propiedades:
  5. Ingresa las siguientes propiedades. Para obtener más información sobre cada propiedad, consulta Propiedades.

    1. Ingresa una Etiqueta para el nodo de la base de datos, por ejemplo, database tables.
    2. Ingresa los detalles de la conexión. Puedes configurar una conexión nueva y única, o una conexión existente y reutilizable.

      Nueva conexión

      Para agregar una conexión única a la base de datos, sigue estos pasos:

      1. Mantén la opción Usar conexión desactivada.
      2. Ingresa las siguientes propiedades de conexión:
        1. En el campo Nombre del controlador de JDBC, ingresa el nombre del controlador, si hay uno. De lo contrario, mantén seleccionada la opción No JDBC plugins.
        2. En el campo Connection string, ingresa la cadena de conexión JDBC, incluido el nombre de la base de datos.
        3. Opcional: Si tu base de datos requiere autenticación, ingresa el nombre de usuario y la contraseña de la base de datos.
        4. Opcional: Si tu controlador JDBC necesita configuraciones adicionales, En el campo Argumentos de la conexión, ingresa el par clave-valor. argumentos para la conexión.

      Conexión reutilizable

      Para volver a usar una conexión existente, sigue estos pasos:

      1. Activa Usar conexión.
      2. Haz clic en Browse connections.
      3. Selecciona la conexión.

      4. Opcional: Si no existe una conexión y quieres crear una nueva y reutilizable, haz clic en Agregar conexión y consulta los pasos que se indican en la pestaña Conexión nueva en esta página.

    3. Opcional: Para probar la conectividad, haz clic en Obtener esquema. Este esquema es en lugar del esquema que obtenga de la consulta. Debe coincidir con el esquema que se muestra en la consulta, excepto que puedes marcar campos como nulos y puede contener un subconjunto de los campos.

    4. En el campo Consulta de importación, ingresa una consulta SELECT para importar datos de la tabla especificada, por ejemplo, select id, name, email, phone from users;.

    5. Opcional: En el campo Consulta de límite, ingresa el valor mínimo y el máximo. valores que deben leerse, por ejemplo, SELECT * FROM table WHERE $CONDITIONS.

    6. Opcional: En el campo Nombre del campo por el que se dividirá, ingresa el nombre del campo que genera las divisiones.

    7. Opcional: En el campo Number of splits to generate, ingresa un por ejemplo, 2.

    8. Opcional: En el campo Tamaño de recuperación, ingresa un número, por ejemplo: 1000

    9. Opcional: Ingresa Propiedades avanzadas, como cambiar el caso de los nombres de las columnas.

  6. Opcional: Haz clic en Validar y soluciona los errores que encuentres.

  7. Haz clic en Cerrar. Las propiedades se guardan y puedes seguir compilando tu canalización de datos en Cloud Data Fusion Studio.

Propiedades

Propiedad Macro habilitado Obligatorio Descripción
Etiqueta No El nombre del nodo en tu canalización de datos.
Cómo usar la conexión No No Busca una conexión a la fuente. Si se selecciona Usar conexión, no es necesario que proporciones credenciales.
Conexión Nombre de la conexión que se usará. Si se selecciona Use connection, aparecerá este campo. La conexión proporciona información sobre la base de datos y la tabla.
Nombre del controlador JDBC El controlador JDBC que se usará.
El valor predeterminado es No JDBC plugins.
Cadena de conexión Cadena de conexión de JDBC, incluido el nombre de la base de datos.
Nombre de usuario No Identidad del usuario para conectarse a la base de datos. Es obligatorio para las bases de datos que necesitan autenticación. Opcional para las bases de datos que no requieren autenticación.
Contraseña No Es la contraseña que se usará para conectarse a la base de datos especificada. Necesario para bases de datos que necesitan autenticación. Opcional para las bases de datos que no requieren autenticación.
Argumentos de conexión No Es una lista de pares de etiquetas o valores de cadenas arbitrarias como argumentos de conexión. Para los controladores de JDBC que necesitan configuración adicional, estos argumentos son pasan al controlador de JDBC como argumentos de conexión en la siguiente formato: key1=value1;key2=value.
Nombre de referencia No Un nombre que identifique de manera única esta fuente para el linaje y la anotación metadatos. Por lo general, es el nombre de la tabla o la vista.
Obtén el esquema No No Es el esquema de los registros que genera la fuente. Se usa en lugar del que muestra la consulta. Debe coincidir con el esquema que se muestra en la consulta, excepto que te permite marcar campos como nulos y puede contener un subconjunto de los campos.
Consulta de importación La consulta SELECT para importar datos de la tabla especificada Puedes especificar un número arbitrario de columnas para importar. importar todas las columnas con * La consulta debe contener los $CONDITIONS. Por ejemplo, SELECT * FROM table WHERE $CONDITIONS. La cadena $CONDITIONS se reemplaza por el límite de campo splitBy especificado en el campo Búsqueda de límite. El la cadena $CONDITIONS no es necesaria si la Cantidad de splits se establece en 1.
Consulta de límite No La consulta de límite que devuelve el mínimo y el máximo de los valores de la columna de división. Por ejemplo, SELECT MIN(id),MAX(id) FROM table. No es necesario si cantidad de divisiones se establece en 1.
Nombre del campo de división No Es el nombre del campo que se usa para generar divisiones. No es necesario si la cantidad de divisiones para generar se establece en 1.
Cantidad de divisiones que se generarán No Cantidad de divisiones que se generarán.
El valor predeterminado es 1.
Tamaño de recuperación No La cantidad de filas que se recuperarán a la vez por división. Un tamaño de recuperación más grande puede generar una importación más rápida, con el inconveniente de un mayor uso de memoria.
El valor predeterminado es 1000.
Habilita la confirmación automática No No Establece si se habilita la confirmación automática para las consultas que ejecuta esta fuente. Conservar esto se configura como False, a menos que uses un controlador JDBC que genera un error cuando se ejecuta la operación de confirmación.
El valor predeterminado es False.
Mayúsculas y minúsculas en los nombres de las columnas No Establece el caso de las letras de los nombres de las columnas que se muestran en la consulta. Puedes elegir mayúsculas o minúsculas. De forma predeterminada, o para cualquier otra entrada, los nombres de las columnas no se modifican y se usa la mayúscula o minúscula que se muestra en la base de datos. Configurar esta propiedad permite predecir usar mayúsculas en los nombres de columnas en diferentes bases de datos, pero podría provocar los nombres de las columnas están en conflicto si varios nombres de columna son iguales cuando sucede se ignora.
El valor predeterminado es Sin cambios.
Nivel de aislamiento de transacción No Es el nivel de aislamiento de transacciones para las consultas que ejecuta este sumidero. Para ver más información, consulta la setTransactionIsolation() El controlador JDBC de Phoenix arroja una excepción si la base de datos de Phoenix no tiene habilitadas las transacciones y este campo está establecido en true Para conductores como ese, establece este campo en TRANSACTION_NONE
El valor predeterminado es TRANSACTION_SERIALIZABLE.
Patrón que se reemplazará No No Es el patrón que se reemplazará en el nombre del campo de la tabla (por lo general, se usa con la propiedad Replace with). Si el botón No se estableció la propiedad Replace with, por lo que se quita el patrón. del nombre del campo.
Reemplazar por No No La cadena que se reemplaza en el nombre del campo en la tabla. Debes configura también el campo Pattern to replace.
Esquema de salida No No Especifica el esquema que se genera. Solo se incluyen en el registro de salida las columnas definidas en el esquema.

Prácticas recomendadas

Comprueba si hay un complemento más específico disponible para tu base de datos. Por ejemplo, si tienes una fuente de base de datos de Oracle, usa el complemento de fuente por lotes de la base de datos de Oracle, ya que está diseñado para funcionar con el esquema de Oracle.

¿Qué sigue?