Se usó la API de Cloud Translation para traducir esta página.

Fuente por lotes de la base de datos

En esta página, se proporcionan instrucciones para configurar el complemento de origen por lotes de la base de datos en Cloud Data Fusion.

Puedes usar esta fuente genérica cada vez que necesites leer desde una base de datos. Por ejemplo, puedes usarlo para crear instantáneas diarias de una tabla de base de datos genérica y escribir el resultado en BigQuery.

Configura el complemento

Ve a la interfaz web de Cloud Data Fusion y haz clic en Studio.
Verifica que esté seleccionada la opción Data Pipeline - Batch (no Realtime).
En el menú Fuente, haz clic en Base de datos.
Para configurar el complemento, mantén el puntero sobre el nodo del complemento y haz clic en Properties.
Ingresa las siguientes propiedades. Para obtener más información sobre cada propiedad, consulta Propiedades.
1. Ingresa una Etiqueta para el nodo de la base de datos, por ejemplo, database tables.
2. Ingresa los detalles de la conexión. Puedes configurar una conexión nueva y única, o una conexión existente y reutilizable.
  Nueva conexión
  Para agregar una conexión única a la base de datos, sigue estos pasos:
  1. Mantén desactivada la opción Usar conexión.
  2. Ingresa las siguientes propiedades de conexión:
    
    En el campo Nombre del controlador de JDBC, ingresa el nombre del controlador, si hay uno. De lo contrario, mantén seleccionada la opción No JDBC plugins.
    
    En el campo Connection string, ingresa la cadena de conexión JDBC, incluido el nombre de la base de datos.
    
    Opcional: Si tu base de datos requiere autenticación, ingresa las credenciales de nombre de usuario y contraseña de la base de datos.
    
    Opcional: Si tu controlador de JDBC necesita configuraciones adicionales, en el campo Connection arguments, ingresa los argumentos de par clave-valor para la conexión.
  Conexión reutilizable
  Para volver a usar una conexión existente, sigue estos pasos:
  1. Activa Usar conexión.
  2. Haz clic en Browse connections.
  3. Selecciona la conexión.
    
    Nota: Para obtener más información sobre cómo agregar, importar y editar las conexiones que aparecen cuando exploras las conexiones, consulta Cómo crear y administrar conexiones.
  4. Opcional: Si no existe una conexión y deseas crear una nueva y reutilizable, haz clic en Agregar conexión y consulta los pasos de la pestaña Nueva conexión en esta página.
3. Opcional: Para probar la conectividad, haz clic en Obtener esquema. Este esquema se usa en lugar de cualquier esquema que se muestre de la consulta. Debe coincidir con el esquema que se muestra en la consulta, excepto que puedes marcar campos como nulos y puede contener un subconjunto de los campos.
4. En el campo Consulta de importación, ingresa una consulta SELECT para importar datos de la tabla especificada, por ejemplo, select id, name, email, phone from users;.
5. Opcional: En el campo Bounding query, ingresa los valores mínimo y máximo que se deben leer, por ejemplo, SELECT * FROM table WHERE $CONDITIONS.
6. Opcional: En el campo Nombre del campo por el que se dividirá, ingresa el nombre del campo que genera las divisiones.
7. Opcional: En el campo Cantidad de divisiones que se generarán, ingresa un número, por ejemplo, 2.
8. Opcional: En el campo Tamaño de recuperación, ingresa un número, por ejemplo, 1000.
9. Opcional: Ingresa Propiedades avanzadas, como cambiar el caso de los nombres de las columnas.
Opcional: Haz clic en Validar y corrige los errores que se encuentren.
Haz clic en Cerrar. Las propiedades se guardan y puedes seguir compilando tu canalización de datos en Cloud Data Fusion Studio.

Propiedades

Propiedad	Macro habilitada	Obligatorio	Descripción
Etiqueta	No	Sí	Es el nombre del nodo en tu canalización de datos.
Cómo usar la conexión	No	No	Busca una conexión a la fuente. Si se selecciona Usar conexión, no necesitas proporcionar credenciales.
Conexión	Sí	Sí	Es el nombre de la conexión que se usará. Si se selecciona Use connection, aparecerá este campo. La conexión proporciona información de la base de datos y de la tabla.
Nombre del controlador de JDBC	Sí	Sí	Es el controlador JDBC que se usará. El valor predeterminado es No hay complementos de JDBC.
Cadena de conexión	Sí	Sí	Cadena de conexión de JDBC, incluido el nombre de la base de datos
Nombre de usuario	Sí	No	Identidad del usuario para conectarse a la base de datos. Es obligatorio para las bases de datos que necesitan autenticación. Es opcional para las bases de datos que no requieren autenticación.
Contraseña	Sí	No	Contraseña que se usará para conectarse a la base de datos especificada. Es obligatorio para las bases de datos que necesitan autenticación. Es opcional para las bases de datos que no requieren autenticación.
Argumentos de conexión	Sí	No	Es una lista de pares de etiquetas o valores de cadenas arbitrarias como argumentos de conexión. En el caso de los controladores de JDBC que necesitan configuración adicional, estos argumentos se pasan al controlador de JDBC como argumentos de conexión en el siguiente formato: `key1=value1;key2=value`.
Nombre de referencia	No	Sí	Es un nombre que identifica de forma única esta fuente para el linaje y la anotación de metadatos. Por lo general, es el nombre de la tabla o la vista.
Obtener esquema	No	No	Es el esquema de los registros que genera la fuente. Se usa en lugar del esquema que muestra la consulta. Debe coincidir con el esquema que se muestra en la consulta, excepto que te permite marcar campos como nulos y puede contener un subconjunto de los campos.
Consulta de importación	Sí	Sí	La consulta `SELECT` para importar datos de la tabla especificada Puedes especificar una cantidad arbitraria de columnas para importar o importar todas las columnas con ``. La consulta debe contener la cadena `$CONDITIONS`. Por ejemplo, `SELECT FROM table WHERE $CONDITIONS`. La cadena `$CONDITIONS` se reemplaza por el límite de campo `splitBy` especificado en el campo Búsqueda de límites. La cadena `$CONDITIONS` no es obligatoria si el campo Cantidad de divisiones está configurado en 1.
Consulta de límite	Sí	No	La consulta de límite que muestra el mínimo y el máximo de los valores de la columna dividida Por ejemplo, `SELECT MIN(id),MAX(id) FROM table`. No es obligatorio si la cantidad de divisiones se establece en 1.
Dividir por nombre de campo	Sí	No	Es el nombre del campo que se usa para generar divisiones. No es obligatorio si la cantidad de divisiones que se generarán se establece en 1.
Cantidad de divisiones que se generarán	Sí	No	Cantidad de divisiones que se generarán. El valor predeterminado es 1.
Tamaño de recuperación	Sí	No	Es la cantidad de filas que se recuperarán a la vez por división. Un tamaño de recuperación más grande puede generar una importación más rápida, con el inconveniente de un mayor uso de memoria. El valor predeterminado es 1000.
Habilita la confirmación automática	No	No	Indica si se debe habilitar la confirmación automática para las consultas que ejecuta esta fuente. Mantén esta opción establecida en False, a menos que uses un controlador de JDBC que genere un error cuando se ejecute la operación de confirmación. El valor predeterminado es False.
Mayúsculas y minúsculas en los nombres de las columnas	Sí	No	Establece el caso de las letras de los nombres de las columnas que se muestran en la consulta. Puedes elegir mayúsculas o minúsculas. De forma predeterminada, o para cualquier otra entrada, los nombres de las columnas no se modifican y se usa la mayúscula o minúscula que se muestra en la base de datos. La configuración de esta propiedad proporciona previsibilidad de la mayúscula del nombre de la columna en diferentes bases de datos, pero podría causar conflictos de nombres de columna si varios nombres de columna son iguales cuando se ignora el caso. El valor predeterminado es Sin cambios.
Nivel de aislamiento de transacciones	Sí	No	Es el nivel de aislamiento de transacciones para las consultas que ejecuta este sumidero. Para obtener más información, consulta `setTransactionIsolation()`. El controlador JDBC de Phoenix arroja una excepción si la base de datos de Phoenix no tiene transacciones habilitadas y este campo está configurado como `true`. Para los controladores de este tipo, establece este campo en `TRANSACTION_NONE`. El valor predeterminado es TRANSACTION_SERIALIZABLE.
Patrón que se reemplazará	No	No	Es el patrón que se reemplazará en el nombre del campo de la tabla (por lo general, se usa con la propiedad Replace with). Si no se configuró la propiedad Replace with, se quitará el patrón del nombre del campo.
Reemplaza con	No	No	Es la cadena que se reemplaza en el nombre del campo de la tabla. También debes configurar el campo Patrón para reemplazar.
Esquema de salida	No	No	Especifica el esquema que se genera. Solo se incluyen en el registro de salida las columnas definidas en el esquema.

Prácticas recomendadas

Verifica si hay un complemento más específico disponible para tu base de datos. Por ejemplo, si tienes una fuente de base de datos de Oracle, usa el complemento de fuente por lotes de la base de datos de Oracle, ya que está diseñado para funcionar con el esquema de Oracle.

Notas de la versión

¿Qué sigue?

Obtén más información sobre los complementos en Cloud Data Fusion.