Crea una transmisión

En esta sección, aprenderás a crear una transmisión. Datastream usa esta transmisión para transferir datos de una base de datos de Oracle, MySQL, SQL Server o PostgreSQL de origen a BigQuery o Cloud Storage.

Crear una transmisión incluye lo siguiente:

  • Definir la configuración de la transmisión
  • Seleccionar el perfil de conexión que creaste para tu base de datos de origen Oracle, MySQL, SQL Server o PostgreSQL (el perfil de conexión de origen) o crear un perfil de conexión de origen si aún no lo hiciste
  • Configura la información sobre la base de datos de origen de la transmisión especificando las tablas y los esquemas en la base de datos de origen que Datastream hace lo siguiente:
    • Puede transferir al destino.
    • No puede transferir al destino.
  • Determinar si Datastream reabastecerá los datos históricos, así como la transmisión de los cambios continuos al destino o la transmisión solo de los cambios a los datos. Cuando habilites el reabastecimiento histórico, puedes especificar de manera opcional los esquemas y las tablas en la base de datos de origen que Datastream no debe reabastecer en el destino.

  • Selecciona el perfil de conexión que creaste para BigQuery o Cloud Storage (el perfil de conexión de destino) o crea uno si aún no lo hiciste.

  • Configura la información sobre el destino de la transmisión. Esta información incluye lo siguiente:

    • Para BigQuery:
      • Los conjuntos de datos en los que Datastream replicará los esquemas, las tablas y los datos de una base de datos de origen.
    • Para Cloud Storage:
      • Es la carpeta del bucket de destino al que Datastream transferirá los esquemas, las tablas y los datos de una base de datos de origen.
  • Validar la transmisión para garantizar que se ejecute correctamente La validación de una transmisión verifica lo siguiente:

    • Si la fuente está configurada correctamente para permitir que Datastream transmita datos desde ella.
    • Si la transmisión puede conectarse tanto al origen como al destino.
    • Es la configuración de extremo a extremo de la transmisión.

Define la configuración de la transmisión

  1. Ve a la página Transmisiones en la Google Cloud consola.

    Ir a la página Flujos

  2. Haz clic en CREAR TRANSMISIÓN.

  3. Usa la siguiente tabla para propagar los campos de la sección Define stream details de la página Create stream:

    CampoDescripción
    Nombre de la transmisiónIngresa el nombre visible del flujo.
    ID de flujoDatastream propaga este campo automáticamente según el nombre del flujo que ingreses. Puedes conservar el ID generado automáticamente o cambiarlo.
    RegiónSelecciona la región en la que se almacena la transmisión. Las transmisiones, como todos los recursos, se guardan en una región. La selección de la región no influye en si tu flujo puede conectarse a la base de datos de origen o al destino, pero puede afectar la disponibilidad si la región experimenta tiempo de inactividad. Te recomendamos que mantengas todos los recursos de la transmisión en la misma región que tus datos de origen para optimizar el costo y el rendimiento.
    Tipo de fuente

    Selecciona el tipo de perfil que especificaste cuando creaste un perfil de conexión para una base de datos de Oracle, MySQL, SQL Server o PostgreSQL de origen. O bien, si no creaste un perfil de conexión para la base de datos de origen, puedes crear uno ahora.

    Tipo de destinoSelecciona el tipo de perfil que especificaste cuando creaste un perfil de conexión para un destino de BigQuery o Cloud Storage. O bien, si aún no creaste un perfil de conexión para el destino, puedes crear uno ahora.
    Encriptación

    De forma predeterminada, tus datos se encriptan con una clave administrada por Google Cloud. Si deseas administrar la encriptación, puedes usar una clave de encriptación administrada por el cliente (CMEK):

    1. Selecciona la casilla de verificación Clave de Cloud KMS.
    2. En el menú desplegable Tipo de clave, selecciona Cloud KMS y, luego, selecciona tu CMEK.

    Si no ves tu clave, haz clic en INGRESA EL NOMBRE DEL RECURSO DE LA CLAVE para proporcionar el nombre del recurso de la clave que deseas usar. Por ejemplo, puedes ingresar projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key en el campo Nombre del recurso de clave y, luego, hacer clic en GUARDAR.

  4. De manera opcional, usa etiquetas para organizar tus recursos de Datastream.

    1. Para crear una etiqueta, haz clic en AGREGAR ETIQUETA y, luego, ingresa el par clave-valor de la etiqueta.
    2. Para quitar la etiqueta, haz clic en el ícono de papelera a la derecha de la fila que contiene la etiqueta.
  5. De forma opcional, agrega políticas de alertas para tu transmisión. Las políticas de alertas definen cuándo y cómo quieres recibir notificaciones sobre fallas de transmisión.

    1. Para crear una política de alertas, haz clic en Agregar política de alertas.
    2. Aparecerá la página Crear política de alertas en Cloud Monitoring. En esta página, defines la política de alertas en caso de que falle la transmisión.

    Para obtener más información sobre las políticas de alertas, consulta Administra las políticas de alertas basadas en métricas.

  6. Revisa los requisitos previos necesarios que se generan automáticamente para reflejar cómo se debe preparar el entorno para una transmisión. Estos requisitos previos pueden incluir cómo configurar la base de datos de origen y cómo conectarla al destino. Es mejor completar estos requisitos previos en este paso, pero puedes completarlos en cualquier momento antes de probar la transmisión o iniciarla. Para obtener más información sobre estos requisitos previos, consulta Fuentes.

  7. Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear transmisión para tu tipo de base de datos de origen.

Especifica la información sobre el perfil de conexión de origen

  1. Si creaste un perfil de conexión de origen para Oracle, MySQL, SQL Server o PostgreSQL, selecciónalo en la lista de perfiles de conexión.

    Si no creaste un perfil de conexión fuente, haz crea uno haciendo clic en CREAR PERFIL DE CONEXIÓN en la parte inferior de la lista desplegable y, luego, realiza los mismos pasos que se indican en Crear perfiles de conexión.

  2. Haz clic en EJECUTAR PRUEBA para verificar que la base de datos de origen y Datastream puedan comunicarse entre sí.

    Si la prueba falla, aparecerá el problema asociado con el perfil de conexión. Consulta la página Cómo diagnosticar problemas para conocer los pasos para solucionar problemas. Realiza los cambios necesarios para corregir el problema y, luego, vuelve a realizar la prueba.

  3. Haga clic en CONTINUE. Aparecerá el panel Configurar origen de transmisión de la página Crear transmisión.

Configura la información sobre la base de datos de origen de la transmisión

Configura la base de datos de origen de PostgreSQL

Si seleccionaste PostgreSQL como base de datos de origen, debes definir sus propiedades de replicación.

  1. En la sección Replication properties, especifica las siguientes propiedades:
    1. En el campo Nombre de la ranura de replicación, ingresa el nombre de la ranura que creaste específicamente para esta transmisión. El servidor de la base de datos usa esta ranura para enviar eventos a Datastream.
    2. En el campo Nombre de la publicación, ingresa el nombre de la publicación que creaste en la base de datos. Una publicación es un grupo de todas las tablas de las que deseas replicar los cambios con este flujo.
  2. Sigue los pasos que se describen en la sección Configura las bases de datos de origen.

Configura las bases de datos de origen

  1. En la sección Selecciona objetos que se incluyen, usa el menú desplegable Objetos que se incluyen para especificar las tablas y los esquemas en la base de datos de origen que Datastream puede transferir al destino.

    1. Si deseas que Datastream transfiera todas las tablas y esquemas, selecciona Todas las tablas de todos los esquemas.
    2. Si deseas que Datastream transfiera solo tablas y esquemas específicos, selecciona Esquemas y tablas específicos y, luego, selecciona las casillas de verificación de los esquemas y las tablas que deseas que Datastream extraiga.

    3. Si deseas proporcionar una definición textual de las tablas y esquemas que deseas que Datastream transfiera, selecciona Personalizado y, luego, en el campo Criterios de coincidencia de objetos, ingresa los esquemas y las tablas que deseas que Datastream extraiga.

      Si tu base de datos tiene una gran cantidad de tablas y esquemas, te recomendamos que uses la opción Personalizada, ya que es posible que algunas tablas y esquemas no se incluyan en la lista de objetos que se extraerán.

  2. De manera opcional, expande el nodo Selecciona los objetos que quieres excluir. En el campo Objetos que se excluirán, ingresa las tablas y los esquemas en la base de datos de origen que deseas restringir para que Datastream no los extraiga. La lista Objetos para excluir tiene prioridad sobre la lista Objetos para incluir. Si un objeto cumple con los criterios de las listas de inclusión y exclusión, se excluye del flujo.

  3. Según la fuente que hayas seleccionado, especifica el método de CDC para tu transmisión:

    • Para fuentes de SQL Server:
      • Registros de transacciones: Selecciona este método para procesar los cambios directamente desde los registros de la base de datos. Este método brinda el mejor rendimiento y es más eficiente, pero requiere pasos de configuración adicionales.
      • Tablas de cambios: Selecciona este método para procesar cambios desde tablas de cambios dedicadas. Este método es más fácil de configurar y tiene menos limitaciones, pero admite una menor capacidad de procesamiento y genera una carga más alta en tu base de datos que el método de registros de transacciones. Para obtener más información sobre cómo configurar tu base de datos de SQL Server de origen, consulta Cómo configurar una base de datos de SQL Server de origen.
    • Para fuentes de MySQL:
      • Replicación basada en GTID (IDs de transacción globales) (versión preliminar): Selecciona este método si deseas que Datastream admita conmutaciones por error y proporcione una replicación sin interrupciones, independientemente de los cambios en tu clúster de bases de datos.
      • Repetición basada en registros binarios: Selecciona este método para leer y replicar los cambios directamente desde los archivos de registro binarios de una instancia de base de datos seleccionada. No puedes cambiar una transmisión en ejecución a una instancia de origen o una réplica diferente con este método de CDC.
    • Para fuentes de Oracle:
      • LogMiner: Selecciona este método para consultar los registros de rehacer archivados con la API de LogMiner. LogMiner es compatible con la mayoría de las opciones disponibles para Oracle, como las opciones de encriptación y compresión.
      • Lector binario (versión preliminar): Selecciona este método para extraer cambios directamente de los registros de Oracle. Esto permite una replicación más rápida de bases de datos de Oracle grandes y una reducción de la latencia y la sobrecarga. Cuando seleccionas esta opción, se muestra un menú desplegable adicional. Selecciona la forma en que deseas acceder a tus archivos de registro de Oracle:
      • Administración automática de almacenamiento (ASM): Selecciona esta opción si tu base de datos usa ASM. Asegúrate de haber seleccionado la casilla de verificación Habilitar acceso a ASM para el lector de objetos binarios y de haber completado los detalles de tu instancia de ASM en el perfil de conexión de origen.
      • Directorios de bases de datos: Selecciona esta opción si no usas ASM para almacenar tus archivos de registro. Si seleccionas directorios de bases de datos, debes proporcionar los nombres de los directorios de registros de rehacer y de registros archivados.
  4. De manera opcional, expande el nodo Elige el modo de reabastecimiento para datos históricos y, luego, realiza una de las siguientes selecciones:

    • Selecciona la opción Automático para transmitir todos los datos existentes, además de los cambios en los datos, de la fuente al destino. En el campo Objetos excluidos del reabastecimiento automático, ingresa las tablas y los esquemas en la base de datos de origen para restringir que Datastream los reabastezca en el destino.

    • Selecciona la opción Manual para transmitir solo los cambios en los datos al destino.

  5. Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear transmisión para tu tipo de destino.

Selecciona un perfil de conexión de destino

  1. Si creaste un perfil de conexión de destino, selecciónalo en la lista de perfiles de conexión.

    Si no creaste un perfil de conexión de destino, haz clic en el siguiente para crear uno:CREAR PERFIL DE CONEXIÓN en la parte inferior de la lista desplegable y, luego, realice los mismos pasos que se indican enCrear perfiles de conexión.

  2. Haz clic en CONTINUAR. Aparecerá el panel Configurar destino de transmisión de la página Crear transmisión.

Configura la información sobre el destino de la transmisión

En esta sección, se describe la información que debes proporcionar para configurar tu destino de BigQuery o Cloud Storage.

Destino de BigQuery

  1. En la sección Especifica cómo se debe transmitir Datastream a un conjunto de datos de BigQuery, selecciona una de las siguientes opciones del menú desplegable Agrupación de esquemas:

    • Conjunto de datos para cada esquema: Datastream crea un conjunto de datos de BigQuery para cada esquema de origen, según el nombre del esquema.

      Si seleccionas esta opción, Datastream creará un conjunto de datos en el proyecto que contiene el flujo para cada esquema de la base de datos de origen.

      Además, si seleccionas la opción Dataset for each schema, debes proporcionar la siguiente información:

      1. En la sección Tipo de ubicación, especifica dónde deseas almacenar tus datos en BigQuery. Selecciona Región para especificar una sola ubicación geográfica o Multirregión para especificar un área más grande que contenga dos o más regiones. Si tu prioridad es optimizar los costos y el rendimiento, selecciona Región y mantén tus conjuntos de datos junto con otros Google Cloud recursos que administras. Si deseas alcanzar límites de cuota más altos, selecciona Multirregión para permitir que BigQuery use varias regiones dentro de un grupo. Cuando seleccionas Región, el campo muestra de forma predeterminada la región que seleccionaste para la transmisión.
      2. De manera opcional, en el campo Prefijo del conjunto de datos, define un prefijo para el conjunto de datos que crea la transmisión. La cadena que especifiques se agregará al nombre del esquema de origen. Por ejemplo, si el esquema se llama <mySchema> y defines el prefijo del conjunto de datos como <myPrefix>, Datastream crea un conjunto de datos llamado <myPrefix><mySchema>.
      3. Expande la sección Mostrar opciones de encriptación avanzadas.
      4. Para especificar cómo deseas que se encripten tus datos en BigQuery, selecciona una clave de encriptación administrada por Google o por el cliente.
    • Conjunto de datos único para todos los esquemas: Datastream crea todas las tablas dentro del conjunto de datos de BigQuery existente que especifiques. Cada tabla que crea Datastream se nombra con una combinación del nombre del esquema de origen y el nombre de la tabla, separados por un guion bajo (por ejemplo, <mySchemaName>_<myTableName>). Los conjuntos de datos disponibles se agrupan por región. También puedes crear un conjunto de datos nuevo.

  2. Especifica el modo de escritura de transmisión. Selecciona el modo de escritura para definir cómo se escriben y procesan los datos en BigQuery:

    • Combinar: Selecciona esta opción si deseas que tus datos se sincronicen con la fuente.
    • Solo agregar: Selecciona esta opción si deseas conservar todos los datos históricos de tus eventos de cambio.
  3. Especifica el límite de inactividad de los datos. Solo está disponible cuando se selecciona el modo Combinar en el paso anterior. Selecciona un límite para equilibrar el rendimiento y el costo de las consultas de BigQuery con la actualización de los datos. BigQuery aplica los cambios en segundo plano de manera continua o en el tiempo de ejecución de la consulta, según el límite de inactividad. Una inactividad más baja (datos más recientes) puede aumentar los costos de procesamiento de BigQuery.

  4. Haz clic en CONTINUAR. Aparecerá el panel Revisar los detalles de la transmisión y crearla de la página Crear transmisión.

Destino de Cloud Storage

  1. De manera opcional, en el campo Prefijo de ruta de transmisión, ingresa la carpeta del bucket de destino al que Datastream transferirá los esquemas, las tablas y los datos desde una base de datos de origen.

    Por ejemplo, si deseas que Datastream transfiera datos de la base de datos de origen a la carpeta /root/example en el bucket de destino, ingresa /root/example en el campo Prefijo de ruta de transmisión.

  2. En el campo Formato de salida, elige el formato de archivos escritos en Cloud Storage.

  3. Opcional. Si seleccionas el formato JSON, aparecerán dos casillas de verificación:

    1. Incluir un archivo de esquema de tipos unificados en la ruta de acceso: Si seleccionas esta casilla de verificación, Datastream escribirá dos archivos en Cloud Storage: un archivo de datos JSON y un archivo de esquema Avro. El archivo de esquema tiene el mismo nombre que el archivo de datos, con la extensión .schema. Si no seleccionas esta casilla de verificación, Datastream solo escribirá el archivo de datos JSON en Cloud Storage. De forma predeterminada, esta casilla de verificación no está seleccionada.
    2. Habilitar compresión gzip: Si seleccionas esta casilla de verificación, Datastream usará la utilidad gzip para comprimir los archivos que escribe en Cloud Storage. Si no seleccionas esta casilla de verificación, Datastream escribirá los archivos en Cloud Storage sin comprimirlos. Esta casilla de verificación está seleccionada de forma predeterminada.
  4. Haz clic en CONTINUAR. Aparecerá el panel Revisar los detalles de la transmisión y crearla de la página Crear transmisión.

Crea la transmisión

  1. Verifica los detalles sobre la transmisión y los perfiles de conexión de origen y de destino que usará la transmisión para transferir datos de una base de datos de origen a un destino.
  2. Haz clic en EJECUTAR VALIDACIÓN para validar la transmisión. Cuando se valida una transmisión, Datastream verifica que la fuente esté configurada correctamente, que la transmisión pueda conectarse a la fuente y al destino, y que la configuración de extremo a extremo de la transmisión sea correcta.

    1. Si tu base de datos de origen es Oracle, Datastream realiza las siguientes verificaciones:

      VerificarDescripción
      Validez de la lista de objetosDatastream verifica que la lista de exclusiones no incluya la lista de inclusiones.
      Reenviar la conectividad del túnel SSHDatastream verifica que puede conectarse a un host de bastión a través de un túnel SSH de reenvío.
      Conectividad a la base de datos de OracleDatastream verifica que puede conectarse a la base de datos de Oracle de origen.
      Permisos del usuario de OracleDatastream verifica que el usuario que usa para conectarse a la base de datos de origen tenga todos los permisos necesarios para recuperar esquemas, tablas y datos de la base de datos, de modo que Datastream pueda transmitir esta información al destino.
      Configuración del modo de registroDatastream verifica que el modo de registro de la base de datos de Oracle esté configurado en ARCHIVELOG.
      Configuración de registro complementariaDatastream verifica que el registro complementario esté activado para las tablas de la base de datos que se transmiten desde la fuente al destino.
      Configuración de los CDC de OracleDatastream verifica que el método de CDC que seleccionaste cumpla con la configuración de tu base de datos.
      Configuración de los documentos de registro del archivoDatastream verifica que el registro de archivos esté configurado en la fuente y que los archivos de registro de archivos estén presentes.
      Permisos de Cloud Storage (para destinos de Cloud Storage) Datastream verifica que tenga los permisos necesarios para escribir en el bucket de destino en Cloud Storage.
    2. Si tu base de datos de origen es MySQL, Datastream realiza las siguientes verificaciones:

      VerificarDescripción
      Permisos de replicaciónDatastream verifica que tiene permisos para replicar una base de datos de MySQL.
      Versión de la base de datosDatastream verifica que la versión de la base de datos de MySQL sea compatible. Para obtener información sobre las ediciones compatibles, consulta Versiones.
      Configuración del formato de registro binarioDatastream verifica que el formato de registro binario de la base de datos de MySQL esté configurado como ROW.
      El registro binario está habilitadoDatastream verifica que los archivos de registro binarios estén configurados correctamente y que haya archivos de registro presentes.
      Configuración de la imagen de la fila de registro binarioDatastream verifica que la imagen de la fila del registro binario esté configurada en FULL.
      Compresión de binlog inhabilitadaDatastream verifica que la compresión binlog esté inhabilitada.
      Se habilitaron las actualizaciones de réplicas o secundarias de registroDatastream verifica que las actualizaciones de la réplica de registro o las actualizaciones secundarias estén habilitadas.
      Configuración del modo GTID (applies only to GTID-based CDC)Datastream verifica que el modo GTID esté configurado en ON si se usa la replicación basada en GTID.
      GtidSet no contiene GTID etiquetados (applies only to GTID-based CDC)Datastream verifica que el conjunto de GTID no contenga ningún GTID etiquetado.
      Permisos de Cloud Storage (para destinos de Cloud Storage)Datastream verifica que tenga los permisos necesarios para escribir en el bucket de destino en Cloud Storage.
      Verificación de advertenciasDescripción
      Configuración de Expire logs days, Expire logs seconds o Binlog retention hoursDatastream verifica que expire_logs_days, binlog_expire_logs_seconds y binlog retention hours estén configurados con valores superiores a 7, 604800 y 168, respectivamente.
      Configuración máxima permitida de paquetesDatastream verifica que max_allowed_packet esté configurado en 1 GB.
      Aplica la coherencia GTID o el modo estricto de GTID (applies only to GTID-based CDC)Datastream verifica que la coherencia de GTID o el modo estricto de GTID estén habilitados.
    3. Si tu base de datos de origen es PostgreSQL, Datastream realiza las siguientes verificaciones:

      VerificarDescripción
      Conectividad a la base de datos de PostgreSQLDatastream verifica que puede conectarse a la base de datos de PostgreSQL de origen.
      La decodificación lógica está habilitadaDatastream verifica que el parámetro wal_level de la base de datos de PostgreSQL esté configurado en logical.
      Configuración de la ranura de replicaciónDatastream verifica si el espacio de replicación de PostgreSQL existe y está activo, si Datastream tiene los permisos necesarios para acceder a él y si está configurado correctamente.
      Configuración de la publicaciónDatastream verifica que la publicación exista y que las tablas que se replicarán para el flujo se incluyan en ella.
      Permisos de reabastecimientoDatastream verifica que existan las tablas necesarias para reabastecer los datos históricos y que tenga los permisos necesarios para leerlos.
    4. Si tu base de datos de origen es SQL Server, Datastream realiza las siguientes verificaciones:

      VerificarDescripción
      Edición de SQL ServerDatastream verifica que la edición de la base de datos de SQL Server de origen sea compatible. Para obtener información sobre las ediciones compatibles, consulta Versiones.
      Permisos del usuario de SQL ServerDatastream verifica que el usuario tenga los permisos necesarios para acceder a la base de datos de SQL Server de origen.
      Las CDC de SQL Server están habilitadasDatastream verifica si la CDC está habilitada para la base de datos y todas las tablas incluidas en el flujo.
      Validaciones de bases de datos de SQL ServerDatastream verifica si la base de datos de origen está configurada correctamente, si se cumplen todos los requisitos de replicación y si no hay tipos de datos no admitidos en las columnas.
      Permisos de Cloud Storage o BigQueryDatastream verifica que el usuario tenga los permisos necesarios para escribir en el destino.
  3. Después de pasar todas las verificaciones de validación, haz clic en CREAR E INICIAR para crear la transmisión y, luego, iniciarla de inmediato o CREAR para crearla sin iniciarla de inmediato.

    Si no inicias la transmisión ahora, puedes hacerlo desde la página Transmisiones haciendo clic en INICIAR.

Después de crear un flujo, puedes ver información detallada y de alto nivel sobre él.

¿Qué sigue?