Crear un flujo

En esta sección, aprenderás a crear un stream. Datastream usa este flujo para transferir datos de una base de datos de origen de Oracle, MySQL, SQL Server o PostgreSQL a BigQuery o Cloud Storage.

Al crear un flujo, se incluyen los siguientes pasos:

  • Definir los ajustes de la emisión.
  • Seleccionar el perfil de conexión que has creado para tu fuente Oracle, MySQL, SQL Server, PostgreSQL, Salesforce (vista previa) o MongoDB (vista previa) (el perfil de conexión de origen) o crear un perfil de conexión de origen si no lo has hecho.
  • Configurar la información sobre la base de datos de origen del flujo especificando las tablas y los esquemas de la base de datos de origen que Datastream:
    • Puede transferir al destino.
    • No se puede transferir al destino.
  • Determinar si Datastream rellenará el historial de datos y transmitirá los cambios en curso al destino, o si solo transmitirá los cambios en los datos. Cuando habilitas la reposición histórica, puedes especificar de forma opcional los esquemas y las tablas de la base de datos de origen que Datastream no debe rellenar en el destino.

  • Seleccionando el perfil de conexión que has creado para BigQuery o Cloud Storage (el perfil de conexión de destino) o creando un perfil de conexión de destino si no lo has hecho.

  • Configurar la información sobre el destino del flujo. Entre la información obtenida de esta forma, se incluyen los siguientes datos:

    • En BigQuery:
      • Los conjuntos de datos en los que DataStream replicará los esquemas, las tablas y los datos de una base de datos de origen.
    • En Cloud Storage:
      • Carpeta del bucket de destino en la que Datastream transferirá esquemas, tablas y datos de una base de datos de origen.
  • Validar el flujo para asegurarse de que se ejecutará correctamente. Al validar un flujo, se comprueba lo siguiente:

    • Si la fuente está configurada correctamente para permitir que Datastream transmita datos desde ella.
    • Si el flujo puede conectarse tanto al origen como al destino.
    • La configuración integral del flujo.

Antes de empezar

  • Asegúrate de que has configurado la base de datos de origen para la replicación. Para obtener información sobre los pasos necesarios para cada tipo de fuente admitido, consulta Configurar fuentes.
  • Descubre qué pasos pueden ser necesarios para configurar el destino seleccionado. Para obtener más información, consulta Configurar destinos.

Definir los ajustes de la emisión

  1. Ve a la página Streams (Streams) de la Google Cloud consola.

    Ir a la página Streams

  2. Haz clic en CREAR STREAM.

  3. Usa la siguiente tabla para rellenar los campos de la sección Definir detalles del flujo de la página Crear flujo:

    CampoDescripción
    Nombre del flujoIntroduce el nombre visible del flujo.
    ID del flujoDatastream rellena este campo automáticamente en función del nombre de flujo que introduzca. Puedes conservar el ID que se genera automáticamente o cambiarlo.
    RegiónSelecciona la región en la que se almacena el flujo. Los flujos se guardan en una región, como todos los recursos. La región que elijas no afecta a si tu flujo puede conectarse a la base de datos de origen o al destino, pero puede repercutir en la disponibilidad si la región experimenta un periodo de inactividad. Para optimizar los costes y el rendimiento, te recomendamos que mantengas todos los recursos del flujo en la misma región que los datos de origen.
    Tipo de origen

    Selecciona el tipo de perfil que especificaste al crear un perfil de conexión para tu fuente Oracle, MySQL, SQL Server, PostgreSQL, Salesforce (vista previa) o MongoDB (vista previa). Si no has creado un perfil de conexión para la base de datos de origen, puedes crear uno ahora.

    Tipo de destinoSelecciona el tipo de perfil que especificaste al crear un perfil de conexión para un destino de BigQuery o Cloud Storage. Si no has creado un perfil de conexión para el destino, puedes hacerlo ahora.
    Cifrado

    De forma predeterminada, tus datos se cifran con una clave gestionada por Google Cloud. Si quieres gestionar el cifrado, puedes usar una clave de cifrado gestionada por el cliente (CMEK):

    1. Seleccione la casilla Clave de Cloud KMS.
    2. En el menú desplegable Tipo de clave, selecciona Cloud KMS y, a continuación, tu CMEK.

    Si no ves tu clave, haz clic en INTRODUCIR NOMBRE DE RECURSO DE CLAVE para proporcionar el nombre de recurso de la clave que quieras usar. Por ejemplo, puedes introducir projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key en el campo Nombre de recurso clave y, a continuación, hacer clic en GUARDAR.

  4. También puedes usar etiquetas para organizar tus recursos de Datastream.

    1. Para crear una etiqueta, haga clic en AÑADIR ETIQUETA y, a continuación, introduzca el par clave-valor de la etiqueta.
    2. Para quitar la etiqueta, haz clic en el icono de la papelera situado a la derecha de la fila que contiene la etiqueta.
  5. Si quieres, puedes añadir políticas de alertas a tu emisión. Las políticas de alertas definen cuándo y cómo quieres recibir notificaciones sobre los fallos de las emisiones.

    1. Para crear una política de alertas, haz clic en Añadir política de alertas.
    2. Se mostrará la página Crear política de alertas en Cloud Monitoring. En esta página, define la política de alertas en caso de que falle tu emisión.

    Para obtener más información sobre las políticas de alertas, consulta Gestionar políticas de alertas basadas en métricas.

  6. Revisa los requisitos previos que se generan automáticamente para reflejar cómo se debe preparar el entorno para un flujo. Estos requisitos pueden incluir cómo configurar la base de datos de origen y cómo conectarla con el destino. Es mejor completar estos requisitos previos en este paso, pero puedes hacerlo en cualquier momento antes de probar o iniciar la emisión. Para obtener más información sobre estos requisitos previos, consulta Fuentes.

  7. Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de base de datos de origen.

Especificar información sobre el perfil de conexión de origen

  1. Si has creado un perfil de conexión de origen para Oracle, MySQL, SQL Server, PostgreSQL, Salesforce (vista previa) o MongoDB (vista previa), selecciónalo en la lista de perfiles de conexión.

    Si no has creado un perfil de conexión de origen, haz clic en CREAR PERFIL DE CONEXIÓN en la parte inferior de la lista desplegable y sigue los mismos pasos que en Crear perfiles de conexión.

  2. Haz clic en EJECUTAR PRUEBA para verificar que la base de datos de origen y Datastream pueden comunicarse entre sí.

    Si la prueba falla, aparecerá el problema asociado al perfil de conexión. Consulta los pasos para solucionar problemas en la página Diagnosticar problemas. Haga los cambios necesarios para corregir el problema y, a continuación, vuelva a hacer la prueba.

  3. Haz clic en CONTINUAR. Aparecerá el panel Configurar origen del flujo de la página Crear flujo.

Configurar la información sobre la base de datos de origen del flujo

Configurar una base de datos de origen PostgreSQL

  1. Define las propiedades de replicación de tu base de datos de origen de PostgreSQL. En la sección Propiedades de replicación, especifique las siguientes propiedades:
    1. En el campo Nombre de la ranura de replicación, introduce el nombre de la ranura que has creado específicamente para este flujo. El servidor de la base de datos usa este espacio para enviar eventos a Datastream.
    2. En el campo Nombre de publicación, introduce el nombre de la publicación que has creado en la base de datos. Una publicación es un grupo de todas las tablas de las que quieres replicar los cambios mediante este flujo.
  2. En la sección Seleccionar objetos que se van a incluir, use el menú desplegable Objetos que se van a incluir para especificar las tablas y los esquemas de la base de datos de origen que Datastream puede transferir al destino.
    • Si quieres que Datastream transfiera todas las tablas y los esquemas, selecciona Todas las tablas de todos los esquemas.
    • Si quiere que Datastream transfiera solo tablas y esquemas específicos, seleccione Esquemas y tablas específicos y, a continuación, marque las casillas de los esquemas y las tablas que quiera que Datastream extraiga.
    • Si quiere proporcionar una definición textual de las tablas y los esquemas que quiere que transfiera Datastream, seleccione Personalizado y, a continuación, en el campo Criterios de coincidencia de objetos, introduzca los esquemas y las tablas que quiere que extraiga Datastream. Si tu base de datos tiene un gran número de tablas y esquemas, te recomendamos que uses la opción Personalizar, ya que es posible que algunas tablas y esquemas no se incluyan en la lista de objetos que se van a extraer.
  3. También puede desplegar el nodo Seleccionar objetos que excluir. En el campo Objetos que excluir, introduzca las tablas y los esquemas de la base de datos de origen de los que quiera impedir que Datastream extraiga datos. La lista Objetos que se van a excluir tiene prioridad sobre la lista Objetos que se van a incluir. Si un objeto cumple los criterios de las listas de inclusión y exclusión, se excluye del flujo.
  4. Opcionalmente, expanda el nodo Elegir modo de relleno para datos históricos y, a continuación, seleccione una de las siguientes opciones:
    • Selecciona la opción Automático para transferir todos los datos actuales, así como los cambios que se produzcan, de la fuente al destino. En el campo Objetos excluidos del relleno automático, introduzca las tablas y los esquemas de la base de datos de origen que quiera que Datastream no rellene en el destino.
    • Selecciona la opción Manual para enviar solo los cambios de los datos al destino.
  5. Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de destino.

Configurar una base de datos MySQL de origen

  1. En la sección Seleccionar objetos que se van a incluir, use el menú desplegable Objetos que se van a incluir para especificar las tablas y los esquemas de la base de datos de origen que Datastream puede transferir al destino.
    • Si quieres que Datastream transfiera todas las tablas y los esquemas, selecciona Todas las tablas de todos los esquemas.
    • Si quiere que Datastream transfiera solo tablas y esquemas específicos, seleccione Esquemas y tablas específicos y, a continuación, marque las casillas de los esquemas y las tablas que quiera que Datastream extraiga.
    • Si quiere proporcionar una definición textual de las tablas y los esquemas que quiere que transfiera Datastream, seleccione Personalizado y, a continuación, en el campo Criterios de coincidencia de objetos, introduzca los esquemas y las tablas que quiere que extraiga Datastream. Si tu base de datos tiene un gran número de tablas y esquemas, te recomendamos que uses la opción Personalizar, ya que es posible que algunas tablas y esquemas no se incluyan en la lista de objetos que se van a extraer.
  2. También puede desplegar el nodo Seleccionar objetos que excluir. En el campo Objetos que excluir, introduzca las tablas y los esquemas de la base de datos de origen de los que quiera impedir que Datastream extraiga datos. La lista Objetos que se van a excluir tiene prioridad sobre la lista Objetos que se van a incluir. Si un objeto cumple los criterios de las listas de inclusión y exclusión, se excluye del flujo.
  3. Especifica el método de CDC de tu flujo:
    • Replicación basada en GTID (identificadores de transacción globales): selecciona este método si quieres que Datastream admita conmutaciones por error y proporcione una replicación fluida independientemente de los cambios que se produzcan en tu clúster de bases de datos.
    • Replicación basada en binlog: selecciona este método para leer y replicar los cambios directamente desde los archivos de registro binario de una instancia de base de datos seleccionada. No puedes cambiar una secuencia en ejecución a otra instancia de origen o a una réplica con este método de CDC.
  4. Opcionalmente, expanda el nodo Elegir modo de relleno para datos históricos y, a continuación, seleccione una de las siguientes opciones:
    • Selecciona la opción Automático para transferir todos los datos actuales, así como los cambios que se produzcan, de la fuente al destino. En el campo Objetos excluidos del relleno automático, introduzca las tablas y los esquemas de la base de datos de origen que quiera que Datastream no rellene en el destino.
    • Selecciona la opción Manual para enviar solo los cambios de los datos al destino.
  5. Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de destino.

Configurar una base de datos de Oracle de origen

  1. En la sección Seleccionar objetos que se van a incluir, use el menú desplegable Objetos que se van a incluir para especificar las tablas y los esquemas de la base de datos de origen que Datastream puede transferir al destino.
    • Si quieres que Datastream transfiera todas las tablas y los esquemas, selecciona Todas las tablas de todos los esquemas.
    • Si quiere que Datastream transfiera solo tablas y esquemas específicos, seleccione Esquemas y tablas específicos y, a continuación, marque las casillas de los esquemas y las tablas que quiera que Datastream extraiga.
    • Si quiere proporcionar una definición textual de las tablas y los esquemas que quiere que transfiera Datastream, seleccione Personalizado y, a continuación, en el campo Criterios de coincidencia de objetos, introduzca los esquemas y las tablas que quiere que extraiga Datastream. Si tu base de datos tiene un gran número de tablas y esquemas, te recomendamos que uses la opción Personalizar, ya que es posible que algunas tablas y esquemas no se incluyan en la lista de objetos que se van a extraer.
  2. También puede desplegar el nodo Seleccionar objetos que excluir. En el campo Objetos que excluir, introduzca las tablas y los esquemas de la base de datos de origen de los que quiera impedir que Datastream extraiga datos. La lista Objetos que se van a excluir tiene prioridad sobre la lista Objetos que se van a incluir. Si un objeto cumple los criterios de las listas de inclusión y exclusión, se excluye del flujo.
  3. Especifica el método de CDC de tu flujo:
    • LogMiner selecciona este método para consultar los registros de rehacer archivados mediante la API LogMiner. LogMiner admite la mayoría de las opciones disponibles para Oracle, como las opciones de cifrado y compresión.
    • Lector binario (Vista previa): selecciona este método para extraer los cambios directamente de los registros de Oracle. Esto permite replicar más rápido las bases de datos Oracle de gran tamaño, así como reducir la latencia y la sobrecarga. Si selecciona esta opción, se mostrará otro menú desplegable. Selecciona la forma en la que quieres acceder a tus archivos de registro de Oracle:
      • Gestión de almacenamiento automática (ASM): selecciona esta opción si tu base de datos usa ASM. Asegúrate de haber seleccionado la casilla Habilitar acceso a ASM para el lector binario y de haber rellenado los detalles de tu instancia de ASM en el perfil de conexión de origen.
      • Directorios de bases de datos: selecciona esta opción si no usas ASM para almacenar tus archivos de registro. Si selecciona directorios de bases de datos, debe proporcionar los nombres de los directorios de registros de rehacer y de registros archivados.
  4. Opcionalmente, expanda el nodo Elegir modo de relleno para datos históricos y, a continuación, seleccione una de las siguientes opciones:
    • Selecciona la opción Automático para transferir todos los datos actuales, así como los cambios que se produzcan, de la fuente al destino. En el campo Objetos excluidos del relleno automático, introduzca las tablas y los esquemas de la base de datos de origen que quiera que Datastream no rellene en el destino.
    • Selecciona la opción Manual para enviar solo los cambios de los datos al destino.
  5. Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de destino.

Configurar una base de datos de origen de SQL Server

  1. En la sección Seleccionar objetos que se van a incluir, use el menú desplegable Objetos que se van a incluir para especificar las tablas y los esquemas de la base de datos de origen que Datastream puede transferir al destino.
    • Si quieres que Datastream transfiera todas las tablas y los esquemas, selecciona Todas las tablas de todos los esquemas.
    • Si quiere que Datastream transfiera solo tablas y esquemas específicos, seleccione Esquemas y tablas específicos y, a continuación, marque las casillas de los esquemas y las tablas que quiera que Datastream extraiga.
    • Si quiere proporcionar una definición textual de las tablas y los esquemas que quiere que transfiera Datastream, seleccione Personalizado y, a continuación, en el campo Criterios de coincidencia de objetos, introduzca los esquemas y las tablas que quiere que extraiga Datastream. Si tu base de datos tiene un gran número de tablas y esquemas, te recomendamos que uses la opción Personalizar, ya que es posible que algunas tablas y esquemas no se incluyan en la lista de objetos que se van a extraer.
  2. También puede desplegar el nodo Seleccionar objetos que excluir. En el campo Objetos que excluir, introduzca las tablas y los esquemas de la base de datos de origen de los que quiera impedir que Datastream extraiga datos. La lista Objetos que se van a excluir tiene prioridad sobre la lista Objetos que se van a incluir. Si un objeto cumple los criterios de las listas de inclusión y exclusión, se excluye del flujo.
  3. Especifica el método de CDC de tu flujo:
    • Registros de transacciones: seleccione este método para procesar los cambios directamente desde los registros de la base de datos. Este método ofrece el mejor rendimiento y es más eficiente, pero requiere pasos de configuración adicionales.
    • Cambiar tablas: selecciona este método para procesar los cambios de tablas de cambios específicas. Este método es más fácil de configurar y tiene menos limitaciones, pero admite un menor rendimiento y genera una mayor carga en su base de datos que el método de los registros de transacciones.
  4. Opcionalmente, expanda el nodo Elegir modo de relleno para datos históricos y, a continuación, seleccione una de las siguientes opciones:
    • Selecciona la opción Automático para transferir todos los datos actuales, así como los cambios que se produzcan, de la fuente al destino. En el campo Objetos excluidos del relleno automático, introduzca las tablas y los esquemas de la base de datos de origen que quiera que Datastream no rellene en el destino.
    • Selecciona la opción Manual para enviar solo los cambios de los datos al destino.
  5. Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de destino.

Configurar una organización de Salesforce de origen (vista previa)

  1. En la sección Select objects to include (Seleccionar objetos que se van a incluir), use el menú desplegable Objects to include (Objetos que se van a incluir) para especificar los objetos y los campos de su organización que quiere que Datastream transfiera al destino.
    • Si quiere que Datastream transfiera todos los objetos, seleccione Todos los objetos.
    • Si quiere que Datastream transfiera solo objetos específicos, seleccione Objetos específicos y, a continuación, marque las casillas de los objetos que quiera que extraiga Datastream.
    • Si quiere proporcionar una definición textual de los objetos que quiere que transfiera Datastream, seleccione Personalizado y, a continuación, en el campo Criterios de coincidencia de objetos, introduzca los objetos que quiere que extraiga Datastream. Introduzca los objetos como una lista separada por comas con el formato [object].[field]. Si tu base de datos tiene un gran número de objetos, te recomendamos que uses la opción Personalizado, ya que es posible que algunas tablas y esquemas no se incluyan en la lista de objetos que se van a extraer.
  2. Define el valor del intervalo de sondeo en minutos. Datastream usa este valor para comprobar si hay cambios en los datos de su organización de Salesforce. Cuanto mayor sea el valor, menor será el coste y la carga de tu organización. Cuanto menor sea el valor, más actualizados estarán los datos del destino.
  3. También puede desplegar el nodo Seleccionar objetos que excluir. En el campo Objetos que se van a excluir, introduzca los objetos y los campos de la organización de origen de los que quiera impedir que Datastream extraiga datos. La lista Objetos que se van a excluir tiene prioridad sobre la lista Objetos que se van a incluir. Si un objeto cumple los criterios de las listas de inclusión y exclusión, se excluye del flujo.
  4. Opcionalmente, expanda el nodo Elegir modo de relleno para datos históricos y, a continuación, seleccione una de las siguientes opciones:
    • Selecciona la opción Automático para replicar todos los datos, así como los cambios que se produzcan en ellos, desde el origen hasta el destino. En el campo Objetos excluidos del relleno automático, introduzca los objetos de la organización de origen que quiera que Datastream no rellene en la de destino.
    • Selecciona la opción Manual para replicar solo los cambios en los datos en el destino.
  5. Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de destino.

Configurar una base de datos de origen de MongoDB (versión preliminar)

  1. En la sección Seleccionar objetos que incluir, use el menú desplegable Objetos que incluir para especificar las bases de datos y las colecciones que quiere que Datastream transfiera al destino.
    • Si quiere que Datastream transfiera todas las colecciones, seleccione Todas las bases de datos y colecciones.
    • Si quiere que Datastream transfiera solo colecciones específicas, seleccione Bases de datos y colecciones específicas y, a continuación, marque las casillas de las colecciones que quiera que Datastream extraiga.
    • Si quiere proporcionar una definición textual de las colecciones que quiere que transfiera Datastream, seleccione Personalizado y, a continuación, en el campo Criterios de coincidencia de objetos, introduzca las colecciones que quiere que extraiga Datastream. Introduzca los objetos como una lista separada por comas con el formato [collection].[field]. Si tu base de datos tiene un gran número de objetos, te recomendamos que uses la opción Personalizado, ya que es posible que algunas tablas y esquemas no se incluyan en la lista de objetos que se van a extraer.
  2. Opcionalmente, expanda el nodo Elegir modo de relleno para datos históricos y, a continuación, seleccione una de las siguientes opciones:
    • Selecciona la opción Automático para replicar todos los datos, así como los cambios que se produzcan en ellos, desde el origen hasta el destino. En el campo Objetos excluidos del relleno automático, introduzca los objetos de la organización de origen que quiera que Datastream no rellene en la de destino.
    • Selecciona la opción Manual para replicar solo los cambios en los datos en el destino.
  3. Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de destino.

Selecciona un perfil de conexión de destino

  1. Si ya has creado un perfil de conexión de destino, selecciónalo en la lista de perfiles de conexión.

    Si no has creado un perfil de conexión de destino, haz clic en CREAR PERFIL DE CONEXIÓN en la parte inferior de la lista desplegable y sigue los mismos pasos que en Crear perfiles de conexión.

  2. Haz clic en CONTINUAR. Aparecerá el panel Configurar destino del flujo de la página Crear flujo.

Configurar la información sobre el destino del flujo

En esta sección se describe la información que debe proporcionar para configurar su destino de BigQuery o Cloud Storage.

Destino de BigQuery

  1. En la sección Especifica cómo debe transmitir Datastream a un conjunto de datos de BigQuery, selecciona una de las siguientes opciones en el menú desplegable Agrupación de esquemas:

    • Conjunto de datos para cada esquema: Datastream crea un conjunto de datos de BigQuery para cada esquema de origen, en función del nombre del esquema.

      Si selecciona esta opción, Datastream creará un conjunto de datos en el proyecto que contenga el flujo por cada esquema de la base de datos de origen.

      Además, si selecciona la opción Conjunto de datos para cada esquema, debe proporcionar lo siguiente:

      1. En la sección Tipo de ubicación, especifica dónde quieres almacenar tus datos en BigQuery. Selecciona Región para especificar una sola ubicación geográfica o Multirregión para especificar un área más grande que contenga dos o más regiones. Si tu prioridad es optimizar los costes y el rendimiento, selecciona Región y mantén tus conjuntos de datos junto con otros Google Cloud recursos que gestiones. Si quieres aumentar los límites de cuota, selecciona Multirregión para que BigQuery use varias regiones de un grupo. Si seleccionas Región, el campo se rellena de forma predeterminada con la región que hayas seleccionado para la emisión.
      2. Opcional: En el campo Prefijo del conjunto de datos, defina un prefijo para el conjunto de datos creado por el flujo. La cadena que especifiques se añade al nombre del esquema de origen. Por ejemplo, si el esquema se llama <mySchema> y define el prefijo del conjunto de datos como <myPrefix>, Datastream crea un conjunto de datos llamado <myPrefix><mySchema>.
      3. Despliega la sección Mostrar opciones avanzadas de cifrado.
      4. Especifica cómo quieres que se cifren tus datos en BigQuery seleccionando una clave de cifrado gestionada por Google o por el cliente.

    • Un solo conjunto de datos para todos los esquemas: Datastream crea todas las tablas en el conjunto de datos de BigQuery que especifiques. Cada tabla que crea Datastream se denomina con una combinación del nombre del esquema de origen y el nombre de la tabla, separados por un guion bajo (por ejemplo, <mySchemaName>_<myTableName>). Los conjuntos de datos disponibles se agrupan por región. También puedes crear un nuevo conjunto de datos.

  2. Especifica el modo de escritura del flujo. Selecciona el modo de escritura para definir cómo se escriben y procesan los datos en BigQuery:

    • Combinar: selecciona esta opción si quieres que tus datos se sincronicen con la fuente.
    • Solo añadir: seleccione esta opción si quiere conservar todo el historial de datos de sus eventos de cambio.
  3. Especifica el límite de antigüedad de los datos. Solo está disponible cuando se selecciona el modo Combinar en el paso anterior. Selecciona un límite para equilibrar el rendimiento y el coste de las consultas de BigQuery con la actualización de los datos. BigQuery aplica los cambios en segundo plano de forma continua o en el tiempo de ejecución de la consulta, según el límite de obsolescencia. Si se reduce la obsolescencia (datos más recientes), pueden aumentar los costes de procesamiento de BigQuery.

  4. Haz clic en CONTINUAR. Aparecerá el panel Revisar detalles del flujo y crearlo de la página Crear flujo.

Destino de tablas de Iceberg de BigLake

  1. En la sección Specify how Datastream should stream into a BigQuery dataset (Especificar cómo debe transmitir Datastream a un conjunto de datos de BigQuery), seleccione cómo quiere que Datastream cree nuevos esquemas y tablas en el menú desplegable Schema grouping (Agrupación de esquemas):

    • Conjunto de datos para cada esquema: Datastream crea un conjunto de datos de BigQuery para cada esquema de origen, en función del nombre del esquema.

      Si selecciona esta opción, Datastream creará un conjunto de datos en el proyecto que contenga el flujo por cada esquema de la base de datos de origen.

      Además, si selecciona la opción Conjunto de datos para cada esquema, debe proporcionar lo siguiente:

      1. En la sección Tipo de ubicación, especifica dónde quieres almacenar tus datos en BigQuery. Selecciona Región para especificar una sola ubicación geográfica o Multirregión para especificar un área más grande que contenga dos o más regiones. Si tu prioridad es optimizar los costes y el rendimiento, selecciona Región y mantén tus conjuntos de datos junto con otros Google Cloud recursos que gestiones. Si quieres aumentar los límites de cuota, selecciona Multirregión para que BigQuery use varias regiones de un grupo. Si seleccionas Región, el campo se rellena de forma predeterminada con la región que hayas seleccionado para la emisión.
      2. Opcional: En el campo Prefijo del conjunto de datos, defina un prefijo para el conjunto de datos creado por el flujo. La cadena que especifiques se añade al nombre del esquema de origen. Por ejemplo, si el esquema se llama <mySchema> y define el prefijo del conjunto de datos como <myPrefix>, Datastream crea un conjunto de datos llamado <myPrefix><mySchema>.
      3. Despliega la sección Mostrar opciones avanzadas de cifrado.
      4. Especifica cómo quieres que se cifren tus datos en BigQuery seleccionando una clave de cifrado gestionada por Google o por el cliente.

    • Un solo conjunto de datos para todos los esquemas: Datastream crea todas las tablas en el conjunto de datos de BigQuery que especifiques. Cada tabla que crea Datastream se denomina con una combinación del nombre del esquema de origen y el nombre de la tabla, separados por un guion bajo (por ejemplo, <mySchemaName>_<myTableName>). Los conjuntos de datos disponibles se agrupan por región. También puedes crear un nuevo conjunto de datos.

  2. En la sección Define la conexión de Datastream a las tablas de BigLake Iceberg, proporcione la siguiente información:

    • En el menú desplegable ID de conexión, seleccione el identificador de la conexión de BigQuery que ha creado y que quiere usar en su flujo. Para obtener información sobre cómo crear una conexión de recursos de Cloud en BigQuery, consulta Configurar tablas de Iceberg de BigLake en BigQuery.

    • Introduce o selecciona la dirección URI del segmento que has creado en Cloud Storage. Para obtener información sobre cómo crear un segmento de Cloud Storage, consulta Crear un segmento.

  3. Revisa el Formato de archivo y el Formato de tabla. Datastream admite el formato de archivo Parquet y el formato de tabla Iceberg.

  4. Revisa el modo de escritura de la emisión. Datastream solo admite el modo de escritura Solo añadir al transmitir datos a tablas Iceberg de BigLake.

  5. Haz clic en CONTINUAR. Aparecerá el panel Revisar detalles del flujo y crearlo de la página Crear flujo.

Destino de Cloud Storage

  1. De forma opcional, en el campo Prefijo de ruta de la secuencia, introduzca la carpeta del bucket de destino al que Datastream transferirá los esquemas, las tablas y los datos de una base de datos de origen.

    Por ejemplo, si quiere que Datastream transfiera datos de la base de datos de origen a la carpeta /root/example del segmento de destino, introduzca /root/example en el campo Prefijo de ruta de flujo.

  2. En el campo Formato de salida, elige el formato de los archivos que se escriben en Cloud Storage.

  3. Opcional. Si seleccionas el formato JSON, aparecerán dos casillas:

    1. Incluir un archivo de esquema de tipos unificados en la ruta del archivo: si marcas esta casilla, Datastream escribe dos archivos en Cloud Storage: un archivo de datos JSON y un archivo de esquema Avro. El archivo de esquema tiene el mismo nombre que el archivo de datos, pero con la extensión .schema. Si no marcas esta casilla, Datastream solo escribirá el archivo de datos JSON en Cloud Storage. De forma predeterminada, esta casilla no está marcada.
    2. Habilitar la compresión gzip: si selecciona esta casilla, Datastream usará la utilidad gzip para comprimir los archivos que escriba en Cloud Storage. Si no seleccionas esta casilla, Datastream escribirá los archivos en Cloud Storage sin comprimirlos. Esta casilla está marcada de forma predeterminada.
  4. Haz clic en CONTINUAR. Aparecerá el panel Revisar detalles del flujo y crearlo de la página Crear flujo.

Crear el flujo

  1. Verifica los detalles del flujo, así como los perfiles de conexión de origen y de destino que usará el flujo para transferir datos de una base de datos de origen a un destino.
  2. Haz clic en EJECUTAR VALIDACIÓN para validar el flujo. Al validar un flujo, Datastream comprueba que la fuente esté configurada correctamente, valida que el flujo pueda conectarse tanto a la fuente como al destino y verifica la configuración integral del flujo.

    1. Si la base de datos de origen es Oracle, Datastream realiza las siguientes comprobaciones:

      VerificaciónDescripción
      Validez de la lista de objetosDatastream verifica que la lista de exclusión no subsuma la lista de inclusión.
      Conectividad de túnel directo SSHDatastream verifica que puede conectarse a un host bastion a través de un túnel directo SSH.
      Conectividad a la base de datos de OracleDatastream verifica que puede conectarse a la base de datos de Oracle de origen.
      Permisos de usuario de OracleDatastream verifica que el usuario que utiliza para conectarse a la base de datos de origen tenga todos los permisos necesarios para obtener esquemas, tablas y datos de la base de datos, de modo que Datastream pueda transmitir esta información a la base de datos de destino.
      Configuración del modo de registroDatastream verifica que el modo de registro de la base de datos Oracle esté definido como ARCHIVELOG.
      Configuración del registro complementarioDatastream verifica que el registro complementario esté activado en las tablas de la base de datos que se están transmitiendo desde el origen al destino.
      Configuración de CDC de OracleDatastream verifica que el método de CDC que has seleccionado cumple los requisitos de configuración de tu base de datos.
      Configuración de archivos de registroDatastream verifica que el registro de archivos esté configurado en la fuente y que los archivos de registro estén presentes.
      Permisos de Cloud Storage (para destinos de Cloud Storage) Datastream verifica que tiene los permisos necesarios para escribir en el segmento de destino de Cloud Storage.
    2. Si tu base de datos de origen es MySQL, Datastream realiza las siguientes comprobaciones:

      VerificaciónDescripción
      Permisos de replicaciónDatastream verifica que tiene permisos para replicar una base de datos MySQL.
      Versión de la base de datosDatastream verifica que la versión de la base de datos MySQL sea compatible. Para obtener información sobre las ediciones compatibles, consulta Versiones.
      Configuración del formato de registro binarioDatastream verifica que el formato de registro binario de la base de datos MySQL sea ROW.
      Se ha habilitado el almacenamiento de registros binariosDatastream verifica que los archivos de registro binario estén configurados correctamente y que haya archivos de registro.
      Configuración de la imagen de fila del registro binarioFlujo de datos verifica que la imagen de fila de binlog esté configurada como FULL.
      Compresión de binlog inhabilitadaDatastream verifica que la compresión de binlog esté inhabilitada.
      Actualizaciones de réplica o esclava de registro habilitadasDatastream verifica que las réplicas de registros o las actualizaciones secundarias estén habilitadas.
      Configuración del modo GTID (applies only to GTID-based CDC)Datastream verifica que el modo GTID esté definido como ON si se usa la replicación basada en GTID.
      GtidSet no contiene GTIDs etiquetados (applies only to GTID-based CDC)Datastream verifica que el conjunto de GTIDs no contenga ningún GTID etiquetado.
      Permisos de Cloud Storage (para destinos de Cloud Storage)Datastream verifica que tiene los permisos necesarios para escribir en el segmento de destino de Cloud Storage.
      Comprobación de advertenciasDescripción
      Configuración de días de caducidad de registros, segundos de caducidad de registros u horas de conservación de binlogsDatastream verifica que expire_logs_days, binlog_expire_logs_seconds y binlog retention hours tengan valores superiores a 7, 604800 y 168, respectivamente.
      Configuración máxima de paquetes permitidaDatastream verifica que max_allowed_packet esté configurado en 1 GB.
      Aplicar la coherencia de los GTIDs o el modo estricto de los GTIDs (applies only to GTID-based CDC)El flujo de datos verifica que la coherencia o el modo estricto de GTID estén habilitados.
    3. Si tu base de datos de origen es PostgreSQL, Datastream realiza las siguientes comprobaciones:

      VerificaciónDescripción
      Conectividad a la base de datos PostgreSQLDatastream verifica que puede conectarse a la base de datos PostgreSQL de origen.
      La decodificación lógica está habilitadaDatastream verifica que el parámetro wal_level de la base de datos de PostgreSQL esté definido como logical.
      Configuración de la ranura de replicaciónDatastream verifica si la ranura de replicación de PostgreSQL existe y está activa, si Datastream tiene los permisos necesarios para acceder a ella y si está configurada correctamente.
      Configuración de la publicaciónDatastream verifica que la publicación exista y que las tablas que se van a replicar en el flujo estén incluidas en la publicación.
      Permisos de backfillDatastream verifica que las tablas necesarias para rellenar el historial de datos existen y que tiene los permisos necesarios para leerlas.
    4. Si la base de datos de origen es SQL Server, Datastream realiza las siguientes comprobaciones:

      VerificaciónDescripción
      Edición de SQL ServerDatastream verifica que la edición de la base de datos de SQL Server de origen sea compatible. Para obtener información sobre las ediciones compatibles, consulta Versiones.
      Permisos de usuario de SQL ServerDatastream verifica que el usuario tenga los permisos necesarios para acceder a la base de datos de SQL Server de origen.
      CDC de SQL Server está habilitadoDatastream verifica si CDC está habilitado en la base de datos y en todas las tablas incluidas en el flujo.
      Validaciones de bases de datos de SQL ServerDatastream comprueba si la base de datos de origen está configurada correctamente, si se cumplen todos los requisitos de replicación y si no hay tipos de datos no admitidos en las columnas.
      Permisos de Cloud Storage o BigQueryDatastream verifica que el usuario tenga los permisos necesarios para escribir en el destino.
    5. Si tu base de datos de origen es Salesforce (Vista previa), Datastream realiza las siguientes comprobaciones:

      VerificaciónDescripción
      Inicio de sesión con credencialesDatastream verifica que puede autenticarse correctamente en la organización de Salesforce del cliente con las credenciales proporcionadas.
      API BulkDatastream verifica que tiene los permisos necesarios para acceder a la API Bulk 2.0 de Salesforce. Se necesita la API Bulk 2.0 para leer grandes cantidades de datos.
      Comprobación de advertenciasDescripción
      Límites de la APIDatastream calcula una estimación del uso esperado de la API en función del número de objetos y del intervalo de sondeo seleccionados. Si el número diario de solicitudes previsto es superior al límite que ha aplicado Salesforce, Datastream emite una advertencia. Puedes crear y ejecutar el flujo aunque no supere la comprobación de validación.
    6. Si tu base de datos de origen es MongoDB (versión preliminar), Datastream realiza las siguientes comprobaciones:

      VerificaciónDescripción
      Permisos de usuarioDatastream verifica que el rol readAnyDatabase se ha asignado al usuario.
      Configuraciones de conexiónDatastream usa el comando hello para verificar que las configuraciones de conexión son válidas.
      Versión de MongoDBDatastream verifica que la versión de MongoDB sea la 5.0 o una posterior.
      Permisos de Cloud Storage o BigQueryDatastream verifica que el usuario tenga los permisos necesarios para escribir en el destino.
  3. Una vez que se hayan superado todas las comprobaciones de validación, haga clic en CREAR E INICIAR para crear el flujo e iniciarlo inmediatamente, o en CREAR para crear el flujo sin iniciarlo inmediatamente.

    Si no inicias la emisión ahora, puedes hacerlo desde la página Emisiones haciendo clic en INICIAR.

Después de crear un flujo, puede ver información general y detallada sobre él.

Siguientes pasos