En esta sección, aprenderás a crear un stream. Datastream usa este flujo para transferir datos de una base de datos de origen de Oracle, MySQL, SQL Server o PostgreSQL a BigQuery o Cloud Storage.
Al crear un flujo, se incluyen los siguientes pasos:
- Definir los ajustes de la emisión.
- Seleccionar el perfil de conexión que has creado para tu fuente Oracle, MySQL, SQL Server, PostgreSQL, Salesforce (vista previa) o MongoDB (vista previa) (el perfil de conexión de origen) o crear un perfil de conexión de origen si no lo has hecho.
- Configurar la información sobre la base de datos de origen del flujo especificando las tablas y los esquemas de la base de datos de origen que Datastream:
- Puede transferir al destino.
- No se puede transferir al destino.
Determinar si Datastream rellenará el historial de datos y transmitirá los cambios en curso al destino, o si solo transmitirá los cambios en los datos. Cuando habilitas la reposición histórica, puedes especificar de forma opcional los esquemas y las tablas de la base de datos de origen que Datastream no debe rellenar en el destino.
Seleccionando el perfil de conexión que has creado para BigQuery o Cloud Storage (el perfil de conexión de destino) o creando un perfil de conexión de destino si no lo has hecho.
Configurar la información sobre el destino del flujo. Entre la información obtenida de esta forma, se incluyen los siguientes datos:
- En BigQuery:
- Los conjuntos de datos en los que DataStream replicará los esquemas, las tablas y los datos de una base de datos de origen.
- En Cloud Storage:
- Carpeta del bucket de destino en la que Datastream transferirá esquemas, tablas y datos de una base de datos de origen.
- En BigQuery:
Validar el flujo para asegurarse de que se ejecutará correctamente. Al validar un flujo, se comprueba lo siguiente:
- Si la fuente está configurada correctamente para permitir que Datastream transmita datos desde ella.
- Si el flujo puede conectarse tanto al origen como al destino.
- La configuración integral del flujo.
Antes de empezar
- Asegúrate de que has configurado la base de datos de origen para la replicación. Para obtener información sobre los pasos necesarios para cada tipo de fuente admitido, consulta Configurar fuentes.
- Descubre qué pasos pueden ser necesarios para configurar el destino seleccionado. Para obtener más información, consulta Configurar destinos.
Definir los ajustes de la emisión
Ve a la página Streams (Streams) de la Google Cloud consola.
Haz clic en CREAR STREAM.
Usa la siguiente tabla para rellenar los campos de la sección Definir detalles del flujo de la página Crear flujo:
Campo Descripción Nombre del flujo Introduce el nombre visible del flujo. ID del flujo Datastream rellena este campo automáticamente en función del nombre de flujo que introduzca. Puedes conservar el ID que se genera automáticamente o cambiarlo. Región Selecciona la región en la que se almacena el flujo. Los flujos se guardan en una región, como todos los recursos. La región que elijas no afecta a si tu flujo puede conectarse a la base de datos de origen o al destino, pero puede repercutir en la disponibilidad si la región experimenta un periodo de inactividad. Para optimizar los costes y el rendimiento, te recomendamos que mantengas todos los recursos del flujo en la misma región que los datos de origen. Tipo de origen Selecciona el tipo de perfil que especificaste al crear un perfil de conexión para tu fuente Oracle, MySQL, SQL Server, PostgreSQL, Salesforce (vista previa) o MongoDB (vista previa). Si no has creado un perfil de conexión para la base de datos de origen, puedes crear uno ahora.
Tipo de destino Selecciona el tipo de perfil que especificaste al crear un perfil de conexión para un destino de BigQuery o Cloud Storage. Si no has creado un perfil de conexión para el destino, puedes hacerlo ahora. Cifrado De forma predeterminada, tus datos se cifran con una clave gestionada por Google Cloud. Si quieres gestionar el cifrado, puedes usar una clave de cifrado gestionada por el cliente (CMEK):
- Seleccione la casilla Clave de Cloud KMS.
- En el menú desplegable Tipo de clave, selecciona Cloud KMS y, a continuación, tu CMEK.
Si no ves tu clave, haz clic en INTRODUCIR NOMBRE DE RECURSO DE CLAVE para proporcionar el nombre de recurso de la clave que quieras usar. Por ejemplo, puedes introducir
projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key
en el campo Nombre de recurso clave y, a continuación, hacer clic en GUARDAR.También puedes usar etiquetas para organizar tus recursos de Datastream.
- Para crear una etiqueta, haga clic en AÑADIR ETIQUETA y, a continuación, introduzca el par clave-valor de la etiqueta.
- Para quitar la etiqueta, haz clic en el icono de la papelera situado a la derecha de la fila que contiene la etiqueta.
Si quieres, puedes añadir políticas de alertas a tu emisión. Las políticas de alertas definen cuándo y cómo quieres recibir notificaciones sobre los fallos de las emisiones.
- Para crear una política de alertas, haz clic en Añadir política de alertas.
- Se mostrará la página Crear política de alertas en Cloud Monitoring. En esta página, define la política de alertas en caso de que falle tu emisión.
Para obtener más información sobre las políticas de alertas, consulta Gestionar políticas de alertas basadas en métricas.
Revisa los requisitos previos que se generan automáticamente para reflejar cómo se debe preparar el entorno para un flujo. Estos requisitos pueden incluir cómo configurar la base de datos de origen y cómo conectarla con el destino. Es mejor completar estos requisitos previos en este paso, pero puedes hacerlo en cualquier momento antes de probar o iniciar la emisión. Para obtener más información sobre estos requisitos previos, consulta Fuentes.
Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de base de datos de origen.
Especificar información sobre el perfil de conexión de origen
Si has creado un perfil de conexión de origen para Oracle, MySQL, SQL Server, PostgreSQL, Salesforce (vista previa) o MongoDB (vista previa), selecciónalo en la lista de perfiles de conexión.
Si no has creado un perfil de conexión de origen, haz clic en CREAR PERFIL DE CONEXIÓN en la parte inferior de la lista desplegable y sigue los mismos pasos que en Crear perfiles de conexión.
Haz clic en EJECUTAR PRUEBA para verificar que la base de datos de origen y Datastream pueden comunicarse entre sí.
Si la prueba falla, aparecerá el problema asociado al perfil de conexión. Consulta los pasos para solucionar problemas en la página Diagnosticar problemas. Haga los cambios necesarios para corregir el problema y, a continuación, vuelva a hacer la prueba.
Haz clic en CONTINUAR. Aparecerá el panel Configurar origen del flujo de la página Crear flujo.
Configurar la información sobre la base de datos de origen del flujo
Configurar una base de datos de origen PostgreSQL
- Define las propiedades de replicación de tu base de datos de origen de PostgreSQL. En la sección Propiedades de replicación, especifique las siguientes propiedades:
- En el campo Nombre de la ranura de replicación, introduce el nombre de la ranura que has creado específicamente para este flujo. El servidor de la base de datos usa este espacio para enviar eventos a Datastream.
- En el campo Nombre de publicación, introduce el nombre de la publicación que has creado en la base de datos. Una publicación es un grupo de todas las tablas de las que quieres replicar los cambios mediante este flujo.
- En la sección Seleccionar objetos que se van a incluir, use el menú desplegable Objetos que se van a incluir para especificar las tablas y los esquemas de la base de datos de origen que Datastream puede transferir al destino.
- Si quieres que Datastream transfiera todas las tablas y los esquemas, selecciona Todas las tablas de todos los esquemas.
- Si quiere que Datastream transfiera solo tablas y esquemas específicos, seleccione Esquemas y tablas específicos y, a continuación, marque las casillas de los esquemas y las tablas que quiera que Datastream extraiga.
- Si quiere proporcionar una definición textual de las tablas y los esquemas que quiere que transfiera Datastream, seleccione Personalizado y, a continuación, en el campo Criterios de coincidencia de objetos, introduzca los esquemas y las tablas que quiere que extraiga Datastream. Si tu base de datos tiene un gran número de tablas y esquemas, te recomendamos que uses la opción Personalizar, ya que es posible que algunas tablas y esquemas no se incluyan en la lista de objetos que se van a extraer.
- También puede desplegar el nodo Seleccionar objetos que excluir. En el campo Objetos que excluir, introduzca las tablas y los esquemas de la base de datos de origen de los que quiera impedir que Datastream extraiga datos. La lista Objetos que se van a excluir tiene prioridad sobre la lista Objetos que se van a incluir. Si un objeto cumple los criterios de las listas de inclusión y exclusión, se excluye del flujo.
- Opcionalmente, expanda el nodo Elegir modo de relleno para datos históricos y, a continuación, seleccione una de las siguientes opciones:
- Selecciona la opción Automático para transferir todos los datos actuales, así como los cambios que se produzcan, de la fuente al destino. En el campo Objetos excluidos del relleno automático, introduzca las tablas y los esquemas de la base de datos de origen que quiera que Datastream no rellene en el destino.
- Selecciona la opción Manual para enviar solo los cambios de los datos al destino.
- Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de destino.
Configurar una base de datos MySQL de origen
- En la sección Seleccionar objetos que se van a incluir, use el menú desplegable Objetos que se van a incluir para especificar las tablas y los esquemas de la base de datos de origen que Datastream puede transferir al destino.
- Si quieres que Datastream transfiera todas las tablas y los esquemas, selecciona Todas las tablas de todos los esquemas.
- Si quiere que Datastream transfiera solo tablas y esquemas específicos, seleccione Esquemas y tablas específicos y, a continuación, marque las casillas de los esquemas y las tablas que quiera que Datastream extraiga.
- Si quiere proporcionar una definición textual de las tablas y los esquemas que quiere que transfiera Datastream, seleccione Personalizado y, a continuación, en el campo Criterios de coincidencia de objetos, introduzca los esquemas y las tablas que quiere que extraiga Datastream. Si tu base de datos tiene un gran número de tablas y esquemas, te recomendamos que uses la opción Personalizar, ya que es posible que algunas tablas y esquemas no se incluyan en la lista de objetos que se van a extraer.
- También puede desplegar el nodo Seleccionar objetos que excluir. En el campo Objetos que excluir, introduzca las tablas y los esquemas de la base de datos de origen de los que quiera impedir que Datastream extraiga datos. La lista Objetos que se van a excluir tiene prioridad sobre la lista Objetos que se van a incluir. Si un objeto cumple los criterios de las listas de inclusión y exclusión, se excluye del flujo.
- Especifica el método de CDC de tu flujo:
- Replicación basada en GTID (identificadores de transacción globales): selecciona este método si quieres que Datastream admita conmutaciones por error y proporcione una replicación fluida independientemente de los cambios que se produzcan en tu clúster de bases de datos.
- Replicación basada en binlog: selecciona este método para leer y replicar los cambios directamente desde los archivos de registro binario de una instancia de base de datos seleccionada. No puedes cambiar una secuencia en ejecución a otra instancia de origen o a una réplica con este método de CDC.
- Opcionalmente, expanda el nodo Elegir modo de relleno para datos históricos y, a continuación, seleccione una de las siguientes opciones:
- Selecciona la opción Automático para transferir todos los datos actuales, así como los cambios que se produzcan, de la fuente al destino. En el campo Objetos excluidos del relleno automático, introduzca las tablas y los esquemas de la base de datos de origen que quiera que Datastream no rellene en el destino.
- Selecciona la opción Manual para enviar solo los cambios de los datos al destino.
- Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de destino.
Configurar una base de datos de Oracle de origen
- En la sección Seleccionar objetos que se van a incluir, use el menú desplegable Objetos que se van a incluir para especificar las tablas y los esquemas de la base de datos de origen que Datastream puede transferir al destino.
- Si quieres que Datastream transfiera todas las tablas y los esquemas, selecciona Todas las tablas de todos los esquemas.
- Si quiere que Datastream transfiera solo tablas y esquemas específicos, seleccione Esquemas y tablas específicos y, a continuación, marque las casillas de los esquemas y las tablas que quiera que Datastream extraiga.
- Si quiere proporcionar una definición textual de las tablas y los esquemas que quiere que transfiera Datastream, seleccione Personalizado y, a continuación, en el campo Criterios de coincidencia de objetos, introduzca los esquemas y las tablas que quiere que extraiga Datastream. Si tu base de datos tiene un gran número de tablas y esquemas, te recomendamos que uses la opción Personalizar, ya que es posible que algunas tablas y esquemas no se incluyan en la lista de objetos que se van a extraer.
- También puede desplegar el nodo Seleccionar objetos que excluir. En el campo Objetos que excluir, introduzca las tablas y los esquemas de la base de datos de origen de los que quiera impedir que Datastream extraiga datos. La lista Objetos que se van a excluir tiene prioridad sobre la lista Objetos que se van a incluir. Si un objeto cumple los criterios de las listas de inclusión y exclusión, se excluye del flujo.
- Especifica el método de CDC de tu flujo:
- LogMiner selecciona este método para consultar los registros de rehacer archivados mediante la API LogMiner. LogMiner admite la mayoría de las opciones disponibles para Oracle, como las opciones de cifrado y compresión.
- Lector binario (Vista previa): selecciona este método para extraer los cambios directamente de los registros de Oracle. Esto permite replicar más rápido las bases de datos Oracle de gran tamaño, así como reducir la latencia y la sobrecarga. Si selecciona esta opción, se mostrará otro menú desplegable. Selecciona la forma en la que quieres acceder a tus archivos de registro de Oracle:
- Gestión de almacenamiento automática (ASM): selecciona esta opción si tu base de datos usa ASM. Asegúrate de haber seleccionado la casilla Habilitar acceso a ASM para el lector binario y de haber rellenado los detalles de tu instancia de ASM en el perfil de conexión de origen.
- Directorios de bases de datos: selecciona esta opción si no usas ASM para almacenar tus archivos de registro. Si selecciona directorios de bases de datos, debe proporcionar los nombres de los directorios de registros de rehacer y de registros archivados.
- Opcionalmente, expanda el nodo Elegir modo de relleno para datos históricos y, a continuación, seleccione una de las siguientes opciones:
- Selecciona la opción Automático para transferir todos los datos actuales, así como los cambios que se produzcan, de la fuente al destino. En el campo Objetos excluidos del relleno automático, introduzca las tablas y los esquemas de la base de datos de origen que quiera que Datastream no rellene en el destino.
- Selecciona la opción Manual para enviar solo los cambios de los datos al destino.
- Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de destino.
Configurar una base de datos de origen de SQL Server
- En la sección Seleccionar objetos que se van a incluir, use el menú desplegable Objetos que se van a incluir para especificar las tablas y los esquemas de la base de datos de origen que Datastream puede transferir al destino.
- Si quieres que Datastream transfiera todas las tablas y los esquemas, selecciona Todas las tablas de todos los esquemas.
- Si quiere que Datastream transfiera solo tablas y esquemas específicos, seleccione Esquemas y tablas específicos y, a continuación, marque las casillas de los esquemas y las tablas que quiera que Datastream extraiga.
- Si quiere proporcionar una definición textual de las tablas y los esquemas que quiere que transfiera Datastream, seleccione Personalizado y, a continuación, en el campo Criterios de coincidencia de objetos, introduzca los esquemas y las tablas que quiere que extraiga Datastream. Si tu base de datos tiene un gran número de tablas y esquemas, te recomendamos que uses la opción Personalizar, ya que es posible que algunas tablas y esquemas no se incluyan en la lista de objetos que se van a extraer.
- También puede desplegar el nodo Seleccionar objetos que excluir. En el campo Objetos que excluir, introduzca las tablas y los esquemas de la base de datos de origen de los que quiera impedir que Datastream extraiga datos. La lista Objetos que se van a excluir tiene prioridad sobre la lista Objetos que se van a incluir. Si un objeto cumple los criterios de las listas de inclusión y exclusión, se excluye del flujo.
- Especifica el método de CDC de tu flujo:
- Registros de transacciones: seleccione este método para procesar los cambios directamente desde los registros de la base de datos. Este método ofrece el mejor rendimiento y es más eficiente, pero requiere pasos de configuración adicionales.
- Cambiar tablas: selecciona este método para procesar los cambios de tablas de cambios específicas. Este método es más fácil de configurar y tiene menos limitaciones, pero admite un menor rendimiento y genera una mayor carga en su base de datos que el método de los registros de transacciones.
- Opcionalmente, expanda el nodo Elegir modo de relleno para datos históricos y, a continuación, seleccione una de las siguientes opciones:
- Selecciona la opción Automático para transferir todos los datos actuales, así como los cambios que se produzcan, de la fuente al destino. En el campo Objetos excluidos del relleno automático, introduzca las tablas y los esquemas de la base de datos de origen que quiera que Datastream no rellene en el destino.
- Selecciona la opción Manual para enviar solo los cambios de los datos al destino.
- Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de destino.
Configurar una organización de Salesforce de origen (vista previa)
- En la sección Select objects to include (Seleccionar objetos que se van a incluir), use el menú desplegable Objects to include (Objetos que se van a incluir) para especificar los objetos y los campos de su organización que quiere que Datastream transfiera al destino.
- Si quiere que Datastream transfiera todos los objetos, seleccione Todos los objetos.
- Si quiere que Datastream transfiera solo objetos específicos, seleccione Objetos específicos y, a continuación, marque las casillas de los objetos que quiera que extraiga Datastream.
- Si quiere proporcionar una definición textual de los objetos que quiere que transfiera Datastream, seleccione Personalizado y, a continuación, en el campo Criterios de coincidencia de objetos, introduzca los objetos que quiere que extraiga Datastream. Introduzca los objetos como una lista separada por comas con el formato
[object].[field]
. Si tu base de datos tiene un gran número de objetos, te recomendamos que uses la opción Personalizado, ya que es posible que algunas tablas y esquemas no se incluyan en la lista de objetos que se van a extraer. - Define el valor del intervalo de sondeo en minutos. Datastream usa este valor para comprobar si hay cambios en los datos de su organización de Salesforce. Cuanto mayor sea el valor, menor será el coste y la carga de tu organización. Cuanto menor sea el valor, más actualizados estarán los datos del destino.
- También puede desplegar el nodo Seleccionar objetos que excluir. En el campo Objetos que se van a excluir, introduzca los objetos y los campos de la organización de origen de los que quiera impedir que Datastream extraiga datos. La lista Objetos que se van a excluir tiene prioridad sobre la lista Objetos que se van a incluir. Si un objeto cumple los criterios de las listas de inclusión y exclusión, se excluye del flujo.
- Opcionalmente, expanda el nodo Elegir modo de relleno para datos históricos y, a continuación, seleccione una de las siguientes opciones:
- Selecciona la opción Automático para replicar todos los datos, así como los cambios que se produzcan en ellos, desde el origen hasta el destino. En el campo Objetos excluidos del relleno automático, introduzca los objetos de la organización de origen que quiera que Datastream no rellene en la de destino.
- Selecciona la opción Manual para replicar solo los cambios en los datos en el destino.
- Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de destino.
Configurar una base de datos de origen de MongoDB (versión preliminar)
- En la sección Seleccionar objetos que incluir, use el menú desplegable Objetos que incluir para especificar las bases de datos y las colecciones que quiere que Datastream transfiera al destino.
- Si quiere que Datastream transfiera todas las colecciones, seleccione Todas las bases de datos y colecciones.
- Si quiere que Datastream transfiera solo colecciones específicas, seleccione Bases de datos y colecciones específicas y, a continuación, marque las casillas de las colecciones que quiera que Datastream extraiga.
- Si quiere proporcionar una definición textual de las colecciones que quiere que transfiera Datastream, seleccione Personalizado y, a continuación, en el campo Criterios de coincidencia de objetos, introduzca las colecciones que quiere que extraiga Datastream. Introduzca los objetos como una lista separada por comas con el formato
[collection].[field]
. Si tu base de datos tiene un gran número de objetos, te recomendamos que uses la opción Personalizado, ya que es posible que algunas tablas y esquemas no se incluyan en la lista de objetos que se van a extraer. - Opcionalmente, expanda el nodo Elegir modo de relleno para datos históricos y, a continuación, seleccione una de las siguientes opciones:
- Selecciona la opción Automático para replicar todos los datos, así como los cambios que se produzcan en ellos, desde el origen hasta el destino. En el campo Objetos excluidos del relleno automático, introduzca los objetos de la organización de origen que quiera que Datastream no rellene en la de destino.
- Selecciona la opción Manual para replicar solo los cambios en los datos en el destino.
- Haz clic en CONTINUAR. Aparecerá el panel Definir perfil de conexión de la página Crear flujo correspondiente al tipo de destino.
Selecciona un perfil de conexión de destino
Si ya has creado un perfil de conexión de destino, selecciónalo en la lista de perfiles de conexión.
Si no has creado un perfil de conexión de destino, haz clic en CREAR PERFIL DE CONEXIÓN en la parte inferior de la lista desplegable y sigue los mismos pasos que en Crear perfiles de conexión.
Haz clic en CONTINUAR. Aparecerá el panel Configurar destino del flujo de la página Crear flujo.
Configurar la información sobre el destino del flujo
En esta sección se describe la información que debe proporcionar para configurar su destino de BigQuery o Cloud Storage.
Destino de BigQuery
En la sección Especifica cómo debe transmitir Datastream a un conjunto de datos de BigQuery, selecciona una de las siguientes opciones en el menú desplegable Agrupación de esquemas:
Conjunto de datos para cada esquema: Datastream crea un conjunto de datos de BigQuery para cada esquema de origen, en función del nombre del esquema.
Si selecciona esta opción, Datastream creará un conjunto de datos en el proyecto que contenga el flujo por cada esquema de la base de datos de origen.
Además, si selecciona la opción Conjunto de datos para cada esquema, debe proporcionar lo siguiente:
- En la sección Tipo de ubicación, especifica dónde quieres almacenar tus datos en BigQuery. Selecciona Región para especificar una sola ubicación geográfica o Multirregión para especificar un área más grande que contenga dos o más regiones. Si tu prioridad es optimizar los costes y el rendimiento, selecciona Región y mantén tus conjuntos de datos junto con otros Google Cloud recursos que gestiones. Si quieres aumentar los límites de cuota, selecciona Multirregión para que BigQuery use varias regiones de un grupo. Si seleccionas Región, el campo se rellena de forma predeterminada con la región que hayas seleccionado para la emisión.
- Opcional: En el campo Prefijo del conjunto de datos, defina un prefijo para el conjunto de datos creado por el flujo. La cadena que especifiques se añade al nombre del esquema de origen. Por ejemplo, si el esquema se llama
<mySchema>
y define el prefijo del conjunto de datos como<myPrefix>
, Datastream crea un conjunto de datos llamado<myPrefix><mySchema>
. - Despliega la sección Mostrar opciones avanzadas de cifrado.
Especifica cómo quieres que se cifren tus datos en BigQuery seleccionando una clave de cifrado gestionada por Google o por el cliente.
Un solo conjunto de datos para todos los esquemas: Datastream crea todas las tablas en el conjunto de datos de BigQuery que especifiques. Cada tabla que crea Datastream se denomina con una combinación del nombre del esquema de origen y el nombre de la tabla, separados por un guion bajo (por ejemplo,
). Los conjuntos de datos disponibles se agrupan por región. También puedes crear un nuevo conjunto de datos.<mySchemaName>_<myTableName>
Especifica el modo de escritura del flujo. Selecciona el modo de escritura para definir cómo se escriben y procesan los datos en BigQuery:
- Combinar: selecciona esta opción si quieres que tus datos se sincronicen con la fuente.
- Solo añadir: seleccione esta opción si quiere conservar todo el historial de datos de sus eventos de cambio.
Especifica el límite de antigüedad de los datos. Solo está disponible cuando se selecciona el modo Combinar en el paso anterior. Selecciona un límite para equilibrar el rendimiento y el coste de las consultas de BigQuery con la actualización de los datos. BigQuery aplica los cambios en segundo plano de forma continua o en el tiempo de ejecución de la consulta, según el límite de obsolescencia. Si se reduce la obsolescencia (datos más recientes), pueden aumentar los costes de procesamiento de BigQuery.
Haz clic en CONTINUAR. Aparecerá el panel Revisar detalles del flujo y crearlo de la página Crear flujo.
Destino de tablas de Iceberg de BigLake
En la sección Specify how Datastream should stream into a BigQuery dataset (Especificar cómo debe transmitir Datastream a un conjunto de datos de BigQuery), seleccione cómo quiere que Datastream cree nuevos esquemas y tablas en el menú desplegable Schema grouping (Agrupación de esquemas):
Conjunto de datos para cada esquema: Datastream crea un conjunto de datos de BigQuery para cada esquema de origen, en función del nombre del esquema.
Si selecciona esta opción, Datastream creará un conjunto de datos en el proyecto que contenga el flujo por cada esquema de la base de datos de origen.
Además, si selecciona la opción Conjunto de datos para cada esquema, debe proporcionar lo siguiente:
- En la sección Tipo de ubicación, especifica dónde quieres almacenar tus datos en BigQuery. Selecciona Región para especificar una sola ubicación geográfica o Multirregión para especificar un área más grande que contenga dos o más regiones. Si tu prioridad es optimizar los costes y el rendimiento, selecciona Región y mantén tus conjuntos de datos junto con otros Google Cloud recursos que gestiones. Si quieres aumentar los límites de cuota, selecciona Multirregión para que BigQuery use varias regiones de un grupo. Si seleccionas Región, el campo se rellena de forma predeterminada con la región que hayas seleccionado para la emisión.
- Opcional: En el campo Prefijo del conjunto de datos, defina un prefijo para el conjunto de datos creado por el flujo. La cadena que especifiques se añade al nombre del esquema de origen. Por ejemplo, si el esquema se llama
<mySchema>
y define el prefijo del conjunto de datos como<myPrefix>
, Datastream crea un conjunto de datos llamado<myPrefix><mySchema>
. - Despliega la sección Mostrar opciones avanzadas de cifrado.
Especifica cómo quieres que se cifren tus datos en BigQuery seleccionando una clave de cifrado gestionada por Google o por el cliente.
Un solo conjunto de datos para todos los esquemas: Datastream crea todas las tablas en el conjunto de datos de BigQuery que especifiques. Cada tabla que crea Datastream se denomina con una combinación del nombre del esquema de origen y el nombre de la tabla, separados por un guion bajo (por ejemplo,
). Los conjuntos de datos disponibles se agrupan por región. También puedes crear un nuevo conjunto de datos.<mySchemaName>_<myTableName>
En la sección Define la conexión de Datastream a las tablas de BigLake Iceberg, proporcione la siguiente información:
En el menú desplegable ID de conexión, seleccione el identificador de la conexión de BigQuery que ha creado y que quiere usar en su flujo. Para obtener información sobre cómo crear una conexión de recursos de Cloud en BigQuery, consulta Configurar tablas de Iceberg de BigLake en BigQuery.
Introduce o selecciona la dirección URI del segmento que has creado en Cloud Storage. Para obtener información sobre cómo crear un segmento de Cloud Storage, consulta Crear un segmento.
Revisa el Formato de archivo y el Formato de tabla. Datastream admite el formato de archivo Parquet y el formato de tabla Iceberg.
Revisa el modo de escritura de la emisión. Datastream solo admite el modo de escritura Solo añadir al transmitir datos a tablas Iceberg de BigLake.
Haz clic en CONTINUAR. Aparecerá el panel Revisar detalles del flujo y crearlo de la página Crear flujo.
Destino de Cloud Storage
De forma opcional, en el campo Prefijo de ruta de la secuencia, introduzca la carpeta del bucket de destino al que Datastream transferirá los esquemas, las tablas y los datos de una base de datos de origen.
Por ejemplo, si quiere que Datastream transfiera datos de la base de datos de origen a la carpeta
/root/example
del segmento de destino, introduzca/root/example
en el campo Prefijo de ruta de flujo.En el campo Formato de salida, elige el formato de los archivos que se escriben en Cloud Storage.
Opcional. Si seleccionas el formato JSON, aparecerán dos casillas:
- Incluir un archivo de esquema de tipos unificados en la ruta del archivo: si marcas esta casilla, Datastream escribe dos archivos en Cloud Storage: un archivo de datos JSON y un archivo de esquema Avro. El archivo de esquema tiene el mismo nombre que el archivo de datos, pero con la extensión
.schema
. Si no marcas esta casilla, Datastream solo escribirá el archivo de datos JSON en Cloud Storage. De forma predeterminada, esta casilla no está marcada. - Habilitar la compresión gzip: si selecciona esta casilla, Datastream usará la utilidad
gzip
para comprimir los archivos que escriba en Cloud Storage. Si no seleccionas esta casilla, Datastream escribirá los archivos en Cloud Storage sin comprimirlos. Esta casilla está marcada de forma predeterminada.
- Incluir un archivo de esquema de tipos unificados en la ruta del archivo: si marcas esta casilla, Datastream escribe dos archivos en Cloud Storage: un archivo de datos JSON y un archivo de esquema Avro. El archivo de esquema tiene el mismo nombre que el archivo de datos, pero con la extensión
Haz clic en CONTINUAR. Aparecerá el panel Revisar detalles del flujo y crearlo de la página Crear flujo.
Crear el flujo
- Verifica los detalles del flujo, así como los perfiles de conexión de origen y de destino que usará el flujo para transferir datos de una base de datos de origen a un destino.
Haz clic en EJECUTAR VALIDACIÓN para validar el flujo. Al validar un flujo, Datastream comprueba que la fuente esté configurada correctamente, valida que el flujo pueda conectarse tanto a la fuente como al destino y verifica la configuración integral del flujo.
Si la base de datos de origen es Oracle, Datastream realiza las siguientes comprobaciones:
Verificación Descripción Validez de la lista de objetos Datastream verifica que la lista de exclusión no subsuma la lista de inclusión. Conectividad de túnel directo SSH Datastream verifica que puede conectarse a un host bastion a través de un túnel directo SSH. Conectividad a la base de datos de Oracle Datastream verifica que puede conectarse a la base de datos de Oracle de origen. Permisos de usuario de Oracle Datastream verifica que el usuario que utiliza para conectarse a la base de datos de origen tenga todos los permisos necesarios para obtener esquemas, tablas y datos de la base de datos, de modo que Datastream pueda transmitir esta información a la base de datos de destino. Configuración del modo de registro Datastream verifica que el modo de registro de la base de datos Oracle esté definido como ARCHIVELOG. Configuración del registro complementario Datastream verifica que el registro complementario esté activado en las tablas de la base de datos que se están transmitiendo desde el origen al destino. Configuración de CDC de Oracle Datastream verifica que el método de CDC que has seleccionado cumple los requisitos de configuración de tu base de datos. Configuración de archivos de registro Datastream verifica que el registro de archivos esté configurado en la fuente y que los archivos de registro estén presentes. Permisos de Cloud Storage (para destinos de Cloud Storage) Datastream verifica que tiene los permisos necesarios para escribir en el segmento de destino de Cloud Storage. Si tu base de datos de origen es MySQL, Datastream realiza las siguientes comprobaciones:
Verificación Descripción Permisos de replicación Datastream verifica que tiene permisos para replicar una base de datos MySQL. Versión de la base de datos Datastream verifica que la versión de la base de datos MySQL sea compatible. Para obtener información sobre las ediciones compatibles, consulta Versiones. Configuración del formato de registro binario Datastream verifica que el formato de registro binario de la base de datos MySQL sea ROW
.Se ha habilitado el almacenamiento de registros binarios Datastream verifica que los archivos de registro binario estén configurados correctamente y que haya archivos de registro. Configuración de la imagen de fila del registro binario Flujo de datos verifica que la imagen de fila de binlog esté configurada como FULL
.Compresión de binlog inhabilitada Datastream verifica que la compresión de binlog esté inhabilitada. Actualizaciones de réplica o esclava de registro habilitadas Datastream verifica que las réplicas de registros o las actualizaciones secundarias estén habilitadas. Configuración del modo GTID ( applies only to GTID-based CDC
)Datastream verifica que el modo GTID esté definido como ON
si se usa la replicación basada en GTID.GtidSet no contiene GTIDs etiquetados ( applies only to GTID-based CDC
)Datastream verifica que el conjunto de GTIDs no contenga ningún GTID etiquetado. Permisos de Cloud Storage (para destinos de Cloud Storage) Datastream verifica que tiene los permisos necesarios para escribir en el segmento de destino de Cloud Storage. Comprobación de advertencias Descripción Configuración de días de caducidad de registros, segundos de caducidad de registros u horas de conservación de binlogs Datastream verifica que expire_logs_days
,binlog_expire_logs_seconds
ybinlog retention hours
tengan valores superiores a7
,604800
y168
, respectivamente.Configuración máxima de paquetes permitida Datastream verifica que max_allowed_packet
esté configurado en 1 GB.Aplicar la coherencia de los GTIDs o el modo estricto de los GTIDs ( applies only to GTID-based CDC
)El flujo de datos verifica que la coherencia o el modo estricto de GTID estén habilitados. Si tu base de datos de origen es PostgreSQL, Datastream realiza las siguientes comprobaciones:
Verificación Descripción Conectividad a la base de datos PostgreSQL Datastream verifica que puede conectarse a la base de datos PostgreSQL de origen. La decodificación lógica está habilitada Datastream verifica que el parámetro wal_level
de la base de datos de PostgreSQL esté definido comological
.Configuración de la ranura de replicación Datastream verifica si la ranura de replicación de PostgreSQL existe y está activa, si Datastream tiene los permisos necesarios para acceder a ella y si está configurada correctamente. Configuración de la publicación Datastream verifica que la publicación exista y que las tablas que se van a replicar en el flujo estén incluidas en la publicación. Permisos de backfill Datastream verifica que las tablas necesarias para rellenar el historial de datos existen y que tiene los permisos necesarios para leerlas. Si la base de datos de origen es SQL Server, Datastream realiza las siguientes comprobaciones:
Verificación Descripción Edición de SQL Server Datastream verifica que la edición de la base de datos de SQL Server de origen sea compatible. Para obtener información sobre las ediciones compatibles, consulta Versiones. Permisos de usuario de SQL Server Datastream verifica que el usuario tenga los permisos necesarios para acceder a la base de datos de SQL Server de origen. CDC de SQL Server está habilitado Datastream verifica si CDC está habilitado en la base de datos y en todas las tablas incluidas en el flujo. Validaciones de bases de datos de SQL Server Datastream comprueba si la base de datos de origen está configurada correctamente, si se cumplen todos los requisitos de replicación y si no hay tipos de datos no admitidos en las columnas. Permisos de Cloud Storage o BigQuery Datastream verifica que el usuario tenga los permisos necesarios para escribir en el destino. Si tu base de datos de origen es Salesforce (Vista previa), Datastream realiza las siguientes comprobaciones:
Verificación Descripción Inicio de sesión con credenciales Datastream verifica que puede autenticarse correctamente en la organización de Salesforce del cliente con las credenciales proporcionadas. API Bulk Datastream verifica que tiene los permisos necesarios para acceder a la API Bulk 2.0 de Salesforce. Se necesita la API Bulk 2.0 para leer grandes cantidades de datos. Comprobación de advertencias Descripción Límites de la API Datastream calcula una estimación del uso esperado de la API en función del número de objetos y del intervalo de sondeo seleccionados. Si el número diario de solicitudes previsto es superior al límite que ha aplicado Salesforce, Datastream emite una advertencia. Puedes crear y ejecutar el flujo aunque no supere la comprobación de validación. Si tu base de datos de origen es MongoDB (versión preliminar), Datastream realiza las siguientes comprobaciones:
Verificación Descripción Permisos de usuario Datastream verifica que el rol readAnyDatabase
se ha asignado al usuario.Configuraciones de conexión Datastream usa el comando hello
para verificar que las configuraciones de conexión son válidas.Versión de MongoDB Datastream verifica que la versión de MongoDB sea la 5.0 o una posterior. Permisos de Cloud Storage o BigQuery Datastream verifica que el usuario tenga los permisos necesarios para escribir en el destino.
Una vez que se hayan superado todas las comprobaciones de validación, haga clic en CREAR E INICIAR para crear el flujo e iniciarlo inmediatamente, o en CREAR para crear el flujo sin iniciarlo inmediatamente.
Si no inicias la emisión ahora, puedes hacerlo desde la página Emisiones haciendo clic en INICIAR.
Después de crear un flujo, puede ver información general y detallada sobre él.
Siguientes pasos
- Para obtener más información sobre los flujos, consulta el artículo Ciclo de vida de los flujos.
- Para saber cómo ejecutar un flujo, consulta Ejecutar un flujo.
- Para obtener información sobre cómo modificar tus emisiones, consulta Modificar una emisión.
- Para saber cómo recuperar una emisión, consulta Recuperar una emisión.