Esta página se ha traducido con Cloud Translation API.

Preguntas frecuentes

En esta página, encontrará respuestas a las preguntas frecuentes sobre el uso de Datastream. Estas preguntas frecuentes están asociadas a lo siguiente:

Preguntas generales sobre Datastream y la captura de datos de cambios (CDC)
Comportamiento general de las fuentes y limitaciones
Comportamiento y limitaciones de las fuentes de MySQL
Comportamiento y limitaciones de las fuentes de Oracle
Comportamiento y limitaciones de las fuentes de PostgreSQL (incluido AlloyDB para PostgreSQL)
Comportamiento y limitaciones de las fuentes de SQL Server
Comportamiento y limitaciones de la fuente de Salesforce
Comportamiento del destino de BigQuery
Comportamiento del destino de Cloud Storage
Casos prácticos habituales de Datastream
Cómo se integra Datastream con los servicios de datos Google Cloud
Seguridad y conectividad
Monitorizar DataStream
Precios
Información adicional sobre Datastream

Preguntas generales sobre Datastream y la captura de datos de cambios (CDC)

Pregunta	Respuesta
¿Qué es Datastream?	Datastream es un servicio de replicación y captura de datos de cambios (CDC) sin servidor y fácil de usar. Datastream permite replicar datos de forma sencilla desde fuentes de bases de datos relacionales, como AlloyDB para PostgreSQL, PostgreSQL, MySQL, SQL Server y Oracle, así como desde Salesforce y MongoDB, directamente en BigQuery. Datastream ofrece la escalabilidad, la velocidad, la seguridad y la sencillez que necesitan las empresas modernas. Gracias a su arquitectura sin servidor y de escalado automático, Datastream te permite configurar una canalización de ELT (extracción, carga y transformación) para replicar datos con baja latencia y obtener información valiosa casi en tiempo real. Datastream también puede sincronizar flujos de datos entre bases de datos y aplicaciones heterogéneas de forma fiable y con una latencia mínima. Puedes integrar el servicio con plantillas de Dataflow para replicar bases de datos en Cloud SQL o Spanner para sincronizar bases de datos, o bien aprovechar el flujo de eventos directamente desde Cloud Storage para implementar arquitecturas basadas en eventos.
¿Cuáles son los métodos por los que Datastream transmite datos?	Datastream transmite datos de un origen a un destino mediante uno de estos dos métodos: CDC: captura los cambios en curso desde el origen en tiempo real. Reposición: proporciona una captura del historial de los datos disponibles en una tabla.
¿Qué es el CDC?	El CDC es un método de integración de datos que le permite integrar y analizar datos más rápido y con menos recursos del sistema. Es un método para extraer solo los cambios más recientes (actualizaciones, inserciones o eliminaciones) de una fuente de datos. Para ello, se suele leer el registro de cambios que la fuente mantiene para su propia integridad transaccional interna. La CDC es un mecanismo muy eficiente para limitar el impacto en el origen al cargar datos nuevos en almacenes de datos operativos y almacenes de datos, y elimina la necesidad de actualizar la carga masiva y las ventanas de lotes poco prácticas al permitir la carga incremental o la transmisión casi en tiempo real de los cambios de datos a un destino de datos. La CDC se puede usar en muchos casos prácticos que obtienen valor del acceso constante a los cambios de datos a medida que se producen, como la analítica, la sincronización de datos en sistemas distribuidos geográficamente y las arquitecturas basadas en eventos.
¿Qué es el relleno?	Además de los cambios continuos, Datastream también usa la reposición para extraer todos los datos disponibles de un origen y, a continuación, enviarlos a un destino. Por lo tanto, el destino se rellena con todos los datos históricos del origen. Hay dos tipos de relleno: Incremental: es el tipo de relleno predeterminado de las tablas. Durante la reposición incremental, Datastream obtiene datos de intervalos de filas en varios lotes y los transmite a un destino lote a lote. Volcado completo: durante la reposición de volcado completo, Datastream extrae todos los datos a la vez y los transmite a un destino.
¿Hay alguna limitación que deba tener en cuenta al realizar un relleno?	Para obtener información sobre las restricciones de relleno, consulta las páginas de limitaciones conocidas de los tipos de fuentes correspondientes: MySQL Oracle PostgreSQL (incluido AlloyDB para PostgreSQL) SQL Server Salesforce (Vista previa) MongoDB (vista previa)
¿Cuál es el orden recomendado para las operaciones de CDC y de backfill?	En la mayoría de los casos, no hay que tener nada en cuenta. Cuando la reposición está habilitada en un flujo, Datastream realiza tanto la reposición como la CDC al mismo tiempo. En algunos casos extremos, por ejemplo, al replicar tablas muy grandes que no se pueden rellenar con Datastream, es posible que tengas que cargar los datos en BigQuery antes de iniciar el flujo.
¿Puedo monitorizar el estado de las operaciones de CDC y de relleno?	Puedes monitorizar el estado de la cobertura por objeto: En la Google Cloud consola, ve a la página Streams. Haz clic en el flujo que quieras monitorizar. Haz clic en la pestaña Objetos. El estado de CDC es el estado del flujo. Si falla la operación de CDC, falla todo el flujo. En Cloud Monitoring hay disponibles métricas adicionales a nivel de objeto. Para obtener más información, consulta la documentación de Cloud Monitoring.
¿Qué diferencia hay entre un flujo de cambios y una réplica?	Un flujo de cambios es una secuencia de eventos que Datastream emite a un destino para que se consuman posteriormente. El resultado de la escritura de un flujo de cambios en Cloud Storage es un conjunto de archivos que contienen eventos de registro de cambios de una tabla específica durante un periodo. Los eventos representan inserciones, actualizaciones y eliminaciones en esa tabla, y los servicios, como Dataflow, pueden consumir y procesar los eventos después de Cloud Storage para casos prácticos como las arquitecturas basadas en eventos. En el contexto de Datastream, replicación significa una representación actualizada de la tabla de origen en el destino. Por ejemplo, una tabla de Oracle cuyos cambios se replican continuamente en una tabla de BigQuery, donde la tabla de BigQuery se mantiene actualizada con los cambios transmitidos desde la tabla de Oracle. La replicación aprovecha los flujos de cambios consumiendo cada evento de cambio y usándolo para actualizar el destino. Datastream permite la replicación directa en BigQuery y admite otros destinos, como Cloud SQL y Spanner, mediante la integración con Dataflow. Para ello, se utilizan plantillas que extraen los eventos del flujo de cambios de Cloud Storage y actualizan las tablas de destino en consecuencia.
¿Datastream requiere un agente en la fuente?	No tienes que instalar ningún agente en la fuente. Datastream usa interfaces ya disponibles (como Oracle LogMiner) para extraer los datos de la fuente.
¿Cuántas tablas puedo incluir en una sola emisión?	Datastream puede gestionar hasta 10.000 tablas en un solo flujo. No hay ningún motivo técnico para dividir una base de datos en varias secuencias, aunque puede haber algunas consideraciones empresariales para usar diferentes secuencias en diferentes flujos lógicos, por ejemplo, al replicar transacciones grandes de fuentes de PostgreSQL. Sin embargo, cada flujo añade carga a la base de datos de origen. Esta carga es insignificante para CDC, pero puede ser importante para el relleno inicial.
¿Cómo afecta el uso de Datastream al rendimiento de una base de datos de producción?	CDC es un mecanismo muy eficiente para limitar el impacto en la fuente cuando se cargan datos nuevos en los almacenes y los almacenes de datos de destino. La CDC también elimina la necesidad de actualizar la carga masiva y los periodos de procesamiento por lotes poco prácticos, ya que permite la carga incremental o el streaming casi en tiempo real de los cambios de datos en un destino. Además, Datastream minimiza el impacto de un relleno inicial limitando el número de tareas de relleno simultáneas y ofreciéndole el control para decidir qué objetos rellenar y cuándo hacerlo.
¿Puedes copiar los archivos de registro de la fuente a Google Cloud?	No. Datastream consulta los registros directamente en el servidor de la base de datos y solo se escriben en el destino los cambios que se produzcan en las tablas especificadas.
¿Datastream también puede transferir datos históricos?	Sí. De forma predeterminada, Datastream obtiene todos los datos históricos de las tablas de la base de datos de origen que especifiques, en paralelo al flujo de CDC. Datastream te ofrece la flexibilidad de obtener datos históricos de algunas o de todas las tablas de la base de datos de tu fuente. Además, cuando configures tu stream, puedes inhabilitar el relleno histórico.
¿Datastream garantiza que los datos se envían solo una vez?	No. Datastream realiza las entregas al menos una vez. Los metadatos adicionales que Datastream escribe en cada evento se pueden usar para eliminar datos duplicados.
¿Puede Datastream gestionar bases de datos cifradas?	Sí.
¿Puede Datastream transmitir tablas y columnas específicas de un origen?	Sí. Con Datastream, puede especificar listas de inclusión y exclusión de tablas y esquemas para transmitir solo los datos que quiera de un origen a un destino. En el caso de las tablas incluidas, puede excluir columnas específicas para ajustar aún más los datos que quiere que se envíen a la tabla de destino. Sin embargo, las vistas materializadas no se pueden replicar.
¿Cómo se mueve un flujo a otro proyecto u otra región?	Crea un flujo en una región o un proyecto nuevos con la misma configuración que el flujo actual, pero no selecciones la casilla Rellenar datos históricos. Inicia la emisión que has creado. Cuando la emisión que has creado tenga el estado `RUNNING`, pon en pausa la emisión actual. Si quiere, modifique el nuevo flujo seleccionando la casilla Rellenar con datos históricos. Los datos que ya haya en las tablas que se añadan al flujo en el futuro se transmitirán desde la fuente al destino.
¿Cómo gestiona Datastream las transacciones no confirmadas en los archivos de registro de la base de datos?	Cuando los archivos de registro de la base de datos contienen transacciones no confirmadas, si se revierte alguna transacción, la base de datos lo refleja en los archivos de registro como operaciones de lenguaje de manipulación de datos (DML) "inversas". Por ejemplo, una operación `INSERT` revertida tendrá una operación `DELETE` correspondiente. Datastream lee estas operaciones de los archivos de registro.
¿En qué regiones está disponible Datastream?	Para ver una lista de las regiones en las que está disponible Datastream, consulta Regiones y listas de IPs permitidas.

Comportamiento general de las fuentes y limitaciones

Pregunta	Respuesta
¿Qué fuentes admite Datastream?	Datastream admite el streaming de datos de fuentes de Oracle, MySQL, PostgreSQL, AlloyDB para PostgreSQL, SQL Server, Salesforce (vista previa) y MongoDB (vista previa), tanto alojadas en la nube como autogestionadas. Para obtener información sobre las versiones específicas de cada fuente, consulta las siguientes páginas: Fuente de MySQL Fuente de Oracle Fuente de PostgreSQL (incluido AlloyDB para PostgreSQL) Fuente de SQL Server Fuente de Salesforce (vista previa) Fuente de MongoDB (vista previa)
¿Puede Datastream gestionar bases de datos cifradas?	Sí.
¿Cómo extrae datos Datastream de las fuentes?	En el caso de MySQL, Datastream procesa el registro binario de MySQL para extraer eventos de cambio. En el caso de Oracle, Datastream usa LogMiner y ajustes de registro suplementario para extraer datos de los registros de rehacer de Oracle. En el caso de PostgreSQL y AlloyDB para PostgreSQL, Datastream se basa en la función de decodificación lógica de PostgreSQL. La decodificación lógica expone todos los cambios confirmados en la base de datos y permite consumir y procesar estos cambios. En SQL Server, Datastream monitoriza los cambios del lenguaje de manipulación de datos (DML) mediante registros de transacciones.
¿Puedes copiar archivos de registro directamente de una fuente a Google Cloud?	Datastream no copia todos los archivos de registro, sino que consulta los archivos de registro directamente desde el servidor de la base de datos y solo replica los cambios de las tablas especificadas en el destino.
¿Qué limitaciones tienen los datos que puede tratar Datastream?	Hay limitaciones generales y limitaciones que se aplican a fuentes de bases de datos específicas. Entre las limitaciones generales se incluyen las siguientes: Tamaño del evento: el límite máximo del tamaño de fila es de 100 MB para el destino de Cloud Storage y de 20 MB para BigQuery. Algunas operaciones del lenguaje de definición de datos (DDL) no se admiten durante la replicación, como las siguientes: Eliminar una columna del centro de una tabla. Esto puede provocar una discrepancia en los datos, ya que los valores se asocian a la columna incorrecta. Cambiar el tipo de datos de una columna. Esto puede provocar una discrepancia en los datos, ya que no se asignan correctamente al tipo unificado de Datastream adecuado y los datos pueden dañarse. Las eliminaciones en cascada se ignoran. Se ignora el truncamiento de la tabla. Para consultar las limitaciones específicas de cada fuente, consulta las siguientes páginas: Limitaciones de MySQL Limitaciones de Oracle Limitaciones de PostgreSQL (incluidas AlloyDB para PostgreSQL y AlloyDB Omni) Limitaciones de SQL Server Limitaciones de Salesforce Limitaciones de MongoDB
¿Qué datos se incluyen en cada evento generado por Datastream?	Cada evento generado (para inserciones, actualizaciones y eliminaciones) incluye toda la fila de datos de la fuente, con el tipo de datos y el valor de cada columna. Cada evento también incluye metadatos de evento que se pueden usar para establecer el orden y asegurar que se envíe exactamente una vez.
¿Datastream garantiza el orden?	Aunque Datastream no garantiza el orden, proporciona metadatos adicionales para cada evento. Estos metadatos se pueden usar para asegurar la coherencia final en el destino. En función de la fuente, la frecuencia y la tasa de cambios, así como de otros parámetros, la coherencia final se puede lograr en un plazo de una hora.
¿Datastream garantiza que los datos se envían solo una vez?	Datastream realiza las entregas al menos una vez. Puede eliminar los datos duplicados usando metadatos adicionales que Datastream escribe en cada evento.
¿Cómo representa Datastream los tipos de datos de la fuente para usarlos en el procesamiento posterior?	Al escribir en un destino sin esquema, como Cloud Storage, Datastream simplifica el procesamiento posterior de los datos de diferentes orígenes normalizando los tipos de datos de todos los orígenes. Datastream toma el tipo de datos de origen original (por ejemplo, un tipo `NUMERIC` de MySQL o PostgreSQL, o un tipo `NUMBER` de Oracle) y lo normaliza en un tipo unificado de Datastream. Los tipos unificados representan un superconjunto sin pérdidas de todos los tipos de origen posibles, y la normalización significa que los datos de diferentes orígenes se pueden procesar con el mínimo esfuerzo y consultar posteriormente de forma independiente del origen.
¿Cómo gestiona Datastream los cambios en la estructura (esquema) del origen?	Datastream obtiene el esquema de la fuente periódicamente. Los esquemas se almacenan en el registro de esquemas interno de Datastream y cada evento hace referencia al esquema en el momento en que se generó. De esta forma, Datastream puede monitorizar los cambios en el esquema y adaptarse a ellos, lo que garantiza que todos los datos se transmitan y carguen correctamente en el destino. Sin embargo, entre las solicitudes de esquema, es posible que algunos cambios en el esquema no se detecten, lo que podría provocar discrepancias en los datos.
He eliminado una columna de mi base de datos de origen, pero sigue apareciendo en la de destino. ¿Por qué?	Datastream no elimina columnas en el destino. Debes eliminar las columnas manualmente. Este comportamiento es intencional, ya que, en algunos casos, puede que prefieras conservar la columna eliminada en el destino. Por ejemplo, Datastream interpreta que cambiar el nombre de una columna en la fuente equivale a eliminar una columna y añadir otra. En este caso, no te interesa perder la columna original en el destino.
La emisión no se inicia debido a un error de validación, pero creo que se trata de un error o quiero probar a ejecutar la emisión igualmente. ¿Cómo puedo superar esta validación?	Puedes iniciar la emisión con la API añadiendo la marca `force=true` y omitiendo las comprobaciones de validación. Ten en cuenta que, aunque omitas las validaciones, no se garantiza que la emisión se pueda ejecutar. Es posible que siga fallando si la base de datos no tiene la configuración o los permisos necesarios.
¿Puedo reiniciar una emisión fallida?	Para corregir un flujo con el estado `Failed`, soluciona los errores que haya detectado Datastream. Para obtener más información, consulta Solucionar problemas de una emisión. También puedes recuperar una emisión con el estado `Failed permanently`. Para obtener más información, consulta Recuperar una emisión.
¿Bloquea Datastream las tablas de la base de datos?	No. Datastream no necesita bloquear las tablas.
En las páginas de limitaciones de cada fuente se especifica que los flujos pueden tener hasta 10.000 tablas. ¿Significa esto que Datastream no puede ejecutar operaciones de CDC en paralelo para más de 10.000 tablas al mismo tiempo?	No. El límite mencionado es por emisión. Puede tener varias secuencias con un número total de tablas superior a 10.000.

Comportamiento y limitaciones de las fuentes de MySQL

Pregunta	Respuesta
¿Cómo obtiene Datastream los datos de MySQL?	Datastream usa el registro binario de MySQL para extraer los eventos de cambio de MySQL.
¿Datastream admite instancias de réplica de lectura de Cloud SQL para MySQL?	Sí, Datastream admite instancias de réplica de lectura para Cloud SQL para MySQL en las versiones 5.7 y 8.0. Puedes habilitar el almacenamiento de registros binarios en estas instancias. Para ello, ejecuta el siguiente comando de la CLI de gcloud: gcloud sql instances patch `INSTANCE_NAME` -- enable-bin-log Para obtener más información, consulta Registro binario en réplicas de lectura.
¿Qué permisos necesita Datastream como mínimo para replicar datos de una base de datos MySQL de origen?	Debes conceder los siguientes permisos a tu usuario de Datastream para replicar datos de una base de datos MySQL: `SELECT` `REPLICATION SLAVE` `REPLICATION CLIENT`
¿Admite Datastream la compresión de registros binarios?	No, Datastream no admite la compresión de eventos de transacción con la compresión de transacciones de registro binario. Inhabilita la compresión de transacciones del registro binario para usar la función de captura de datos de cambios de MySQL en Datastream.
Tu organización no permite conceder el permiso `SELECT` en todas sus tablas y bases de datos. ¿Puedes seguir usando Datastream?	Puedes conceder el permiso `SELECT` a las tablas concretas que quieras replicar o a todo el esquema de una base de datos. Para ello, ejecuta uno de los siguientes comandos: GRANT SELECT ON `DATABASE_NAME`.`TABLE_NAME` TO `USER_NAME`@'%'; o GRANT SELECT ON `DATABASE_NAME`.* TO `USER_NAME`@'%'; Haz los cambios siguientes: `DATABASE_NAME`: el nombre de tu base de datos MySQL. `TABLE_NAME`: el nombre de la tabla a la que vas a conceder el permiso `SELECT`. `USER_NAME`: El nombre del usuario al que vas a conceder el permiso `SELECT`. Si quieres restringir los permisos a un nombre de host concreto, sustituye el carácter `%` por la dirección IP o el intervalo de direcciones específico.

Comportamiento y limitaciones de las fuentes de Oracle

Pregunta	Respuesta
¿Cómo obtiene Datastream los datos de Oracle?	Datastream usa Oracle LogMiner para extraer los datos de los registros de rehacer de Oracle.
¿Datastream requiere una licencia de GoldenGate de Oracle?	No. Datastream no requiere una licencia de GoldenGate porque usa Oracle LogMiner para leer los datos de los registros de rehacer de la base de datos.
¿Qué ocurre cuando Oracle LogMiner ya no es compatible?	Oracle LogMiner sigue siendo compatible con todas las versiones de Oracle disponibles para el público general, y Datastream seguirá admitiendo LogMiner en todas las versiones futuras. Oracle ha retirado la opción CONTINUOUS_MINE de LogMiner, pero Datastream no la usa, por lo que esta retirada no afecta a Datastream.
¿Datastream admite el cifrado de datos en tránsito desde bases de datos de Oracle?	Datastream admite el cifrado de datos en tránsito basado en Oracle Net Services. Datastream se ejecuta en modo `REQUESTED`.
¿Datastream admite el cifrado con Capa de conexión segura (SSL) y Seguridad en la capa de transporte (TLS)?	Sí, Datastream admite el protocolo TCPS para las conexiones cifradas con SSL/TLS a fuentes de Oracle.
¿Datastream admite la arquitectura multiinquilino de Oracle, concretamente las bases de datos de contenedor (CDBs) y las bases de datos conectables (PDBs)?	Sí, Datastream admite la arquitectura multiinquilino de Oracle (CDB/PDB), pero solo puede replicar una base de datos conectable en un flujo.
Tu organización no permite conceder el permiso `GRANT SELECT ANY TABLE`. ¿Puedes seguir usando Datastream?	Si no puedes conceder el permiso `GRANT SELECT ANY TABLE`, puedes conceder permisos `SELECT` a la siguiente lista de tablas: ALL_COL_COMMENTS ALL_CONS_COLUMNS ALL_CONSTRAINTS ALL_DB_LINKS ALL_EXTERNAL_TABLES ALL_IND_COLUMNS ALL_INDEXES ALL_LOG_GROUPS ALL_MVIEWS ALL_OBJECTS ALL_PART_TABLES ALL_SEQUENCES ALL_SOURCE ALL_SYNONYMS ALL_TAB_COLS ALL_TAB_COLUMNS ALL_TAB_COMMENTS ALL_TABLES ALL_TRIGGERS ALL_TRIGGER_COLS ALL_TYPES ALL_USERS ALL_VIEWS DATABASE_PROPERTIES DBA_ROLE_PRIVS DUAL PRODUCT_COMPONENT_VERSION ROLE_SYS_PRIVS USER_ROLE_PRIVS USER_TAB_PRIVS Para transmitir cambios mediante Datastream, también necesita acceso de lectura a todas las tablas incluidas en el flujo. Para iniciar la emisión, omite la validación mediante la API. Para obtener más información, consulta Iniciar una emisión.
¿Admite Datastream la replicación de instancias de réplica de lectura de Oracle?	Datastream admite la replicación desde instancias de réplica de lectura de Oracle siempre que la instancia esté configurada de acuerdo con las directrices de configuración.
¿Datastream admite bases de datos Oracle SCAN RAC?	Sí. Sin embargo, no puedes establecer una conectividad directa con las bases de datos mediante la función Single Client Access Name (SCAN) en entornos de Oracle Real Application Clusters (RAC) con Datastream. Para superar esta limitación, conéctate directamente a uno de los nodos o usa Oracle Connection Manager. También puedes crear una configuración de conectividad privada mediante soluciones de proxy inverso, como HAProxy.

Comportamiento y limitaciones de las fuentes de PostgreSQL

Pregunta	Respuesta
¿Cómo obtiene Datastream los datos de PostgreSQL?	Datastream usa la función de decodificación lógica de PostgreSQL para extraer los eventos de cambio de PostgreSQL.
¿Datastream admite la replicación desde fuentes de AlloyDB para PostgreSQL o AlloyDB Omni?	Sí. Datastream admite ambas fuentes. Para obtener información sobre cómo configurar tu base de datos de origen de AlloyDB para PostgreSQL, consulta Configurar una base de datos de AlloyDB para PostgreSQL. Para obtener información sobre cómo configurar tu base de datos AlloyDB Omni de origen, consulta Configurar una base de datos PostgreSQL autogestionada.
¿Admite Datastream la replicación desde una instancia de réplica de lectura de PostgreSQL?	No, Datastream no admite la replicación desde instancias de réplica de lectura de PostgreSQL.
¿Datastream admite la seguridad a nivel de fila (RLS)?	Datastream no admite la replicación de tablas con RLS habilitado. Sin embargo, puedes saltarte esta limitación usando la cláusula `BYPASSRLS`: ALTER USER `USER_NAME` BYPASSRLS; Sustituye `USER_NAME` por el nombre del usuario que Datastream usa para conectarse a la base de datos y para el que quieres omitir las políticas de RLS.
¿Admite Datastream operaciones de CDC simultáneas al replicar desde una fuente de PostgreSQL?	No. La replicación de PostgreSQL se basa en el concepto de ranuras de replicación, y estas no admiten conexiones simultáneas. Solo puede haber una tarea de CDC leyendo desde el espacio de replicación a la vez. Por ejemplo, si elimina un gran número de registros de la base de datos de origen, la ranura de replicación puede sobrecargarse con eventos de eliminación. Los cambios posteriores que se hagan en la fuente se retrasarán hasta que se procesen los eventos de eliminación que ya estén en la cola de la ranura de replicación. Para obtener información sobre el enfoque sugerido al replicar grandes cantidades de datos de transacciones, consulta Diagnosticar problemas.
¿Datastream admite el cifrado con Capa de conexión segura (SSL) y Seguridad en la capa de transporte (TLS)?	Sí, Datastream admite conexiones cifradas con SSL/TLS.

Comportamiento y limitaciones de las fuentes de SQL Server

Pregunta	Respuesta
¿Qué ediciones de SQL Server admite Datastream?	Datastream admite versiones de bases de datos de SQL Server que admiten la captura de datos de cambios. Para ver una lista completa de las versiones y ediciones de SQL Server admitidas, consulta Versiones.
¿Cómo funciona la replicación de CDC de Datastream en fuentes de SQL Server?	El proceso de ingestión de datos de Datastream utiliza registros de transacciones o tablas de cambios, en función de la configuración de la fuente. Para obtener más información, consulta Base de datos de origen de SQL Server.
¿Qué permisos necesita Datastream como mínimo para replicar datos de una base de datos de SQL Server de origen?	Debes conceder los siguientes roles y permisos a tu usuario de Datastream para replicar datos de una base de datos de SQL Server: En el caso del método CDC de tablas de cambios: `db_owner` `db_denydatawriter` Además, en el caso del método CDC de los registros de transacciones: `SELECT` en la base de datos y para la función `sys.fn_dblog` Permisos de `SELECT` en la tabla `dbo.sysjobs` `VIEW SERVER STATE` Para obtener información detallada sobre cómo configurar tu fuente, consulta las páginas de configuración correspondientes de tu tipo de base de datos.
¿Por qué necesitas una configuración como cambiar los intervalos de sondeo y configurar una protección de truncamiento al usar los registros de transacciones?	Cuando replicas datos de una fuente de SQL Server mediante registros de transacciones, si un registro se trunca antes de que Datastream lo lea, se produce una pérdida de datos. Cambiar los intervalos de sondeo y configurar la protección de truncamiento es opcional, pero proporciona una capa adicional de protección para asegurarse de que Datastream pueda leer los datos incluso en situaciones en las que se produzcan tiempos de inactividad o problemas de conectividad. Para obtener más información, consulta Configurar una base de datos de SQL Server de origen.
¿Qué método de CDC se debe seleccionar al replicar desde una fuente de SQL Server?	Puede seleccionar uno de los dos métodos de CDC disponibles en función de la configuración de su base de datos de SQL Server de origen: Registros de transacciones: selecciona este método para procesar los cambios directamente desde los registros de la base de datos. Este método ofrece el mejor rendimiento y es más eficiente, pero requiere pasos de configuración adicionales que puede que tu base de datos no admita. Tablas de cambios: seleccione este método para procesar los cambios de las tablas de cambios específicas. Este método es más fácil de configurar y tiene menos limitaciones, pero admite un menor rendimiento y aumenta la carga en tu base de datos. Para obtener más información, consulta Descripción general de SQL Server como fuente.

Comportamiento y limitaciones de la fuente de Salesforce

Pregunta	Respuesta
¿Qué es una organización de Salesforce?	Una organización de Salesforce, también denominada organización, es tu implementación específica de Salesforce, similar a una instancia de base de datos. Una organización tiene un conjunto definido de usuarios con licencia y almacena todos los datos y las aplicaciones de los clientes.
¿Qué son los objetos, registros y campos de Salesforce?	Un objeto es una entidad de clase y es similar a una tabla en la nomenclatura de las bases de datos relacionales. Pueden ser estándar o personalizados. Los objetos estándar se incluyen en Salesforce de forma predeterminada, mientras que los objetos personalizados los crean los usuarios para almacenar datos específicos de su caso práctico. Un registro es una instancia específica de un objeto, similar a una fila de las bases de datos relacionales. Un campo es un atributo específico de un objeto, similar a una columna de las bases de datos relacionales.

Pregunta

Respuesta

¿Qué es una organización de Salesforce?

Una organización de Salesforce, también denominada organización, es tu implementación específica de Salesforce, similar a una instancia de base de datos. Una organización tiene un conjunto definido de usuarios con licencia y almacena todos los datos y las aplicaciones de los clientes.

¿Qué son los objetos, registros y campos de Salesforce?

Un objeto es una entidad de clase y es similar a una tabla en la nomenclatura de las bases de datos relacionales. Pueden ser estándar o personalizados. Los objetos estándar se incluyen en Salesforce de forma predeterminada, mientras que los objetos personalizados los crean los usuarios para almacenar datos específicos de su caso práctico.

Un registro es una instancia específica de un objeto, similar a una fila de las bases de datos relacionales.

Un campo es un atributo específico de un objeto, similar a una columna de las bases de datos relacionales.

Comportamiento del destino de BigQuery

Pregunta	Respuesta
¿Cómo funcionan Datastream y BigQuery conjuntamente para replicar los cambios de la base de datos de origen?	Datastream lee continuamente el flujo de cambios de la base de datos de origen y transmite los eventos de inserción y eliminación a las tablas de destino de BigQuery mediante la API Storage Write. A continuación, BigQuery aplica los cambios a la tabla en función de la configuración de obsolescencia de la tabla.
¿Cómo se aplican las operaciones del lenguaje de manipulación de datos (DML) en BigQuery?	En el modo Solo añadir, los datos se añaden a BigQuery como un flujo de cambios, con una fila independiente para cada evento `INSERT`, `UPDATE-INSERT`, `UPDATE-DELETE` y `DELETE`. En el modo Combinar (predeterminado), cuando Datastream crea una tabla en BigQuery, define las claves principales de la tabla según las claves principales definidas en la fuente. BigQuery procesa los eventos y aplica los cambios a la tabla de BigQuery subyacente en función de las claves principales de la tabla de origen. Si la tabla de origen no tiene una clave principal, se trata como si se hubiera usado el modo Solo añadir.
¿Cómo gestionan Datastream y BigQuery el orden de los eventos?	BigQuery usa los metadatos de eventos y un número de secuencia de cambios (CSN) interno para aplicar los eventos a la tabla en el orden correcto. Para obtener más información sobre los metadatos de eventos, consulte Eventos y flujos.
¿Cómo se calculan los costes de BigQuery cuando se usa con Datastream?	Los costes de BigQuery se calculan y se cobran por separado de Datastream. Para saber cómo controlar los costes de BigQuery, consulta los precios de CDC de BigQuery.
¿Cuál es el tamaño máximo de las filas que admite Datastream al transmitir datos a BigQuery?	El tamaño máximo de fila que admite Datastream es de 20 MB.
Cuando se hace streaming a BigQuery, las tablas tienen el prefijo `_`. ¿Podéis cambiar este comportamiento para que las tablas de BigQuery sigan la misma estructura que tienen en la base de datos de origen?	Cuando configuras conjuntos de datos para un destino de BigQuery, creas un conjunto de datos para cada esquema o un único conjunto de datos para todos los esquemas. Cuando creas un conjunto de datos para cada esquema, cada esquema de la fuente se asigna a un conjunto de datos de BigQuery y todas las tablas del esquema de la fuente se asignan a las tablas del conjunto de datos. Si selecciona la opción de un solo conjunto de datos para todos los esquemas, los nombres de las tablas tendrán el prefijo `_`, de acuerdo con la convención de nomenclatura de tablas de BigQuery.
¿Puede la CDC capturar cambios en el esquema de origen, por ejemplo, cuando se inserta o se elimina una columna en el origen? ¿Estos cambios se reflejan automáticamente en las tablas ya rellenadas de los conjuntos de datos de BigQuery de destino?	Datastream detecta automáticamente las columnas nuevas y las añade al esquema de destino de las filas nuevas, pero no a las que ya se han replicado en el destino. Las columnas eliminadas se ignoran y Datastream las rellena con valores `NULL` en el destino. Después, puedes eliminar manualmente estas columnas en BigQuery.

Comportamiento del destino de Cloud Storage

Pregunta	Respuesta
¿Cómo se crean los archivos en Cloud Storage?	Datastream crea una carpeta para cada tabla. En cada carpeta, Datastream rota el archivo (o crea uno nuevo) cada vez que alcanza el umbral de tamaño o tiempo definido por el usuario. DataStream también rota el archivo cada vez que se detecta un cambio de esquema. El nombre del archivo estará compuesto por una clave de esquema única (basada en un hash del esquema) seguida de la marca de tiempo del primer evento del archivo. Por motivos de seguridad, estos nombres de archivo no están pensados para que los lean o entiendan los usuarios.
Si los datos de Cloud Storage no están ordenados, ¿cómo se pueden reordenar los eventos antes de cargarlos en el destino?	Cada evento contiene varios campos de metadatos que identifican de forma exclusiva la fila de los archivos de registro y te permiten ordenar los eventos. Estos campos incluyen: En el caso de las fuentes de Oracle: `rs_id` (ID del conjunto de registros), que se compone de tres valores (por ejemplo, `0x0073c9.000a4e4c.01d0`). El `rs_id` identifica de forma única el registro en el registro de rehacer. `ssn` (número de secuencia de SQL), que se usa cuando el registro del registro de rehacer es demasiado largo. Por este motivo, Oracle LogMiner divide el registro en varias filas. En el caso de las fuentes MySQL: `log_file`, desde la que Datastream extrae eventos en la replicación de CDC. `log_position`, que identifica el desplazamiento del registro en el registro binario de MySQL. En el caso de las fuentes de PostgreSQL: `source_timestamp`, que es la marca de tiempo en la que cambió el registro en la fuente. Si los valores de `source_timestamp` de los eventos que está ordenando son idénticos, compare los valores de `lsn`. `lsn` (número de secuencia de registro), que identifica el desplazamiento del registro en el archivo de registro de WAL. Para obtener más información sobre los campos de metadatos, consulta Metadatos específicos de la fuente.
Si se crean varios archivos con la misma marca de tiempo, ¿en qué orden se deben procesar?	Como no se garantiza el orden dentro de los archivos ni entre ellos, la mejor forma de determinar el orden en el que se deben procesar los archivos de la fuente es obtener todos los eventos de todos los archivos de la marca de tiempo específica y, a continuación, aplicar el orden mediante el método mencionado anteriormente en esta sección.
¿Cómo se gestionan las actualizaciones de claves principales? ¿Hay información antes y después del evento?	Cuando cambia la clave principal de una fila, Datastream genera dos eventos para el cambio: un `UPDATE-DELETE` y un `UPDATE-INSERT`. El evento `UPDATE-DELETE` representa los datos antes de la actualización y `UPDATE-INSERT` representa los datos después de la actualización. Para obtener más información sobre los metadatos específicos de la fuente, consulte Eventos y flujos.
¿Cuál es el tamaño máximo de las filas que admite Datastream al transmitir datos a Cloud Storage?	El tamaño máximo de fila que admite Datastream es de 100 MB.

Casos prácticos

Pregunta	Respuesta
¿Cuáles son algunos de los usos más habituales de Datastream?	Datastream es un servicio de replicación y CDC, lo que significa que es flexible en varios casos prácticos que pueden beneficiarse del acceso a datos de cambios de streaming continuos. Los casos prácticos más habituales de Datastream son los siguientes: Analíticas: al replicar datos directamente en BigQuery, los clientes pueden acceder a datos operativos actualizados en BigQuery. Los clientes pueden usar estos datos, que se actualizan continuamente en BigQuery, para crear paneles de control actualizados sobre sus datos. Por ejemplo, se puede usar para monitorizar sistemas y obtener estadísticas actualizadas sobre el estado de su empresa. Situaciones de replicación y sincronización de bases de datos: al integrar Datastream con plantillas de Dataflow para cargar datos en Cloud SQL o Spanner, puedes obtener una replicación actualizada de tus datos de origen en estas bases de datos. Puedes usar estos datos, que se actualizan continuamente, en las bases de datos de destino para llevar a cabo una migración de bases de datos con un tiempo de inactividad reducido desde el origen al destino, o bien para configuraciones de nube híbrida, en las que el origen y el destino se encuentran en entornos de alojamiento diferentes. Arquitecturas basadas en eventos: las arquitecturas modernas basadas en microservicios se basan en centros de datos que se actualizan continuamente con eventos de toda la organización para estar basadas en eventos. Si escribe continuamente datos de eventos en destinos como BigQuery y Cloud Storage, puede crear arquitecturas basadas en eventos que se basen en el consumo de datos de eventos de estos destinos.

Pregunta

Respuesta

¿Cuáles son algunos de los usos más habituales de Datastream?

Datastream es un servicio de replicación y CDC, lo que significa que es flexible en varios casos prácticos que pueden beneficiarse del acceso a datos de cambios de streaming continuos. Los casos prácticos más habituales de Datastream son los siguientes:

Analíticas: al replicar datos directamente en BigQuery, los clientes pueden acceder a datos operativos actualizados en BigQuery. Los clientes pueden usar estos datos, que se actualizan continuamente en BigQuery, para crear paneles de control actualizados sobre sus datos. Por ejemplo, se puede usar para monitorizar sistemas y obtener estadísticas actualizadas sobre el estado de su empresa.
Situaciones de replicación y sincronización de bases de datos: al integrar Datastream con plantillas de Dataflow para cargar datos en Cloud SQL o Spanner, puedes obtener una replicación actualizada de tus datos de origen en estas bases de datos. Puedes usar estos datos, que se actualizan continuamente, en las bases de datos de destino para llevar a cabo una migración de bases de datos con un tiempo de inactividad reducido desde el origen al destino, o bien para configuraciones de nube híbrida, en las que el origen y el destino se encuentran en entornos de alojamiento diferentes.
Arquitecturas basadas en eventos: las arquitecturas modernas basadas en microservicios se basan en centros de datos que se actualizan continuamente con eventos de toda la organización para estar basadas en eventos. Si escribe continuamente datos de eventos en destinos como BigQuery y Cloud Storage, puede crear arquitecturas basadas en eventos que se basen en el consumo de datos de eventos de estos destinos.

Integraciones

Pregunta	Respuesta
¿Cómo se integra Datastream con los Google Cloud servicios de datos?	Datastream complementa y mejora la Google Cloud suite de datos Google Cloud proporcionando replicación de datos de CDC desde fuentes a varios servicios. Al integrarse a la perfección con estos servicios, Datastream se adapta al ecosistema más amplio de Google Cloud Google Cloud. Datastream se integra con los siguientes servicios de datos: BigQuery: Datastream usa la API Write de BigQuery para integrarse directamente con BigQuery. Datastream escribe los eventos de cambio directamente en el conjunto de datos de BigQuery, donde los cambios se combinan continuamente (UPSERT) con los datos existentes. Dataflow: Datastream se puede integrar con Dataflow mediante plantillas de Dataflow. Estas plantillas leen datos de Cloud Storage y los cargan en BigQuery, Cloud SQL para PostgreSQL o Spanner. El objetivo de estas plantillas es mantener actualizadas las tablas de origen replicadas en los destinos. Las plantillas están disponibles en la interfaz de usuario de Dataflow y se han creado para procesar archivos generados por Datastream de forma inmediata. Cloud Storage: Datastream se integra con Cloud Storage escribiendo en él como destino de la transmisión de cambios. Cloud SQL y Spanner: si usas plantillas de Datastream y Dataflow, puedes mantener actualizadas las tablas replicadas en las bases de datos.
¿Tiene alguna limitación la plantilla de Datastream a BigQuery de Dataflow en cuanto al número de operaciones del lenguaje de manipulación de datos (DML)?	No. La plantilla usa la API de inserciones continuas para cargar datos en BigQuery. Por lo tanto, no hay límite en el número de operaciones de DML. Sin embargo, se aplican algunas limitaciones de cuota.

Pregunta

Respuesta

¿Cómo se integra Datastream con los Google Cloud servicios de datos?

Datastream complementa y mejora la Google Cloud suite de datos Google Cloud proporcionando replicación de datos de CDC desde fuentes a varios servicios. Al integrarse a la perfección con estos servicios, Datastream se adapta al ecosistema más amplio de Google Cloud Google Cloud.

Datastream se integra con los siguientes servicios de datos:

BigQuery: Datastream usa la API Write de BigQuery para integrarse directamente con BigQuery. Datastream escribe los eventos de cambio directamente en el conjunto de datos de BigQuery, donde los cambios se combinan continuamente (UPSERT) con los datos existentes.
Dataflow: Datastream se puede integrar con Dataflow mediante plantillas de Dataflow. Estas plantillas leen datos de Cloud Storage y los cargan en BigQuery, Cloud SQL para PostgreSQL o Spanner. El objetivo de estas plantillas es mantener actualizadas las tablas de origen replicadas en los destinos. Las plantillas están disponibles en la interfaz de usuario de Dataflow y se han creado para procesar archivos generados por Datastream de forma inmediata.
Cloud Storage: Datastream se integra con Cloud Storage escribiendo en él como destino de la transmisión de cambios.
Cloud SQL y Spanner: si usas plantillas de Datastream y Dataflow, puedes mantener actualizadas las tablas replicadas en las bases de datos.

¿Tiene alguna limitación la plantilla de Datastream a BigQuery de Dataflow en cuanto al número de operaciones del lenguaje de manipulación de datos (DML)?

No. La plantilla usa la API de inserciones continuas para cargar datos en BigQuery. Por lo tanto, no hay límite en el número de operaciones de DML. Sin embargo, se aplican algunas limitaciones de cuota.

Seguridad y conectividad

Pregunta	Respuesta
¿Datastream es un servicio seguro para datos sensibles?	Datastream admite varias configuraciones de conectividad privadas y seguras para proteger los datos en tránsito mientras se transmiten de una fuente a un destino. Una vez que se han replicado los datos, se cifran de forma predeterminada y se aprovechan los controles de seguridad de BigQuery o Cloud Storage. Los datos almacenados en búfer por Datastream se cifran en reposo.
¿Qué opciones de conectividad están disponibles para conectar sus fuentes a Datastream?	Puedes configurar tres tipos de métodos de conectividad: Lista de IP permitidas: este método te proporciona conectividad pública al incluir en la lista de permitidas las direcciones IP regionales de Datastream en la fuente. Cuando cree su flujo, Datastream mostrará estas direcciones IP en la interfaz de usuario. Túnel directo SSH: este método te ofrece una conectividad segura a través de redes públicas mediante el uso de un bastión SSH configurado por el cliente, además de incluir en la lista de permitidas las direcciones IP regionales. Conectividad privada mediante el emparejamiento de VPC: usa este método para conectarte a tus bases de datos alojadas en Google Clouda través de la red interna de Google Cloudo aprovecha una conexión VPN o Interconnect que ya tengas estableciendo el emparejamiento de VPC entre la red privada de Datastream y la VPC de Google Cloud de tu organización.
¿Cómo puedo limitar el tratamiento de datos sensibles por parte de Datastream?	Datastream te permite especificar qué elementos de datos concretos (esquemas, tablas y columnas) de tu fuente quieres transmitir a un destino y qué elementos quieres excluir de la transmisión. Los registros de la base de datos pueden contener datos de cambios de elementos que se hayan excluido en la definición de su flujo. Como no puedes filtrar estos elementos en la fuente, Datastream leerá, pero ignorará, los datos asociados a los elementos.
¿Cómo protege Datastream las credenciales de la base de datos?	Tanto si usas Secret Manager para almacenar tu contraseña como si la introduces manualmente al crear tu perfil de conexión, todos los metadatos de usuario se cifran en tránsito y en reposo, y Google los almacena en sus sistemas de almacenamiento propietarios. El acceso a estos metadatos se monitoriza y audita.
¿Por qué se indica en la página Crear una configuración de conectividad privada que debes asignar el rol `roles/compute.networkAdmin` a la cuenta de servicio de Datastream para crear una configuración de conectividad privada en una VPC compartida?	El rol `networkAdmin` solo es necesario para crear el peering de VPC. Una vez que se haya establecido la conexión, ya no necesitarás el rol. Si tu organización no permite conceder el rol `networkAdmin` a la cuenta de servicio de Datastream, crea un rol personalizado con los siguientes permisos específicos: Seleccionar intervalos de IP de forma dinámica compute.routes.get compute.routes.list compute.subnetworks.get compute.subnetworks.list Crear redes emparejadas compute.globalOperations.get compute.networks.addPeering compute.networks.removePeering compute.networks.get Reservar direcciones IP compute.globalAddresses.get compute.globalAddresses.create compute.globalAddresses.createInternal compute.globalAddresses.delete compute.globalAddresses.deleteInternal compute.networks.use compute.networks.listPeeringRoutes
¿Puedo usar Private Service Connect para crear una configuración de conectividad privada?	No, Datastream no admite Private Service Connect.

Monitorizar DataStream

Pregunta	Respuesta
¿Cómo sé cuándo se han copiado todos mis datos históricos en el destino?	Datastream proporciona información sobre su estado actual en los archivos de registro. Se crea una entrada de registro para indicar cuándo se ha completado el relleno de una tabla.
La latencia aumenta de vez en cuando y, después, disminuye gradualmente con el tiempo. ¿Es normal?	Datastream se amplía automáticamente cuando aumenta el volumen de eventos generados por la fuente. Sin embargo, para proteger tanto la base de datos de origen como Datastream, hay límites en el número de conexiones y procesos simultáneos que Datastream puede abrir en cualquier momento. Es normal que se produzcan picos temporales de latencia cuando hay un aumento significativo en el volumen de eventos. Estos picos deberían disminuir gradualmente a medida que se procese el backlog de eventos.

Pregunta

Respuesta

¿Cómo sé cuándo se han copiado todos mis datos históricos en el destino?

Datastream proporciona información sobre su estado actual en los archivos de registro. Se crea una entrada de registro para indicar cuándo se ha completado el relleno de una tabla.

La latencia aumenta de vez en cuando y, después, disminuye gradualmente con el tiempo. ¿Es normal?

Datastream se amplía automáticamente cuando aumenta el volumen de eventos generados por la fuente. Sin embargo, para proteger tanto la base de datos de origen como Datastream, hay límites en el número de conexiones y procesos simultáneos que Datastream puede abrir en cualquier momento. Es normal que se produzcan picos temporales de latencia cuando hay un aumento significativo en el volumen de eventos. Estos picos deberían disminuir gradualmente a medida que se procese el backlog de eventos.

Precios

Pregunta	Respuesta
¿Cómo se calcula el precio de Datastream?	El precio de Datastream se basa en el volumen (GB) de datos procesados desde tu origen hasta un destino. Para obtener más información sobre los precios de Datastream, consulta la página Precios.
¿Cómo calculáis el tamaño de los datos?	La facturación se calcula en función del tamaño de los datos que procesa Datastream. Datastream solo cobra por los datos que se envían a la propiedad de destino.
Si usas Datastream con BigQuery o Dataflow, ¿qué pagas?	Cada servicio tiene un precio y se cobra por separado.

Pregunta

Respuesta

¿Cómo se calcula el precio de Datastream?

El precio de Datastream se basa en el volumen (GB) de datos procesados desde tu origen hasta un destino.

Para obtener más información sobre los precios de Datastream, consulta la página Precios.

¿Cómo calculáis el tamaño de los datos?

La facturación se calcula en función del tamaño de los datos que procesa Datastream. Datastream solo cobra por los datos que se envían a la propiedad de destino.

Si usas Datastream con BigQuery o Dataflow, ¿qué pagas?

Cada servicio tiene un precio y se cobra por separado.

Información adicional

Pregunta	Respuesta
¿Qué puedo hacer si tengo más preguntas o problemas con Datastream?	El equipo de Asistencia de Google puede ayudarte si tienes problemas al usar Datastream. Además, la guía para solucionar problemas aborda los problemas habituales que pueden surgir al usar Datastream.

Siguientes pasos

Consulta más información sobre Datastream.
Consulta los conceptos y las funciones clave de Datastream.
Consulta las fuentes que admite Datastream.
Consulta los destinos que admite Datastream.

Preguntas frecuentes Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Preguntas generales sobre Datastream y la captura de datos de cambios (CDC)

Comportamiento general de las fuentes y limitaciones

Comportamiento y limitaciones de las fuentes de MySQL

Comportamiento y limitaciones de las fuentes de Oracle

Comportamiento y limitaciones de las fuentes de PostgreSQL

Comportamiento y limitaciones de las fuentes de SQL Server

Comportamiento y limitaciones de la fuente de Salesforce

Comportamiento del destino de BigQuery

Comportamiento del destino de Cloud Storage

Casos prácticos

Integraciones

Seguridad y conectividad

Monitorizar DataStream

Precios

Información adicional

Siguientes pasos

Preguntas frecuentes