En esta página, encontrará respuestas a las preguntas frecuentes sobre el uso de Datastream. Estas preguntas frecuentes están asociadas a lo siguiente:
- Preguntas generales sobre Datastream y la captura de datos de cambios (CDC)
- Comportamiento general de las fuentes y limitaciones
- Comportamiento y limitaciones de las fuentes de MySQL
- Comportamiento y limitaciones de las fuentes de Oracle
- Comportamiento y limitaciones de las fuentes de PostgreSQL (incluido AlloyDB para PostgreSQL)
- Comportamiento y limitaciones de las fuentes de SQL Server
- Comportamiento y limitaciones de la fuente de Salesforce
- Comportamiento del destino de BigQuery
- Comportamiento del destino de Cloud Storage
- Casos prácticos habituales de Datastream
- Cómo se integra Datastream con los servicios de datos Google Cloud
- Seguridad y conectividad
- Monitorizar DataStream
- Precios
- Información adicional sobre Datastream
Preguntas generales sobre Datastream y la captura de datos de cambios (CDC)
Pregunta | Respuesta |
---|---|
¿Qué es Datastream? | Datastream es un servicio de replicación y captura de datos de cambios (CDC) sin servidor y fácil de usar. Datastream permite replicar datos de forma sencilla desde fuentes de bases de datos relacionales, como AlloyDB para PostgreSQL, PostgreSQL, MySQL, SQL Server y Oracle, así como desde Salesforce y MongoDB, directamente en BigQuery. Datastream ofrece la escalabilidad, la velocidad, la seguridad y la sencillez que necesitan las empresas modernas. Gracias a su arquitectura sin servidor y de escalado automático, Datastream te permite configurar una canalización de ELT (extracción, carga y transformación) para replicar datos con baja latencia y obtener información valiosa casi en tiempo real. Datastream también puede sincronizar flujos de datos entre bases de datos y aplicaciones heterogéneas de forma fiable y con una latencia mínima. Puedes integrar el servicio con plantillas de Dataflow para replicar bases de datos en Cloud SQL o Spanner para sincronizar bases de datos, o bien aprovechar el flujo de eventos directamente desde Cloud Storage para implementar arquitecturas basadas en eventos. |
¿Cuáles son los métodos por los que Datastream transmite datos? | Datastream transmite datos de un origen a un destino mediante uno de estos dos métodos:
|
¿Qué es el CDC? |
El CDC es un método de integración de datos que le permite integrar y analizar datos más rápido y con menos recursos del sistema. Es un método para extraer solo los cambios más recientes (actualizaciones, inserciones o eliminaciones) de una fuente de datos. Para ello, se suele leer el registro de cambios que la fuente mantiene para su propia integridad transaccional interna. La CDC es un mecanismo muy eficiente para limitar el impacto en el origen al cargar datos nuevos en almacenes de datos operativos y almacenes de datos, y elimina la necesidad de actualizar la carga masiva y las ventanas de lotes poco prácticas al permitir la carga incremental o la transmisión casi en tiempo real de los cambios de datos a un destino de datos. La CDC se puede usar en muchos casos prácticos que obtienen valor del acceso constante a los cambios de datos a medida que se producen, como la analítica, la sincronización de datos en sistemas distribuidos geográficamente y las arquitecturas basadas en eventos. |
¿Qué es el relleno? | Además de los cambios continuos, Datastream también usa la reposición para extraer todos los datos disponibles de un origen y, a continuación, enviarlos a un destino. Por lo tanto, el destino se rellena con todos los datos históricos del origen. Hay dos tipos de relleno:
|
¿Hay alguna limitación que deba tener en cuenta al realizar un relleno? |
Para obtener información sobre las restricciones de relleno, consulta las páginas de limitaciones conocidas de los tipos de fuentes correspondientes:
|
¿Cuál es el orden recomendado para las operaciones de CDC y de backfill? | En la mayoría de los casos, no hay que tener nada en cuenta. Cuando la reposición está habilitada en un flujo, Datastream realiza tanto la reposición como la CDC al mismo tiempo. En algunos casos extremos, por ejemplo, al replicar tablas muy grandes que no se pueden rellenar con Datastream, es posible que tengas que cargar los datos en BigQuery antes de iniciar el flujo. |
¿Puedo monitorizar el estado de las operaciones de CDC y de relleno? | Puedes monitorizar el estado de la cobertura por objeto:
El estado de CDC es el estado del flujo. Si falla la operación de CDC, falla todo el flujo. En Cloud Monitoring hay disponibles métricas adicionales a nivel de objeto. Para obtener más información, consulta la documentación de Cloud Monitoring. |
¿Qué diferencia hay entre un flujo de cambios y una réplica? | Un flujo de cambios es una secuencia de eventos que Datastream emite a un destino para que se consuman posteriormente. El resultado de la escritura de un flujo de cambios en Cloud Storage es un conjunto de archivos que contienen eventos de registro de cambios de una tabla específica durante un periodo. Los eventos representan inserciones, actualizaciones y eliminaciones en esa tabla, y los servicios, como Dataflow, pueden consumir y procesar los eventos después de Cloud Storage para casos prácticos como las arquitecturas basadas en eventos. En el contexto de Datastream, replicación significa una representación actualizada de la tabla de origen en el destino. Por ejemplo, una tabla de Oracle cuyos cambios se replican continuamente en una tabla de BigQuery, donde la tabla de BigQuery se mantiene actualizada con los cambios transmitidos desde la tabla de Oracle. La replicación aprovecha los flujos de cambios consumiendo cada evento de cambio y usándolo para actualizar el destino. Datastream permite la replicación directa en BigQuery y admite otros destinos, como Cloud SQL y Spanner, mediante la integración con Dataflow. Para ello, se utilizan plantillas que extraen los eventos del flujo de cambios de Cloud Storage y actualizan las tablas de destino en consecuencia. |
¿Datastream requiere un agente en la fuente? | No tienes que instalar ningún agente en la fuente. Datastream usa interfaces ya disponibles (como Oracle LogMiner) para extraer los datos de la fuente. |
¿Cuántas tablas puedo incluir en una sola emisión? | Datastream puede gestionar hasta 10.000 tablas en un solo flujo. No hay ningún motivo técnico para dividir una base de datos en varias secuencias, aunque puede haber algunas consideraciones empresariales para usar diferentes secuencias en diferentes flujos lógicos, por ejemplo, al replicar transacciones grandes de fuentes de PostgreSQL. Sin embargo, cada flujo añade carga a la base de datos de origen. Esta carga es insignificante para CDC, pero puede ser importante para el relleno inicial. |
¿Cómo afecta el uso de Datastream al rendimiento de una base de datos de producción? |
CDC es un mecanismo muy eficiente para limitar el impacto en la fuente cuando se cargan datos nuevos en los almacenes y los almacenes de datos de destino. La CDC también elimina la necesidad de actualizar la carga masiva y los periodos de procesamiento por lotes poco prácticos, ya que permite la carga incremental o el streaming casi en tiempo real de los cambios de datos en un destino. Además, Datastream minimiza el impacto de un relleno inicial limitando el número de tareas de relleno simultáneas y ofreciéndole el control para decidir qué objetos rellenar y cuándo hacerlo. |
¿Puedes copiar los archivos de registro de la fuente a Google Cloud? | No. Datastream consulta los registros directamente en el servidor de la base de datos y solo se escriben en el destino los cambios que se produzcan en las tablas especificadas. |
¿Datastream también puede transferir datos históricos? | Sí. De forma predeterminada, Datastream obtiene todos los datos históricos de las tablas de la base de datos de origen que especifiques, en paralelo al flujo de CDC. Datastream te ofrece la flexibilidad de obtener datos históricos de algunas o de todas las tablas de la base de datos de tu fuente. Además, cuando configures tu stream, puedes inhabilitar el relleno histórico. |
¿Datastream garantiza que los datos se envían solo una vez? | No. Datastream realiza las entregas al menos una vez. Los metadatos adicionales que Datastream escribe en cada evento se pueden usar para eliminar datos duplicados. |
¿Puede Datastream gestionar bases de datos cifradas? | Sí. |
¿Puede Datastream transmitir tablas y columnas específicas de un origen? | Sí. Con Datastream, puede especificar listas de inclusión y exclusión de tablas y esquemas para transmitir solo los datos que quiera de un origen a un destino. En el caso de las tablas incluidas, puede excluir columnas específicas para ajustar aún más los datos que quiere que se envíen a la tabla de destino. Sin embargo, las vistas materializadas no se pueden replicar. |
¿Cómo se mueve un flujo a otro proyecto u otra región? |
|
¿Cómo gestiona Datastream las transacciones no confirmadas en los archivos de registro de la base de datos? | Cuando los archivos de registro de la base de datos contienen transacciones no confirmadas, si se revierte alguna transacción, la base de datos lo refleja en los archivos de registro como operaciones de lenguaje de manipulación de datos (DML) "inversas". Por ejemplo, una operación INSERT revertida tendrá una operación DELETE correspondiente. Datastream lee estas operaciones de los archivos de registro. |
¿En qué regiones está disponible Datastream? | Para ver una lista de las regiones en las que está disponible Datastream, consulta Regiones y listas de IPs permitidas. |
Comportamiento general de las fuentes y limitaciones
Pregunta | Respuesta |
---|---|
¿Qué fuentes admite Datastream? | Datastream admite el streaming de datos de fuentes de Oracle, MySQL, PostgreSQL, AlloyDB para PostgreSQL, SQL Server, Salesforce (vista previa) y MongoDB (vista previa), tanto alojadas en la nube como autogestionadas. Para obtener información sobre las versiones específicas de cada fuente, consulta las siguientes páginas:
|
¿Puede Datastream gestionar bases de datos cifradas? | Sí. |
¿Cómo extrae datos Datastream de las fuentes? | En el caso de MySQL, Datastream procesa el registro binario de MySQL para extraer eventos de cambio. En el caso de Oracle, Datastream usa LogMiner y ajustes de registro suplementario para extraer datos de los registros de rehacer de Oracle. En el caso de PostgreSQL y AlloyDB para PostgreSQL, Datastream se basa en la función de decodificación lógica de PostgreSQL. La decodificación lógica expone todos los cambios confirmados en la base de datos y permite consumir y procesar estos cambios. En SQL Server, Datastream monitoriza los cambios del lenguaje de manipulación de datos (DML) mediante registros de transacciones. |
¿Puedes copiar archivos de registro directamente de una fuente a Google Cloud? | Datastream no copia todos los archivos de registro, sino que consulta los archivos de registro directamente desde el servidor de la base de datos y solo replica los cambios de las tablas especificadas en el destino. |
¿Qué limitaciones tienen los datos que puede tratar Datastream? |
Hay limitaciones generales y limitaciones que se aplican a fuentes de bases de datos específicas. Entre las limitaciones generales se incluyen las siguientes:
Para consultar las limitaciones específicas de cada fuente, consulta las siguientes páginas:
|
¿Qué datos se incluyen en cada evento generado por Datastream? | Cada evento generado (para inserciones, actualizaciones y eliminaciones) incluye toda la fila de datos de la fuente, con el tipo de datos y el valor de cada columna. Cada evento también incluye metadatos de evento que se pueden usar para establecer el orden y asegurar que se envíe exactamente una vez. |
¿Datastream garantiza el orden? | Aunque Datastream no garantiza el orden, proporciona metadatos adicionales para cada evento. Estos metadatos se pueden usar para asegurar la coherencia final en el destino. En función de la fuente, la frecuencia y la tasa de cambios, así como de otros parámetros, la coherencia final se puede lograr en un plazo de una hora. |
¿Datastream garantiza que los datos se envían solo una vez? | Datastream realiza las entregas al menos una vez. Puede eliminar los datos duplicados usando metadatos adicionales que Datastream escribe en cada evento. |
¿Cómo representa Datastream los tipos de datos de la fuente para usarlos en el procesamiento posterior? | Al escribir en un destino sin esquema, como Cloud Storage, Datastream simplifica el procesamiento posterior de los datos de diferentes orígenes normalizando los tipos de datos de todos los orígenes. Datastream toma el tipo de datos de origen original (por ejemplo, un tipo Los tipos unificados representan un superconjunto sin pérdidas de todos los tipos de origen posibles, y la normalización significa que los datos de diferentes orígenes se pueden procesar con el mínimo esfuerzo y consultar posteriormente de forma independiente del origen. |
¿Cómo gestiona Datastream los cambios en la estructura (esquema) del origen? | Datastream obtiene el esquema de la fuente periódicamente. Los esquemas se almacenan en el registro de esquemas interno de Datastream y cada evento hace referencia al esquema en el momento en que se generó. De esta forma, Datastream puede monitorizar los cambios en el esquema y adaptarse a ellos, lo que garantiza que todos los datos se transmitan y carguen correctamente en el destino. Sin embargo, entre las solicitudes de esquema, es posible que algunos cambios en el esquema no se detecten, lo que podría provocar discrepancias en los datos. |
He eliminado una columna de mi base de datos de origen, pero sigue apareciendo en la de destino. ¿Por qué? | Datastream no elimina columnas en el destino. Debes eliminar las columnas manualmente. Este comportamiento es intencional, ya que, en algunos casos, puede que prefieras conservar la columna eliminada en el destino. Por ejemplo, Datastream interpreta que cambiar el nombre de una columna en la fuente equivale a eliminar una columna y añadir otra. En este caso, no te interesa perder la columna original en el destino. |
La emisión no se inicia debido a un error de validación, pero creo que se trata de un error o quiero probar a ejecutar la emisión igualmente. ¿Cómo puedo superar esta validación? | Puedes iniciar la emisión con la API añadiendo la marca force=true y omitiendo las comprobaciones de validación. Ten en cuenta que, aunque omitas las validaciones, no se garantiza que la emisión se pueda ejecutar. Es posible que siga fallando si la base de datos no tiene la configuración o los permisos necesarios.
|
¿Puedo reiniciar una emisión fallida? | Para corregir un flujo con el estado También puedes recuperar una emisión con el estado |
¿Bloquea Datastream las tablas de la base de datos? | No. Datastream no necesita bloquear las tablas. |
En las páginas de limitaciones de cada fuente se especifica que los flujos pueden tener hasta 10.000 tablas. ¿Significa esto que Datastream no puede ejecutar operaciones de CDC en paralelo para más de 10.000 tablas al mismo tiempo? | No. El límite mencionado es por emisión. Puede tener varias secuencias con un número total de tablas superior a 10.000. |
Comportamiento y limitaciones de las fuentes de MySQL
Pregunta | Respuesta |
---|---|
¿Cómo obtiene Datastream los datos de MySQL? | Datastream usa el registro binario de MySQL para extraer los eventos de cambio de MySQL. |
¿Datastream admite instancias de réplica de lectura de Cloud SQL para MySQL? | Sí, Datastream admite instancias de réplica de lectura para Cloud SQL para MySQL en las versiones 5.7 y 8.0. Puedes habilitar el almacenamiento de registros binarios en estas instancias. Para ello, ejecuta el siguiente comando de la CLI de gcloud: gcloud sql instances patch INSTANCE_NAME -- enable-bin-log Para obtener más información, consulta Registro binario en réplicas de lectura. |
¿Qué permisos necesita Datastream como mínimo para replicar datos de una base de datos MySQL de origen? | Debes conceder los siguientes permisos a tu usuario de Datastream para replicar datos de una base de datos MySQL:
|
¿Admite Datastream la compresión de registros binarios? | No, Datastream no admite la compresión de eventos de transacción con la compresión de transacciones de registro binario. Inhabilita la compresión de transacciones del registro binario para usar la función de captura de datos de cambios de MySQL en Datastream. |
Tu organización no permite conceder el permiso SELECT en todas sus tablas y bases de datos. ¿Puedes seguir usando Datastream? |
Puedes conceder el permiso GRANT SELECT ON DATABASE_NAME.TABLE_NAME TO USER_NAME@'%'; GRANT SELECT ON DATABASE_NAME.* TO USER_NAME@'%'; Haz los cambios siguientes:
Si quieres restringir los permisos a un nombre de host concreto, sustituye el carácter |
Comportamiento y limitaciones de las fuentes de Oracle
Pregunta | Respuesta |
---|---|
¿Cómo obtiene Datastream los datos de Oracle? | Datastream usa Oracle LogMiner para extraer los datos de los registros de rehacer de Oracle. |
¿Datastream requiere una licencia de GoldenGate de Oracle? | No. Datastream no requiere una licencia de GoldenGate porque usa Oracle LogMiner para leer los datos de los registros de rehacer de la base de datos. |
¿Qué ocurre cuando Oracle LogMiner ya no es compatible? | Oracle LogMiner sigue siendo compatible con todas las versiones de Oracle disponibles para el público general, y Datastream seguirá admitiendo LogMiner en todas las versiones futuras. Oracle ha retirado la opción CONTINUOUS_MINE de LogMiner, pero Datastream no la usa, por lo que esta retirada no afecta a Datastream. |
¿Datastream admite el cifrado de datos en tránsito desde bases de datos de Oracle? | Datastream admite el cifrado de datos en tránsito basado en Oracle Net Services. Datastream se ejecuta en modo |
¿Datastream admite el cifrado con Capa de conexión segura (SSL) y Seguridad en la capa de transporte (TLS)? | Sí, Datastream admite el protocolo TCPS para las conexiones cifradas con SSL/TLS a fuentes de Oracle. |
¿Datastream admite la arquitectura multiinquilino de Oracle, concretamente las bases de datos de contenedor (CDBs) y las bases de datos conectables (PDBs)? | Sí, Datastream admite la arquitectura multiinquilino de Oracle (CDB/PDB), pero solo puede replicar una base de datos conectable en un flujo. |
Tu organización no permite conceder el permiso GRANT SELECT ANY TABLE . ¿Puedes seguir usando Datastream? |
Si no puedes conceder el permiso
Para transmitir cambios mediante Datastream, también necesita acceso de lectura a todas las tablas incluidas en el flujo. Para iniciar la emisión, omite la validación mediante la API. Para obtener más información, consulta Iniciar una emisión. |
¿Admite Datastream la replicación de instancias de réplica de lectura de Oracle? | Datastream admite la replicación desde instancias de réplica de lectura de Oracle siempre que la instancia esté configurada de acuerdo con las directrices de configuración. |
¿Datastream admite bases de datos Oracle SCAN RAC? | Sí. Sin embargo, no puedes establecer una conectividad directa con las bases de datos mediante la función Single Client Access Name (SCAN) en entornos de Oracle Real Application Clusters (RAC) con Datastream. Para superar esta limitación, conéctate directamente a uno de los nodos o usa Oracle Connection Manager. También puedes crear una configuración de conectividad privada mediante soluciones de proxy inverso, como HAProxy. |
Comportamiento y limitaciones de las fuentes de PostgreSQL
Pregunta | Respuesta |
---|---|
¿Cómo obtiene Datastream los datos de PostgreSQL? | Datastream usa la función de decodificación lógica de PostgreSQL para extraer los eventos de cambio de PostgreSQL. |
¿Datastream admite la replicación desde fuentes de AlloyDB para PostgreSQL o AlloyDB Omni? | Sí. Datastream admite ambas fuentes. Para obtener información sobre cómo configurar tu base de datos de origen de AlloyDB para PostgreSQL, consulta Configurar una base de datos de AlloyDB para PostgreSQL. Para obtener información sobre cómo configurar tu base de datos AlloyDB Omni de origen, consulta Configurar una base de datos PostgreSQL autogestionada. |
¿Admite Datastream la replicación desde una instancia de réplica de lectura de PostgreSQL? | No, Datastream no admite la replicación desde instancias de réplica de lectura de PostgreSQL. |
¿Datastream admite la seguridad a nivel de fila (RLS)? | Datastream no admite la replicación de tablas con RLS habilitado. Sin embargo, puedes saltarte esta limitación usando la cláusula BYPASSRLS :
ALTER USER USER_NAME BYPASSRLS; Sustituye USER_NAME por el nombre del usuario que Datastream usa para conectarse a la base de datos y para el que quieres omitir las políticas de RLS. |
¿Admite Datastream operaciones de CDC simultáneas al replicar desde una fuente de PostgreSQL? | No. La replicación de PostgreSQL se basa en el concepto de ranuras de replicación, y estas no admiten conexiones simultáneas. Solo puede haber una tarea de CDC leyendo desde el espacio de replicación a la vez. Por ejemplo, si elimina un gran número de registros de la base de datos de origen, la ranura de replicación puede sobrecargarse con eventos de eliminación. Los cambios posteriores que se hagan en la fuente se retrasarán hasta que se procesen los eventos de eliminación que ya estén en la cola de la ranura de replicación. Para obtener información sobre el enfoque sugerido al replicar grandes cantidades de datos de transacciones, consulta Diagnosticar problemas. |
¿Datastream admite el cifrado con Capa de conexión segura (SSL) y Seguridad en la capa de transporte (TLS)? | Sí, Datastream admite conexiones cifradas con SSL/TLS. |
Comportamiento y limitaciones de las fuentes de SQL Server
Pregunta | Respuesta |
---|---|
¿Qué ediciones de SQL Server admite Datastream? | Datastream admite versiones de bases de datos de SQL Server que admiten la captura de datos de cambios. Para ver una lista completa de las versiones y ediciones de SQL Server admitidas, consulta Versiones. |
¿Cómo funciona la replicación de CDC de Datastream en fuentes de SQL Server? | El proceso de ingestión de datos de Datastream utiliza registros de transacciones o tablas de cambios, en función de la configuración de la fuente. Para obtener más información, consulta Base de datos de origen de SQL Server. |
¿Qué permisos necesita Datastream como mínimo para replicar datos de una base de datos de SQL Server de origen? | Debes conceder los siguientes roles y permisos a tu usuario de Datastream para replicar datos de una base de datos de SQL Server: En el caso del método CDC de tablas de cambios:
Además, en el caso del método CDC de los registros de transacciones:
Para obtener información detallada sobre cómo configurar tu fuente, consulta las páginas de configuración correspondientes de tu tipo de base de datos. |
¿Por qué necesitas una configuración como cambiar los intervalos de sondeo y configurar una protección de truncamiento al usar los registros de transacciones? | Cuando replicas datos de una fuente de SQL Server mediante registros de transacciones, si un registro se trunca antes de que Datastream lo lea, se produce una pérdida de datos. Cambiar los intervalos de sondeo y configurar la protección de truncamiento es opcional, pero proporciona una capa adicional de protección para asegurarse de que Datastream pueda leer los datos incluso en situaciones en las que se produzcan tiempos de inactividad o problemas de conectividad. Para obtener más información, consulta Configurar una base de datos de SQL Server de origen. |
¿Qué método de CDC se debe seleccionar al replicar desde una fuente de SQL Server? | Puede seleccionar uno de los dos métodos de CDC disponibles en función de la configuración de su base de datos de SQL Server de origen:
Para obtener más información, consulta Descripción general de SQL Server como fuente. |
Comportamiento y limitaciones de la fuente de Salesforce
Pregunta | Respuesta |
---|---|
¿Qué es una organización de Salesforce? | Una organización de Salesforce, también denominada organización, es tu implementación específica de Salesforce, similar a una instancia de base de datos. Una organización tiene un conjunto definido de usuarios con licencia y almacena todos los datos y las aplicaciones de los clientes. |
¿Qué son los objetos, registros y campos de Salesforce? | Un objeto es una entidad de clase y es similar a una tabla en la nomenclatura de las bases de datos relacionales. Pueden ser estándar o personalizados. Los objetos estándar se incluyen en Salesforce de forma predeterminada, mientras que los objetos personalizados los crean los usuarios para almacenar datos específicos de su caso práctico. Un registro es una instancia específica de un objeto, similar a una fila de las bases de datos relacionales. Un campo es un atributo específico de un objeto, similar a una columna de las bases de datos relacionales. |
Comportamiento del destino de BigQuery
Pregunta | Respuesta |
---|---|
¿Cómo funcionan Datastream y BigQuery conjuntamente para replicar los cambios de la base de datos de origen? | Datastream lee continuamente el flujo de cambios de la base de datos de origen y transmite los eventos de inserción y eliminación a las tablas de destino de BigQuery mediante la API Storage Write. A continuación, BigQuery aplica los cambios a la tabla en función de la configuración de obsolescencia de la tabla. |
¿Cómo se aplican las operaciones del lenguaje de manipulación de datos (DML) en BigQuery? |
|
¿Cómo gestionan Datastream y BigQuery el orden de los eventos? | BigQuery usa los metadatos de eventos y un número de secuencia de cambios (CSN) interno para aplicar los eventos a la tabla en el orden correcto. Para obtener más información sobre los metadatos de eventos, consulte Eventos y flujos. |
¿Cómo se calculan los costes de BigQuery cuando se usa con Datastream? | Los costes de BigQuery se calculan y se cobran por separado de Datastream. Para saber cómo controlar los costes de BigQuery, consulta los precios de CDC de BigQuery. |
¿Cuál es el tamaño máximo de las filas que admite Datastream al transmitir datos a BigQuery? | El tamaño máximo de fila que admite Datastream es de 20 MB. |
Cuando se hace streaming a BigQuery, las tablas tienen el prefijo . ¿Podéis cambiar este comportamiento para que las tablas de BigQuery sigan la misma estructura que tienen en la base de datos de origen? |
Cuando configuras conjuntos de datos para un destino de BigQuery, creas un conjunto de datos para cada esquema o un único conjunto de datos para todos los esquemas. Cuando creas un conjunto de datos para cada esquema, cada esquema de la fuente se asigna a un conjunto de datos de BigQuery y todas las tablas del esquema de la fuente se asignan a las tablas del conjunto de datos. Si selecciona la opción de un solo conjunto de datos para todos los esquemas, los nombres de las tablas tendrán el prefijo , de acuerdo con la convención de nomenclatura de tablas de BigQuery. |
¿Puede la CDC capturar cambios en el esquema de origen, por ejemplo, cuando se inserta o se elimina una columna en el origen? ¿Estos cambios se reflejan automáticamente en las tablas ya rellenadas de los conjuntos de datos de BigQuery de destino? | Datastream detecta automáticamente las columnas nuevas y las añade al esquema de destino de las filas nuevas, pero no a las que ya se han replicado en el destino. Las columnas eliminadas se ignoran y Datastream las rellena con valores NULL en el destino. Después, puedes eliminar manualmente estas columnas en BigQuery. |
Comportamiento del destino de Cloud Storage
Pregunta | Respuesta |
---|---|
¿Cómo se crean los archivos en Cloud Storage? | Datastream crea una carpeta para cada tabla. En cada carpeta, Datastream rota el archivo (o crea uno nuevo) cada vez que alcanza el umbral de tamaño o tiempo definido por el usuario. DataStream también rota el archivo cada vez que se detecta un cambio de esquema. El nombre del archivo estará compuesto por una clave de esquema única (basada en un hash del esquema) seguida de la marca de tiempo del primer evento del archivo. Por motivos de seguridad, estos nombres de archivo no están pensados para que los lean o entiendan los usuarios. |
Si los datos de Cloud Storage no están ordenados, ¿cómo se pueden reordenar los eventos antes de cargarlos en el destino? | Cada evento contiene varios campos de metadatos que identifican de forma exclusiva la fila de los archivos de registro y te permiten ordenar los eventos. Estos campos incluyen: En el caso de las fuentes de Oracle:
En el caso de las fuentes MySQL:
En el caso de las fuentes de PostgreSQL:
Para obtener más información sobre los campos de metadatos, consulta Metadatos específicos de la fuente. |
Si se crean varios archivos con la misma marca de tiempo, ¿en qué orden se deben procesar? | Como no se garantiza el orden dentro de los archivos ni entre ellos, la mejor forma de determinar el orden en el que se deben procesar los archivos de la fuente es obtener todos los eventos de todos los archivos de la marca de tiempo específica y, a continuación, aplicar el orden mediante el método mencionado anteriormente en esta sección. |
¿Cómo se gestionan las actualizaciones de claves principales? ¿Hay información antes y después del evento? | Cuando cambia la clave principal de una fila, Datastream genera dos eventos para el cambio: un UPDATE-DELETE y un UPDATE-INSERT . El evento UPDATE-DELETE representa los datos antes de la actualización y UPDATE-INSERT representa los datos después de la actualización. Para obtener más información sobre los metadatos específicos de la fuente, consulte Eventos y flujos. |
¿Cuál es el tamaño máximo de las filas que admite Datastream al transmitir datos a Cloud Storage? | El tamaño máximo de fila que admite Datastream es de 100 MB. |
Casos prácticos
Pregunta | Respuesta |
---|---|
¿Cuáles son algunos de los usos más habituales de Datastream? | Datastream es un servicio de replicación y CDC, lo que significa que es flexible en varios casos prácticos que pueden beneficiarse del acceso a datos de cambios de streaming continuos. Los casos prácticos más habituales de Datastream son los siguientes:
|
Integraciones
Pregunta | Respuesta |
---|---|
¿Cómo se integra Datastream con los Google Cloud servicios de datos? | Datastream complementa y mejora la Google Cloud suite de datos Google Cloud proporcionando replicación de datos de CDC desde fuentes a varios servicios. Al integrarse a la perfección con estos servicios, Datastream se adapta al ecosistema más amplio de Google Cloud Google Cloud. Datastream se integra con los siguientes servicios de datos:
|
¿Tiene alguna limitación la plantilla de Datastream a BigQuery de Dataflow en cuanto al número de operaciones del lenguaje de manipulación de datos (DML)? | No. La plantilla usa la API de inserciones continuas para cargar datos en BigQuery. Por lo tanto, no hay límite en el número de operaciones de DML. Sin embargo, se aplican algunas limitaciones de cuota. |
Seguridad y conectividad
Pregunta | Respuesta |
---|---|
¿Datastream es un servicio seguro para datos sensibles? | Datastream admite varias configuraciones de conectividad privadas y seguras para proteger los datos en tránsito mientras se transmiten de una fuente a un destino. Una vez que se han replicado los datos, se cifran de forma predeterminada y se aprovechan los controles de seguridad de BigQuery o Cloud Storage. Los datos almacenados en búfer por Datastream se cifran en reposo. |
¿Qué opciones de conectividad están disponibles para conectar sus fuentes a Datastream? | Puedes configurar tres tipos de métodos de conectividad:
|
¿Cómo puedo limitar el tratamiento de datos sensibles por parte de Datastream? |
Datastream te permite especificar qué elementos de datos concretos (esquemas, tablas y columnas) de tu fuente quieres transmitir a un destino y qué elementos quieres excluir de la transmisión. Los registros de la base de datos pueden contener datos de cambios de elementos que se hayan excluido en la definición de su flujo. Como no puedes filtrar estos elementos en la fuente, Datastream leerá, pero ignorará, los datos asociados a los elementos. |
¿Cómo protege Datastream las credenciales de la base de datos? | Tanto si usas Secret Manager para almacenar tu contraseña como si la introduces manualmente al crear tu perfil de conexión, todos los metadatos de usuario se cifran en tránsito y en reposo, y Google los almacena en sus sistemas de almacenamiento propietarios. El acceso a estos metadatos se monitoriza y audita. |
¿Por qué se indica en la página Crear una configuración de conectividad privada que debes asignar el rol roles/compute.networkAdmin a la cuenta de servicio de Datastream para crear una configuración de conectividad privada en una VPC compartida? |
El rol networkAdmin solo es necesario para crear el peering de VPC. Una vez que se haya establecido la conexión, ya no necesitarás el rol. Si tu organización no permite conceder el rol networkAdmin a la cuenta de servicio de Datastream, crea un rol personalizado con los siguientes permisos específicos:
Seleccionar intervalos de IP de forma dinámica
Crear redes emparejadas
Reservar direcciones IP
|
¿Puedo usar Private Service Connect para crear una configuración de conectividad privada? | No, Datastream no admite Private Service Connect. |
Monitorizar DataStream
Pregunta | Respuesta |
---|---|
¿Cómo sé cuándo se han copiado todos mis datos históricos en el destino? | Datastream proporciona información sobre su estado actual en los archivos de registro. Se crea una entrada de registro para indicar cuándo se ha completado el relleno de una tabla. |
La latencia aumenta de vez en cuando y, después, disminuye gradualmente con el tiempo. ¿Es normal? | Datastream se amplía automáticamente cuando aumenta el volumen de eventos generados por la fuente. Sin embargo, para proteger tanto la base de datos de origen como Datastream, hay límites en el número de conexiones y procesos simultáneos que Datastream puede abrir en cualquier momento. Es normal que se produzcan picos temporales de latencia cuando hay un aumento significativo en el volumen de eventos. Estos picos deberían disminuir gradualmente a medida que se procese el backlog de eventos. |
Precios
Pregunta | Respuesta |
---|---|
¿Cómo se calcula el precio de Datastream? | El precio de Datastream se basa en el volumen (GB) de datos procesados desde tu origen hasta un destino. Para obtener más información sobre los precios de Datastream, consulta la página Precios. |
¿Cómo calculáis el tamaño de los datos? | La facturación se calcula en función del tamaño de los datos que procesa Datastream. Datastream solo cobra por los datos que se envían a la propiedad de destino. |
Si usas Datastream con BigQuery o Dataflow, ¿qué pagas? | Cada servicio tiene un precio y se cobra por separado. |
Información adicional
Pregunta | Respuesta |
---|---|
¿Qué puedo hacer si tengo más preguntas o problemas con Datastream? | El equipo de Asistencia de Google puede ayudarte si tienes problemas al usar Datastream. Además, la guía para solucionar problemas aborda los problemas habituales que pueden surgir al usar Datastream. |
Siguientes pasos
- Consulta más información sobre Datastream.
- Consulta los conceptos y las funciones clave de Datastream.
- Consulta las fuentes que admite Datastream.
- Consulta los destinos que admite Datastream.