En esta página, encontrarás respuestas a las preguntas frecuentes sobre el uso de Datastream. Estas preguntas frecuentes están asociadas a lo siguiente:
- Preguntas generales sobre Datastream y la captura de datos modificados (CDC)
- Comportamiento y limitaciones generales de las fuentes
- Comportamiento y limitaciones de la fuente de MySQL
- Comportamiento y limitaciones de la fuente de Oracle
- Comportamiento y limitaciones de la fuente de PostgreSQL (incluido AlloyDB para PostgreSQL)
- Comportamiento y limitaciones de la fuente de SQL Server
- Comportamiento y limitaciones de la fuente de Salesforce
- Comportamiento del destino de BigQuery
- Comportamiento del destino de Cloud Storage
- Casos de uso comunes de Datastream
- Cómo se integra Datastream con los Google Cloud servicios de datos
- Seguridad y conectividad
- Supervisión de Datastream
- Precios
- Información adicional sobre Datastream
Preguntas generales sobre Datastream y la captura de datos modificados (CDC)
Pregunta | Respuesta |
---|---|
¿Qué es Datastream? | Datastream es un servicio de replicación y captura de datos modificados (CDC) sin servidores fácil de usar. Datastream permite la replicación continua de datos de fuentes de base de datos relacional, como AlloyDB para PostgreSQL, PostgreSQL, MySQL, SQL Server y Oracle, así como de Salesforce y MongoDB, directamente en BigQuery. Datastream ofrece la escala, la velocidad, la seguridad y la simplicidad que necesitan las empresas modernas. Gracias a su arquitectura de ajuste de escala automático y sin servidores, Datastream permite configurar una canalización ELT (es decir, de extracción, carga y transformación) para la replicación de datos de baja latencia con el objetivo de obtener estadísticas casi en tiempo real. Datastream también puede sincronizar flujos de datos entre aplicaciones y bases de datos heterogéneas de manera confiable y con una latencia mínima. Puedes integrar el servicio con plantillas de Dataflow para replicar bases de datos en Cloud SQL o Spanner para la sincronización de bases de datos, o bien aprovechar la transmisión de eventos directamente desde Cloud Storage para crear arquitecturas controladas por eventos. |
¿Cuáles son los métodos por los que Datastream transmite datos? | Datastream transmite datos de una fuente a un destino con uno de los siguientes dos métodos:
|
¿Qué es CDC? |
El CDC es un enfoque de integración de datos que te permite integrar y analizar datos más rápido, con menos recursos del sistema. Es un método para extraer solo los cambios más recientes (actualizaciones, inserciones o eliminaciones) de una fuente de datos, a menudo leyendo el registro de cambios que la fuente mantiene para su propia integridad transaccional interna. La CDC es un mecanismo altamente eficiente para limitar el impacto en la fuente cuando se cargan datos nuevos en almacenes de datos operativos y almacenes de datos, y elimina la necesidad de actualizar cargas de forma masiva y las ventanas de lotes inconvenientes, ya que habilita la carga incremental o la transmisión casi en tiempo real de los cambios de datos a un destino de datos. La CDC se puede usar en muchos casos de uso que obtienen valor del acceso constante a los cambios de datos a medida que ocurren, como el análisis, la sincronización de datos en sistemas distribuidos geográficamente y las arquitecturas controladas por eventos. |
¿Qué es el relleno? | Además de los cambios continuos, Datastream también usa el reabastecimiento para extraer todos los datos existentes de una fuente y, luego, transmitirlos a un destino. Como resultado, el destino se "rellena" con todos los datos históricos de la fuente. Existen dos tipos de reabastecimiento:
|
¿Hay alguna limitación que debas tener en cuenta cuando realices un reabastecimiento? |
Para obtener información sobre las restricciones de la carga retroactiva, consulta las páginas de limitaciones conocidas para los tipos de fuentes respectivos:
|
¿Cuál es el orden recomendado para las operaciones de CDC y de relleno? | En la mayoría de los casos, no hay ninguna consideración especial. Cuando se habilita el reabastecimiento en un flujo, Datastream realiza el reabastecimiento y la CDC al mismo tiempo. En algunos casos extremos, por ejemplo, cuando se replican tablas muy grandes que no se pueden completar con Datastream, es posible que primero debas cargar los datos en BigQuery antes de iniciar la transmisión. |
¿Puedo supervisar el estado de las operaciones de CDC y reabastecimiento? | Puedes supervisar el estado del reabastecimiento por objeto:
El estado de los CDC es, en efecto, el estado de la transmisión. Si falla la operación de CDC, fallará toda la transmisión. En Cloud Monitoring, hay disponibles métricas adicionales a nivel del objeto. Para obtener más información, consulta la documentación de Cloud Monitoring. |
¿Qué diferencia hay entre una transmisión de cambios y la replicación? | Una transmisión de cambios es una secuencia de eventos que Datastream emite a un destino para el consumo posterior. El resultado de una transmisión de cambios que se escribe en Cloud Storage es un conjunto de archivos que contienen eventos de registro de cambios de una tabla específica durante un período. Los eventos representan inserciones, actualizaciones y eliminaciones en esa tabla, y los servicios como Dataflow pueden consumir y procesar los eventos en una etapa posterior a Cloud Storage para casos de uso como arquitecturas controladas por eventos. En el contexto de Datastream, la replicación significa una representación actualizada y 1:1 de la tabla de origen en el destino. Por ejemplo, una tabla en Oracle cuyos cambios se replican de forma continua en una tabla de BigQuery, en la que la tabla de BigQuery se mantiene actualizada con los cambios transmitidos desde la tabla de Oracle. La replicación aprovecha las flujos de cambios porque consume cada evento de cambio y lo usa para actualizar el destino. Datastream permite la replicación directa en BigQuery y admite destinos adicionales, como Cloud SQL y Spanner, a través de la integración con Dataflow, aprovechando las plantillas que extraen los eventos de transmisión de cambios de Cloud Storage y actualizan las tablas de destino según corresponda. |
¿Datastream requiere un agente en la fuente? | No es necesario instalar un agente en la fuente. Datastream usa interfaces existentes (como Oracle LogMiner) para obtener los datos de la fuente. |
¿Cuántas tablas puedo incluir en una sola transmisión? | Datastream puede controlar hasta 10,000 tablas en una sola transmisión. No hay ningún motivo técnico para dividir una base de datos en varias transmisiones, aunque podría haber algunas consideraciones comerciales para usar diferentes transmisiones para diferentes flujos lógicos, por ejemplo, cuando se replican transacciones grandes de fuentes de PostgreSQL. Sin embargo, cada transmisión agrega carga a la base de datos de origen. Esta carga es insignificante para el CDC, pero puede ser importante para el reabastecimiento. |
¿Qué ocurre con el impacto en el rendimiento que tiene el uso de Datastream en una base de datos de producción? |
La CDC es un mecanismo altamente eficiente para limitar el impacto en la fuente cuando se cargan datos nuevos en almacenes de datos de destino. La CDC también elimina la necesidad de actualizar cargas de forma masiva y las ventanas de lotes inconvenientes, ya que habilita la carga incremental o la transmisión casi en tiempo real de los cambios de datos a un destino. Además, Datastream minimiza el impacto de un reabastecimiento inicial limitando la cantidad de tareas de reabastecimiento simultáneas y ofreciéndote el control para decidir qué objetos reabastecer y cuándo hacerlo. |
¿Puedes copiar los archivos de registro de la fuente a Google Cloud? | No. Datastream consulta los registros directamente en el servidor de la base de datos y solo se escriben en el destino los cambios en las tablas especificadas. |
¿Datastream también puede transferir datos históricos? | Sí. De forma predeterminada, Datastream obtiene todos los datos históricos de las tablas de la base de datos de la fuente que especifiques, en paralelo con la transmisión de CDC. Datastream te brinda la flexibilidad para obtener datos históricos de algunas o todas las tablas de la base de datos de tu fuente. Además, cuando configures tu transmisión, puedes inhabilitar el reabastecimiento histórico. |
¿Datastream garantiza la entrega “exactamente una vez”? | No. Datastream garantiza al menos una entrega. Los metadatos adicionales que Datastream escribe en cada evento se pueden usar para quitar datos duplicados. |
¿Datastream puede controlar bases de datos encriptadas? | Sí. |
¿Datastream puede transmitir tablas y columnas específicas desde una fuente? | Sí. Con Datastream, puedes especificar listas de inclusión y exclusión para tablas y esquemas, y transmitir solo los datos que desees de una fuente a un destino. En el caso de las tablas incluidas, puedes excluir columnas específicas para ajustar aún más los datos que deseas transmitir a la destinación. Sin embargo, las vistas materializadas no se pueden replicar. |
¿Cómo se mueve una transmisión a otro proyecto o región? |
|
¿Cómo controla Datastream las transacciones sin confirmar en los archivos de registro de la base de datos? | Cuando los archivos de registro de la base de datos contienen transacciones sin confirmar, si se revierte alguna transacción, la base de datos refleja esto en los archivos de registro como operaciones de lenguaje de manipulación de datos (DML) "inversas". Por ejemplo, una operación INSERT revertida tendrá una operación DELETE correspondiente. Datastream lee estas operaciones de los archivos de registro. |
¿Cuál es la disponibilidad regional de Datastream? | Para ver una lista de las regiones en las que Datastream está disponible, consulta Listas de IP permitidas y regiones. |
Comportamiento y limitaciones generales de las fuentes
Pregunta | Respuesta |
---|---|
¿Qué fuentes admite Datastream? | Datastream admite datos de transmisión desde fuentes de Oracle, MySQL, PostgreSQL, AlloyDB para PostgreSQL, SQL Server, Salesforce (versión preliminar) y MongoDB (versión preliminar), tanto alojadas en la nube como autoadministradas. Para obtener información sobre las versiones específicas de la fuente, consulta las siguientes páginas:
|
¿Datastream puede controlar bases de datos encriptadas? | Sí. |
¿Cómo extrae datos Datastream de las fuentes? | Para MySQL, Datastream procesa el registro binario de MySQL para extraer eventos de cambio. En el caso de Oracle, Datastream usa LogMiner y parámetros de configuración de registro complementarios para extraer datos de los registros de rehacer de Oracle. En cuanto a PostgreSQL y AlloyDB para PostgreSQL, Datastream depende de la función de decodificación lógica de PostgreSQL. Esta función expone todos los cambios asignados a la base de datos y permite consumirlos y procesarlos. En el caso de SQL Server, Datastream hace un seguimiento de los cambios del lenguaje de manipulación de datos (DML) usando registros de transacciones. |
¿Puedes copiar archivos de registro directamente de una fuente a Google Cloud? | Datastream no copia la totalidad de los archivos de registro, sino que consulta los archivos de registro directamente desde el servidor de la base de datos y solo replica los cambios de las tablas especificadas en el destino. |
¿Cuáles son las limitaciones de los datos que Datastream puede procesar? |
Existen limitaciones generales y limitaciones que se aplican a fuentes de bases de datos específicas. Las limitaciones generales incluyen lo siguiente:
Para conocer las limitaciones específicas de cada fuente, consulta las siguientes páginas:
|
¿Qué datos se incluyen en cada evento que genera Datastream? | Cada evento generado (para inserciones, actualizaciones y eliminaciones) incluye la fila completa de datos de la fuente, con el valor y el tipo de datos de cada columna. Cada evento también incluye metadatos de eventos que se pueden usar para establecer el ordenamiento y garantizar que las entregas se realicen exactamente una vez. |
¿Datastream garantiza el orden? | Si bien Datastream no garantiza el orden, proporciona metadatos adicionales para cada evento. Estos metadatos se pueden usar para garantizar la coherencia eventual en el destino. Según la fuente, la frecuencia y la tasa de cambios, y otros parámetros, la coherencia eventual se puede lograr, por lo general, en un plazo de 1 hora. |
¿Datastream garantiza la entrega “exactamente una vez”? | Datastream garantiza al menos una entrega. Puedes eliminar los datos duplicados usando metadatos adicionales que Datastream escribe en cada evento. |
¿Cómo representa Datastream los tipos de datos de la fuente para su uso en el procesamiento posterior? | Cuando se escribe en un destino sin esquema, como Cloud Storage, Datastream simplifica el procesamiento posterior de los datos en todas las fuentes normalizando los tipos de datos en todas las fuentes. Datastream toma el tipo de datos de origen original (por ejemplo, un tipo Los tipos unificados representan un superconjunto sin pérdidas de todos los tipos de fuente posibles, y la normalización significa que los datos de diferentes fuentes se pueden procesar con el mínimo esfuerzo y consultar con posterioridad sin importar su fuente. |
¿Cómo maneja Datastream los cambios de estructura (esquema) en la fuente? | Datastream recupera el esquema de la fuente de forma periódica. Los esquemas se almacenan en el registro de esquemas interno de Datastream, y cada evento hace referencia al esquema en el momento en que se generó. Esto permite que Datastream haga un seguimiento de los cambios en el esquema y se ajuste según ellos, lo que garantiza que todos los datos se transmitan y carguen correctamente en el destino. Sin embargo, entre las recuperaciones de esquemas, es posible que algunos cambios en el esquema pasen desapercibidos, lo que podría causar discrepancias en los datos. |
Borré una columna en mi base de datos de origen, pero sigue apareciendo en mi destino. ¿Por qué? | Datastream no borra columnas en el destino. Debes borrar las columnas de forma manual. Este comportamiento es intencional, ya que, en algunos casos, es posible que prefieras conservar la columna borrada en el destino. Por ejemplo, Datastream interpreta el cambio de nombre de una columna en la fuente como el borrado de una columna y la adición de otra. En este caso, no quieres perder la columna original en el destino. |
La transmisión no se inicia debido a un error de validación, pero creo que es un error o quiero intentar ejecutar la transmisión de todos modos. ¿Cómo puedo superar esta validación? | Puedes iniciar la transmisión con la API agregando la marca force=true y omitiendo las verificaciones de validación. Ten en cuenta que omitir las validaciones no garantiza que la transmisión se pueda ejecutar, y es posible que aún falle si la base de datos no tiene la configuración o los permisos necesarios.
|
¿Puedo reiniciar una transmisión con errores? | Para corregir un flujo con el estado También puedes recuperar una transmisión con el estado |
¿Datastream bloquea las tablas de la base de datos? | No. Datastream no necesita bloquear las tablas. |
En las páginas de limitaciones de cada fuente, se especifica que las transmisiones pueden tener hasta 10,000 tablas. ¿Esto significa que Datastream no puede ejecutar operaciones de CDC en paralelo para más de 10,000 tablas al mismo tiempo? | No. El límite mencionado es por transmisión. Puedes tener varios flujos con una cantidad total de tablas que supere las 10,000. |
Comportamiento y limitaciones de la fuente de MySQL
Pregunta | Respuesta |
---|---|
¿Cómo extrae Datastream los datos de MySQL? | Datastream usa el registro binario de MySQL para extraer los eventos de cambio de MySQL. |
¿Datastream admite instancias de réplica de lectura de Cloud SQL para MySQL? | Sí, Datastream admite instancias de réplica de lectura para las versiones 5.7 y 8.0 de Cloud SQL para MySQL. Puedes habilitar el registro binario en estas instancias. Para ello, ejecuta el siguiente comando de gcloud CLI: gcloud sql instances patch INSTANCE_NAME -- enable-bin-log Para obtener más información, consulta Registro binario en réplicas de lectura. |
¿Qué permisos como mínimo necesita Datastream para replicar datos desde una base de datos de MySQL de origen? | Debes otorgar los siguientes permisos a tu usuario de Datastream para replicar datos desde una base de datos de MySQL:
|
¿Datastream admite la compresión de registros binarios? | No, Datastream no admite la compresión de eventos de transacción con la compresión de transacciones de registros binarios. Inhabilita la compresión de transacciones del registro binario para usar la funcionalidad de captura de datos modificados de MySQL en Datastream. |
Tu organización no permite otorgar el permiso SELECT en todas sus tablas y bases de datos. ¿Puedo seguir usando Datastream? |
Puedes otorgar el permiso GRANT SELECT ON DATABASE_NAME.TABLE_NAME TO USER_NAME@'%'; GRANT SELECT ON DATABASE_NAME.* TO USER_NAME@'%'; Reemplaza lo siguiente:
Si deseas restringir los permisos a un nombre de host en particular, reemplaza el carácter |
Comportamiento y limitaciones de la fuente de Oracle
Pregunta | Respuesta |
---|---|
¿Cómo extrae datos Datastream de Oracle? | Datastream usa Oracle LogMiner para extraer los datos de los registros de rehacer de Oracle. |
¿Datastream requiere una licencia GoldenGate de Oracle? | No. Datastream no requiere una licencia GoldenGate porque usa Oracle LogMiner para leer los datos de los registros redo de la base de datos. |
¿Qué sucederá cuando ya no se admita Oracle LogMiner? | Oracle LogMiner sigue siendo compatible con todas las versiones de Oracle disponibles de forma general, y Datastream seguirá admitiendo LogMiner en todas las versiones futuras. Oracle descontinuó la compatibilidad con la opción CONTINUOUS_MINE de LogMiner, pero Datastream no usa esta opción, por lo que esta baja no afecta a Datastream. |
¿Datastream admite la encriptación de datos en tránsito desde bases de datos de Oracle? | Datastream admite la encriptación de datos en tránsito basada en Oracle Net Services. Datastream se ejecuta en el modo |
¿Datastream admite la encriptación de la capa de conexión segura (SSL) y la seguridad de la capa de transporte (TLS)? | Sí, Datastream admite el protocolo TCPS para conexiones encriptadas con SSL/TLS a fuentes de Oracle. |
¿Datastream admite la arquitectura multiusuario de Oracle, específicamente las bases de datos de contenedores (CDB) y las bases de datos conectables (PDB)? | Sí, Datastream admite la arquitectura multiusuario de Oracle (CDB/PDB). Sin embargo, solo puedes replicar una sola base de datos conectable en una transmisión. |
Tu organización no permite otorgar el permiso GRANT SELECT ANY TABLE . ¿Puedo seguir usando Datastream? |
Si no puedes otorgar el permiso
Para transmitir cambios con Datastream, también necesitas acceso de lectura a todas las tablas incluidas en la transmisión. Para iniciar la transmisión, omite la validación con la API. Para obtener más información, consulta Cómo iniciar una transmisión. |
¿Datastream admite la replicación desde instancias de réplica de lectura de Oracle? | Datastream admite la replicación desde instancias de réplica de lectura de Oracle, siempre y cuando la instancia esté configurada según los lineamientos de configuración. |
¿Datastream admite bases de datos de Oracle SCAN RAC? | Sí, lo hace. Sin embargo, no puedes establecer conectividad directa con las bases de datos a través de la función Single Client Access Name (SCAN) en entornos de Oracle Real Application Clusters (RAC) con Datastream. Para superar esta limitación, conéctate directamente a uno de los nodos o usa el Administrador de conexiones de Oracle. También puedes crear una configuración de conectividad privada con soluciones de proxy inverso, como HAProxy. |
Comportamiento y limitaciones de la fuente de PostgreSQL
Pregunta | Respuesta |
---|---|
¿Cómo extrae datos Datastream de PostgreSQL? | Datastream usa la función de decodificación lógica de PostgreSQL para extraer los eventos de cambio de PostgreSQL. |
¿Datastream admite la replicación desde fuentes de AlloyDB para PostgreSQL o AlloyDB Omni? | Sí. Datastream admite ambas fuentes. Para obtener información sobre cómo configurar tu base de datos de origen de AlloyDB para PostgreSQL, consulta Configura una base de datos de AlloyDB para PostgreSQL. Para obtener información sobre cómo configurar tu base de datos de origen de AlloyDB Omni, consulta Configura una base de datos de PostgreSQL autoadministrada. |
¿Datastream admite la replicación desde una instancia de réplica de lectura de PostgreSQL? | No, Datastream no admite la replicación desde instancias de réplica de lectura para PostgreSQL. |
¿Datastream admite la seguridad a nivel de la fila (RLS)? | Datastream no admite la replicación de tablas con RLS habilitado. Sin embargo, puedes omitir esta limitación con la cláusula BYPASSRLS :
ALTER USER USER_NAME BYPASSRLS; Reemplaza USER_NAME por el nombre del usuario que Datastream usa para conectarse a la base de datos y para el que deseas omitir las políticas de RLS. |
¿Datastream admite operaciones de CDC simultáneas cuando se replica desde una fuente de PostgreSQL? | No. La replicación de PostgreSQL se basa en el concepto de ranuras de replicación, y estas no admiten conexiones simultáneas. Solo puede haber una tarea de CDC que lea desde la ranura de replicación a la vez. Por ejemplo, si borras una gran cantidad de registros de la base de datos de origen, es posible que la ranura de replicación se sobrecargue con eventos de eliminación. Los cambios posteriores en la fuente se retrasan hasta que se procesan los eventos de eliminación que ya están en la cola de la ranura de replicación. Para obtener información sobre el enfoque sugerido cuando se replican grandes cantidades de datos de transacciones, consulta Diagnostica problemas. |
¿Datastream admite la encriptación de la capa de conexión segura (SSL) y la seguridad de la capa de transporte (TLS)? | Sí, Datastream admite conexiones encriptadas con SSL/TLS. |
Comportamiento y limitaciones de la fuente de SQL Server
Pregunta | Respuesta |
---|---|
¿Qué ediciones de SQL Server admite Datastream? | Datastream admite versiones de bases de datos de SQL Server que admiten la captura de datos modificados. Para obtener una lista completa de las versiones y ediciones compatibles de SQL Server, consulta Versiones. |
¿Cómo funciona la replicación de CDC de Datastream para las fuentes de SQL Server? | El proceso de transferencia de datos de Datastream utiliza registros de transacciones o tablas de cambios, según la configuración de la fuente. Para obtener más información, consulta Base de datos de SQL Server de origen. |
¿Qué permisos como mínimo necesita Datastream para replicar datos de una base de datos de SQL Server de origen? | Debes otorgar los siguientes roles y permisos a tu usuario de Datastream para replicar datos de una base de datos de SQL Server: Para el método de CDC de tablas de cambios, haz lo siguiente:
Además, para el método de CDC de registros de transacción, ten en cuenta lo siguiente:
Para obtener información detallada sobre cómo configurar tu fuente, consulta las páginas de configuración correspondientes para tu tipo de base de datos. |
¿Por qué necesitas una configuración como cambiar los intervalos de sondeo y configurar una protección contra el truncamiento cuando usas registros de transacciones? | Cuando replicas datos de una fuente de SQL Server con registros de transacciones, si un registro se trunca antes de que Datastream lo lea, se produce una pérdida de datos. Cambiar los intervalos de sondeo y configurar la protección contra el truncamiento es opcional, pero proporciona una capa adicional de protección para garantizar que Datastream pueda leer los datos incluso en situaciones en las que se produzcan problemas de tiempo de inactividad o conectividad. Para obtener más información, consulta Configura una base de datos de SQL Server de origen. |
¿Qué método de CDC se debe seleccionar cuando se replica desde una fuente de SQL Server? | Puedes seleccionar uno de los dos métodos de CDC disponibles, según la configuración de tu base de datos fuente de SQL Server:
Para obtener más información, consulta Descripción general de SQL Server como fuente. |
Comportamiento y limitaciones de la fuente de Salesforce
Pregunta | Respuesta |
---|---|
¿Qué es una organización de Salesforce? | Una organización de Salesforce, también denominada organización, es tu implementación dedicada de Salesforce, similar a una instancia de base de datos. Una organización tiene un conjunto definido de usuarios con licencia y almacena todos los datos y las aplicaciones de los clientes. |
¿Qué son los objetos, los registros y los campos de Salesforce? | Un objeto es una entidad de clase y es similar a una tabla en la nomenclatura de bases de datos relacionales. Pueden ser estándares o personalizados. Los objetos estándar se incluyen en Salesforce de forma predeterminada, mientras que los objetos personalizados los crean los usuarios para almacenar datos específicos de su caso de uso. Un registro es una instancia específica de un objeto, similar a una fila en las bases de datos relacionales. Un campo es un atributo específico de un objeto, similar a una columna en las bases de datos relacionales. |
Comportamiento del destino de BigQuery
Pregunta | Respuesta |
---|---|
¿Cómo funcionan en conjunto Datastream y BigQuery para replicar los cambios de la base de datos de origen? | Datastream lee continuamente el flujo de cambios de la base de datos de origen y transmite los eventos de upsert y eliminación a las tablas de destino de BigQuery con la API de Storage Write. Luego, BigQuery aplica los cambios a la tabla según la configuración de inactividad de la tabla. |
¿Cómo se aplican las operaciones del lenguaje de manipulación de datos (DML) en BigQuery? |
|
¿Cómo controlan Datastream y BigQuery el orden de los eventos? | BigQuery usa los metadatos del evento y un número de secuencia de cambio (CSN) interno para aplicar los eventos a la tabla en el orden correcto. Para obtener más información sobre los metadatos de eventos, consulta Eventos y transmisiones. |
¿Cómo se calculan los costos de BigQuery cuando se usa con Datastream? | Los costos de BigQuery se calculan y cobran por separado de Datastream. Para obtener información sobre cómo controlar los costos de BigQuery, consulta los precios de los CDC de BigQuery. |
¿Cuál es el tamaño máximo de fila que admite Datastream cuando transmite datos a BigQuery? | El tamaño máximo de fila que admite Datastream es de 20 MB. |
Cuando transmites datos a BigQuery, las tablas tienen el prefijo . ¿Pueden cambiar este comportamiento para que las tablas de BigQuery sigan la misma estructura que tienen en la base de datos de origen? |
Cuando configuras conjuntos de datos para un destino de BigQuery, creas un conjunto de datos para cada esquema o un solo conjunto de datos para todos los esquemas. Cuando creas un conjunto de datos para cada esquema, cada esquema de la fuente se asigna a un conjunto de datos en BigQuery, y todas las tablas del esquema de origen se asignan a las tablas del conjunto de datos. Cuando seleccionas la opción de un solo conjunto de datos para todos los esquemas, los nombres de las tablas tienen el prefijo , según la convención de nombres de tablas en BigQuery. |
¿La CDC puede capturar cambios en el esquema de origen, por ejemplo, cuando se inserta o borra una columna en el origen? ¿Estos cambios se reflejan automáticamente en las tablas ya propagadas en los conjuntos de datos de BigQuery de destino? | Datastream detecta automáticamente las columnas nuevas y las agrega al esquema de destino para las filas nuevas, pero no para las que ya se replicaron en el destino. Las columnas borradas se ignoran, y Datastream las completa con valores NULL en el destino. Luego, puedes borrar estas columnas de forma manual en BigQuery. |
Comportamiento del destino de Cloud Storage
Pregunta | Respuesta |
---|---|
¿Cómo se crean los archivos en Cloud Storage? | Datastream crea una carpeta para cada tabla. En cada carpeta, Datastream rota el archivo (o crea uno nuevo) cada vez que alcanza el umbral de tamaño o tiempo definido por el usuario. Datastream también rota el archivo cada vez que se detecta un cambio de esquema. El nombre del archivo se compondrá de una clave de esquema única (basada en un hash del esquema) seguida de la marca de tiempo del primer evento del archivo. Por motivos de seguridad, estos nombres de archivos no están diseñados para que las personas los lean o comprendan. |
Si los datos de Cloud Storage no están ordenados, ¿cómo se pueden reordenar los eventos antes de cargarlos en el destino? | Cada evento contiene varios campos de metadatos que identifican de forma única la fila en los archivos de registro y te permiten ordenar los eventos. Estos campos incluyen lo siguiente: En el caso de las fuentes de Oracle, ten en cuenta lo siguiente:
Para las fuentes de MySQL, haz lo siguiente:
En el caso de las fuentes de PostgreSQL, haz lo siguiente:
Para obtener más información sobre los campos de metadatos, consulta Metadatos específicos de la fuente. |
Si se crean varios archivos para la misma marca de tiempo, ¿en qué orden se deben procesar? | Dado que no se garantiza el orden dentro de los archivos ni entre ellos, la mejor manera de determinar el orden en que se procesarán los archivos de la fuente es obtener todos los eventos de todos los archivos para la marca de tiempo específica y, luego, aplicar el orden con el método mencionado anteriormente en esta sección. |
¿Cómo se controlan las actualizaciones de la clave primaria? ¿Hay información de antes y después en el evento? | Cuando cambia la clave primaria de una fila, Datastream genera dos eventos para el cambio: un UPDATE-DELETE y un UPDATE-INSERT . El evento UPDATE-DELETE representa los datos antes de la actualización y UPDATE-INSERT representa los datos después de la actualización. Para obtener más información sobre los metadatos específicos de la fuente, consulta Eventos y transmisiones. |
¿Cuál es el tamaño máximo de fila que admite Datastream cuando transmite datos a Cloud Storage? | El tamaño máximo de fila que admite Datastream es de 100 MB. |
Casos de uso
Pregunta | Respuesta |
---|---|
¿Cuáles son algunos casos de uso comunes de Datastream? | Datastream es un servicio de replicación y de CDC, lo que significa que es flexible en varios casos prácticos que pueden beneficiarse del acceso a datos de cambios en transmisión continua. Los casos de uso más comunes de Datastream son los siguientes:
|
Integraciones
Pregunta | Respuesta |
---|---|
¿Cómo se integra Datastream con los servicios de datos de Google Cloud ? | Datastream complementa y mejora el Google Cloud paquete de datos, ya que proporciona replicación de datos de CDC desde fuentes a varios Google Cloud servicios. Gracias a su integración perfecta con estos servicios, Datastream se adapta al ecosistema Google Cloud más amplio. Datastream se integra en los siguientes servicios de datos:
|
¿La plantilla de Datastream a BigQuery en Dataflow tiene alguna limitación para la cantidad de operaciones del lenguaje de manipulación de datos (DML)? | No. La plantilla usa la API de inserciones de transmisión para cargar datos en BigQuery. Por lo tanto, no hay límite en la cantidad de operaciones DML. Sin embargo, se aplican algunas limitaciones de cuota. |
Seguridad y conectividad
Pregunta | Respuesta |
---|---|
¿Datastream es un servicio seguro para los datos sensibles? | Datastream admite varias configuraciones de conectividad privada y segura para proteger los datos en tránsito a medida que se transmiten de una fuente a un destino. Después de la replicación, los datos se encriptan de forma predeterminada y aprovechan los controles de seguridad de BigQuery o Cloud Storage. Todos los datos almacenados en búfer por Datastream se encriptan en reposo. |
¿Qué opciones de conectividad están disponibles para conectar tus fuentes a Datastream? | Existen tres tipos de métodos de conectividad que puedes configurar:
|
¿Cómo puedo limitar el procesamiento de datos sensibles de Datastream? |
Datastream te permite especificar qué elementos de datos específicos (esquemas, tablas y columnas) de tu fuente deseas transmitir a un destino y qué elementos deseas excluir de la transmisión. Los registros de la base de datos pueden contener datos de cambios de elementos que se excluyeron en tu definición de transmisión. Debido a que no puedes filtrar estos elementos en la fuente, Datastream leerá, pero ignorará, los datos asociados con los elementos. |
¿Cómo mantiene Datastream la seguridad de las credenciales de la base de datos? | Ya sea que uses Secret Manager para almacenar tu contraseña o que la ingreses de forma manual cuando creas tu perfil de conexión, todos los metadatos del usuario se encriptan en tránsito y en reposo, y Google los almacena en sus sistemas de almacenamiento propios. El acceso a estos metadatos se supervisa y audita. |
¿Por qué la página Crea una configuración de conectividad privada indica que debes otorgar el rol de roles/compute.networkAdmin a la cuenta de servicio de Datastream para crear una configuración de conectividad privada en una VPC compartida? |
El rol networkAdmin solo es necesario para crear el intercambio de tráfico de VPC. Una vez que se establece el intercambio de tráfico, ya no necesitas el rol. Si tu organización no permite otorgar el rol networkAdmin a la cuenta de servicio de Datastream, crea un rol personalizado con los siguientes permisos específicos:
Seleccionar rangos de IP de forma dinámica
Crea redes interconectadas
Reserva direcciones IP
|
¿Puedo usar Private Service Connect para crear una configuración de conectividad privada? | No, Datastream no admite Private Service Connect. |
Supervisa Datastream
Pregunta | Respuesta |
---|---|
¿Cómo puedo saber cuándo se copiaron todos mis datos históricos en el destino? | Datastream proporciona información sobre su estado actual en los archivos de registro. Se crea una entrada de registro para indicar cuándo se completa el reabastecimiento de una tabla. |
La latencia aumenta ocasionalmente y, luego, disminuye gradualmente con el tiempo. ¿Esto es normal? | Datastream se amplía automáticamente cuando aumenta la capacidad de procesamiento de eventos que genera la fuente. Sin embargo, para proteger tanto la base de datos de origen como Datastream, existen límites en la cantidad de conexiones y procesos simultáneos que Datastream puede abrir en cualquier momento. Se esperan aumentos temporales en la latencia cuando hay un incremento significativo en el procesamiento de eventos, y se espera que disminuyan gradualmente a medida que se procese la lista de tareas pendientes de eventos. |
Precios
Pregunta | Respuesta |
---|---|
¿Cuáles son los precios de Datastream? | Datastream se cobra según el volumen (GB) de datos procesados desde tu fuente hacia un destino. Para obtener más información sobre los precios de Datastream, consulta Precios. |
¿Cómo se calcula el tamaño de los datos? | La facturación se calcula en función del tamaño de los datos que procesa Datastream. Datastream solo cobra por los datos que se transmiten al destino. |
Si usas Datastream con BigQuery o Dataflow, ¿qué pagas? | Cada servicio tiene un precio y se cobra por separado. |
Información adicional
Pregunta | Respuesta |
---|---|
¿Qué sucede si tengo más preguntas o problemas para usar Datastream? | El equipo de asistencia al cliente de Google puede brindarte ayuda si tienes problemas para usar Datastream. Además, la guía de solución de problemas aborda los problemas comunes que puedes enfrentar mientras usas Datastream. |
¿Qué sigue?
- Obtén más información sobre Datastream.
- Obtén información sobre los conceptos y las funciones clave de Datastream.
- Obtén información sobre las fuentes que admite Datastream.
- Obtén información sobre los destinos que admite Datastream.