Descripción general del flujo de datos

Descripción general

Datastream es un servicio de replicación y captura de datos modificados (CDC) sin servidores y fácil de usar que te permite sincronizar datos de manera confiable y con una latencia mínima.

Ofrece una replicación sin interrupciones de datos de bases de datos operativas en BigQuery. Además, admite la escritura de la transmisión de eventos de cambio en Cloud Storage y ofrece una integración optimizada en plantillas de Dataflow para crear flujos de trabajo personalizados con el objetivo de cargar datos en una amplia variedad de destinos, como Cloud SQL y Spanner. También puedes usar Datastream y aprovechar la transmisión de eventos directamente desde Cloud Storage para crear arquitecturas controladas por eventos. Datastream admite fuentes de Oracle, MySQL, SQL Server (versión preliminar) y PostgreSQL (incluida AlloyDB para PostgreSQL).

Estos son algunos de los beneficios de Datastream:

  • Configuración fluida de canalizaciones de ELT (extracción, carga y transformación) para la replicación de datos de baja latencia a fin de habilitar estadísticas casi en tiempo real en BigQuery.
  • No tiene servidores, por lo que no hay recursos que aprovisionar o administrar, y el servicio aumenta y disminuye su escala verticalmente de manera automática según sea necesario, con un tiempo de inactividad mínimo.
  • Experiencias de configuración y supervisión fáciles de usar que alcanzan un tiempo de obtención de valor muy rápido.
  • Integración en lo mejor de la cartera de servicios de datos de Google Cloud para la integración de datos en Datastream, Dataflow, Cloud Data Fusion, Pub/Sub, BigQuery y mucho más.
  • Sincronización y unificación de transmisiones de datos en aplicaciones y bases de datos heterogéneas.
  • Seguridad con opciones de conectividad privada y la seguridad que esperas de Google Cloud
  • Es preciso y confiable, con informes de estado transparentes y una flexibilidad de procesamiento rigurosa ante los cambios en los datos y esquemas.
  • Compatibilidad con varios casos de uso, incluidos el análisis, la replicación de bases de datos y la sincronización para migraciones y configuraciones de nube híbrida, y para la compilación de arquitecturas controladas por eventos.

Casos de uso

Las capacidades de transmisión de Datastream habilitan una variedad de casos de uso:

  • Replica y sincroniza los datos en toda tu organización con latencia mínima.

    Puedes sincronizar datos en aplicaciones y bases de datos heterogéneas de manera confiable, con baja latencia y con un impacto mínimo en el rendimiento de la fuente. Libera el poder de las transmisiones de datos para las estadísticas, la replicación de bases de datos, la migración a la nube y las arquitecturas controladas por eventos en entornos híbridos.

  • Aumenta o reduce la escala verticalmente sin interrupciones con una arquitectura sin servidores

    Ponte en marcha rápidamente con un servicio sin servidores y fácil de usar que se escala sin problemas a medida que cambian tus volúmenes de datos. Enfócate en obtener estadísticas actualizadas de tus datos y responder a los problemas de alta prioridad, en lugar de administrar la infraestructura, el ajuste del rendimiento o el aprovisionamiento de recursos.

  • Integra con el paquete de integración de datos de Google Cloud

    Conecta los datos de tu organización con el paquete de productos de integración de datos de Google Cloud. Datastream aprovecha las plantillas de Dataflow para cargar datos en BigQuery, Spanner y Cloud SQL, y potencia los conectores del replicador de CDC de Cloud Data Fusion para canalizar los datos con mayor facilidad que nunca.

Elementos de experiencia

Datastream consta de tres elementos principales:

  • Las configuraciones de conectividad privada permiten que Datastream se comunique con una fuente de datos a través de una red privada (de forma interna en Google Cloud o con fuentes externas conectadas a través de VPN o Interconnect). Esta comunicación se realiza a través de una conexión de intercambio de tráfico de nube privada virtual (VPC).
  • Los perfiles de conexión representan información de conectividad con un origen y un destino. Una transmisión usará esta información.
  • Las transmisiones usan la información en los perfiles de conexión para transferir datos de CDC y reabastecimiento de la fuente al destino.