En este documento, se explica que el objetivo del patrón de estadísticas híbridas y de múltiples nubes es aprovechar la división entre las cargas de trabajo transaccionales y analíticas.
En sistemas empresariales, la mayoría de las cargas de trabajo se dividen en estas categorías:
- Las cargas de trabajo transaccionales incluyen aplicaciones interactivas, como las de ventas, procesamiento financiero, planificación de recursos empresariales o comunicación.
- Las cargas de trabajo de estadísticas incluyen aplicaciones que transforman, analizan, definen mejor o permiten visualizar datos para facilitar los procesos de toma de decisiones.
Los sistemas de estadísticas obtienen sus datos de los sistemas transaccionales mediante la consulta a las APIs o el acceso a las bases de datos. En la mayoría de las empresas, los sistemas de estadísticas y los transaccionales tienden a estar separados y con acoplamiento bajo. El objetivo del patrón de estadísticas de nube híbrida y múltiples es aprovechar esta división ya existente y ejecutar cargas de trabajo transaccionales y de estadísticas en dos entornos de computación diferentes. Los datos sin procesar se extraen primero de las cargas de trabajo que se ejecutan en el entorno de computación privado y, luego, se cargan enGoogle Cloud, donde se usan para el procesamiento analítico. Puede que algunos de los resultados se vuelvan a ingresar a los sistemas transaccionales.
En el siguiente diagrama, se muestran posibles canalizaciones de datos para ilustrar las arquitecturas conceptualmente posibles. Cada ruta o flecha representa una posible opción de canalización de transformación y movimiento de datos que puede basarse en ETL o ELT, según la calidad de los datos disponible y el caso de uso objetivo.
Para mover tus datos a Google Cloud y desbloquear su valor, usa los servicios de movimiento de datos, un paquete completo de servicios de transferencia, integración y replicación de datos.
Como se muestra en el diagrama anterior, conectarse Google Cloud con entornos locales y otros entornos de nube puede habilitar varios casos de uso de análisis de datos, como la transmisión de datos y las copias de seguridad de bases de datos. Para potenciar el transporte fundamental de un patrón de análisis híbrido y multinube que requiere un gran volumen de transferencia de datos, Cloud Interconnect y Cross-Cloud Interconnect proporcionan conectividad dedicada a proveedores locales y de otros servicios en la nube.
Ventajas
La ejecución de cargas de trabajo de estadísticas en la nube tiene varias ventajas clave:
- El tráfico entrante (trasladar datos de tu entorno de computación privado o otras nubes a Google Cloud) podría ser gratuito.
- Las cargas de trabajo de estadísticas a menudo necesitan procesar cantidades sustanciales de datos y pueden ser impredecibles, por lo que son adecuadas en particular para implementarse en un entorno de nube pública. Si escalas los recursos de procesamiento de forma dinámica, puedes procesar grandes conjuntos de datos con rapidez al tiempo que evitas las inversiones iniciales o la necesidad de aprovisionar en exceso los equipos de procesamiento.
- Google Cloud proporciona un amplio conjunto de servicios para administrar datos durante todo su ciclo de vida, desde la adquisición inicial, el procesamiento y el análisis hasta la visualización final.
- Los servicios de movimiento de datos en Google Cloud proporcionan un paquete completo de productos para mover, integrar y transformar datos sin problemas de diferentes maneras.
- Cloud Storage es ideal para compilar un data lake.
Google Cloud te ayuda a modernizar y optimizar tu plataforma de datos para derribar los silos de datos. El uso de un lakehouse de datos ayuda a estandarizar los diferentes formatos de almacenamiento. También puede proporcionar la flexibilidad, la escalabilidad y la agilidad necesarias para garantizar que tus datos generen valor para tu empresa, en lugar de ineficiencias. Para obtener más información, consulta BigLake.
BigQuery Omni proporciona potencia de procesamiento que se ejecuta de forma local en el almacenamiento de AWS o Azure. También te ayuda a consultar tus propios datos almacenados en Amazon Simple Storage Service (Amazon S3) o Azure Blob Storage. Esta función de estadísticas de múltiples nubes permite que los equipos de datos desglosen los silos de datos. Para obtener más información sobre cómo consultar datos almacenados fuera de BigQuery, consulta Introducción a las fuentes de datos externas.
Prácticas recomendadas
Para implementar el patrón de arquitectura de estadísticas híbridas y de múltiples nubes, ten en cuenta las siguientes prácticas recomendadas generales:
- Usa el patrón de red de traspaso para habilitar la transferencia de datos. Si es necesario volver a ingresar los resultados de estadísticas a los sistemas transaccionales, puedes combinar las topologías de traspaso y de salida protegida.
- Usa las colas de Pub/Sub o los buckets de Cloud Storage para entregar datos a Google Cloud desde sistemas transaccionales que se ejecutan en tu entorno de computación privado. Estas colas o buckets pueden servir como fuentes para las cargas de trabajo y las canalizaciones de procesamiento de datos.
- Para implementar canalizaciones de datos de ETL y ELT, considera usar Cloud Data Fusion o Dataflow según los requisitos específicos de tu caso de uso. Ambos son servicios de procesamiento de datos completamente administrados que priorizan la nube para compilar y administrar canalizaciones de datos.
- Para descubrir, clasificar y proteger tus recursos de datos valiosos, considera usar las funciones de Google Cloud Protección de datos sensibles, como las técnicas de desidentificación. Estas técnicas te permiten enmascarar, encriptar y reemplazar datos sensibles, como la información de identificación personal (PII), con una clave predeterminada o generada de forma aleatoria, cuando corresponda y sea conforme.
- Cuando tengas cargas de trabajo existentes de Hadoop o Spark, considera migrar trabajos a Dataproc y migrar datos HDFS existentes a Cloud Storage.
Cuando realices una transferencia de datos inicial de tu entorno de computación privado a Google Cloud, elige el método de transferencia más adecuado según el tamaño de tu conjunto de datos y el ancho de banda disponible. Para obtener más información, consulta Migración a Google Cloud: Transfiere tus conjuntos de datos grandes.
Si se requiere la transferencia o el intercambio de datos entre Google Cloud y otras nubes a largo plazo con un volumen de tráfico alto, debes evaluar el uso de Google Cloud Cross-Cloud Interconnect para ayudarte a establecer una conectividad dedicada de ancho de banda alto entreGoogle Cloud y otros proveedores de servicios en la nube (disponible en ciertas ubicaciones).
Si se requiere encriptación en la capa de conectividad, hay varias opciones disponibles según la solución de conectividad híbrida seleccionada. Estas opciones incluyen túneles VPN, VPN con alta disponibilidad en Cloud Interconnect y MACsec para la interconexión entre nubes.
Usa herramientas y procesos coherentes en todos los entornos. En una situación con un patrón híbrido de estadísticas, puede que esta práctica ayude a aumentar la eficiencia operativa, aunque no es un requisito previo.