En este documento se explica que el objetivo del patrón híbrido y multinube de analíticas es sacar partido de la división entre las cargas de trabajo transaccionales y las analíticas.
En los sistemas empresariales, la mayoría de las cargas de trabajo se incluyen en estas categorías:
- Las cargas de trabajo transaccionales incluyen aplicaciones interactivas como ventas, procesamiento financiero, planificación de recursos empresariales o comunicación.
- Las cargas de trabajo de Analytics incluyen aplicaciones que transforman, analizan, refinan o visualizan datos para ayudar en los procesos de toma de decisiones.
Los sistemas de analíticas obtienen sus datos de sistemas transaccionales consultando APIs o accediendo a bases de datos. En la mayoría de las empresas, los sistemas analíticos y transaccionales suelen estar separados y poco acoplados. El objetivo del patrón analíticas híbrida y multinube es aprovechar esta división preexistente ejecutando cargas de trabajo transaccionales y analíticas en dos entornos de computación diferentes. Primero, los datos sin procesar se extraen de las cargas de trabajo que se ejecutan en el entorno de computación privado y, a continuación, se cargan enGoogle Cloud, donde se usan para el procesamiento analítico. Algunos de los resultados se pueden volver a incorporar a los sistemas transaccionales.
En el siguiente diagrama se ilustran las arquitecturas posibles conceptualmente mostrando las posibles canalizaciones de datos. Cada ruta o flecha representa una posible opción de flujo de procesamiento de transformación y movimiento de datos que se puede basar en ETL o ELT, en función de la calidad de los datos disponible y del caso práctico objetivo.
Para transferir tus datos a Google Cloud y extraer valor de ellos, usa los servicios de transferencia de datos, un paquete completo de servicios de ingestión, integración y replicación de datos.
Como se muestra en el diagrama anterior, la conexión Google Cloud con entornos on‐premise y otros entornos de nube puede habilitar varios casos prácticos de analíticas de datos, como la transmisión de datos y las copias de seguridad de bases de datos. Para impulsar el transporte fundamental de un patrón de analíticas híbrido y multinube que requiera un gran volumen de transferencia de datos, Cloud Interconnect y Cross-Cloud Interconnect proporcionan conectividad dedicada a las instalaciones locales y a otros proveedores de servicios en la nube.
Ventajas
Ejecutar cargas de trabajo de analíticas en la nube tiene varias ventajas clave:
- El tráfico entrante (es decir, el movimiento de datos desde tu entorno de computación privado u otras nubes aGoogle Cloud) puede ser gratuito.
- Las cargas de trabajo de analíticas suelen necesitar procesar grandes cantidades de datos y pueden ser irregulares, por lo que son especialmente adecuadas para desplegarse en un entorno de nube pública. Al escalar dinámicamente los recursos de computación, puedes procesar rápidamente grandes conjuntos de datos sin tener que hacer inversiones iniciales ni aprovisionar en exceso el equipo de computación.
- Google Cloud proporciona un amplio conjunto de servicios para gestionar los datos
durante todo su ciclo de vida, desde la adquisición inicial hasta la visualización final, pasando por el procesamiento y el análisis.
- Los servicios de movimiento de datos de Google Cloud proporcionan un conjunto completo de productos para mover, integrar y transformar datos de forma fluida de diferentes maneras.
- Cloud Storage es una solución ideal para crear un lago de datos.
Google Cloud te ayuda a modernizar y optimizar tu plataforma de datos para eliminar los silos de datos. Usar un data lakehouse ayuda a estandarizar los diferentes formatos de almacenamiento. También puede proporcionar la flexibilidad, la escalabilidad y la agilidad necesarias para que tus datos generen valor para tu negocio, y no ineficiencias. Para obtener más información, consulta BigLake.
BigQuery Omni proporciona potencia de computación que se ejecuta de forma local en el almacenamiento de AWS o Azure. También te ayuda a consultar tus propios datos almacenados en Amazon Simple Storage Service (Amazon S3) o Azure Blob Storage. Esta función de analíticas multinube permite a los equipos de datos acabar con los silos de datos. Para obtener más información sobre cómo consultar datos almacenados fuera de BigQuery, consulta la introducción a fuentes de datos externas.
Prácticas recomendadas
Para implementar el patrón de arquitectura analíticas híbrida y multinube, ten en cuenta las siguientes prácticas recomendadas generales:
- Usa el patrón de red de transferencia para habilitar la ingesta de datos. Si los resultados analíticos deben enviarse a los sistemas transaccionales, puedes combinar los patrones de transferencia y de salida controlada.
- Usa colas de Pub/Sub o segmentos de Cloud Storage para transferir datos a Google Cloud desde sistemas transaccionales que se ejecutan en tu entorno de computación privado. Estas colas o contenedores pueden servir como fuentes para flujos de procesamiento de datos y cargas de trabajo.
- Para desplegar flujos de procesamiento de datos ETL y ELT, puedes usar Cloud Data Fusion o Dataflow, en función de los requisitos de tu caso práctico específico. Ambos son servicios de procesamiento de datos totalmente gestionados y nativos de la nube para crear y gestionar flujos de procesamiento de datos.
- Para descubrir, clasificar y proteger tus recursos de datos valiosos, puedes usar las funciones de Google Cloud Protección de Datos Sensibles como las técnicas de desidentificación. Estas técnicas te permiten enmascarar, cifrar y sustituir datos sensibles, como la información personal identificable (IPI), mediante una clave generada aleatoriamente o predeterminada, cuando sea aplicable y cumpla los requisitos.
Cuando realices una transferencia de datos inicial desde tu entorno de computación privado a Google Cloud, elige el método de transferencia que mejor se adapte al tamaño de tu conjunto de datos y al ancho de banda disponible. Para obtener más información, consulta el artículo Migrar a Google Cloud: transferir conjuntos de datos grandes.
Si se requiere una transferencia o un intercambio de datos entre Google Cloud y otras nubes a largo plazo con un volumen de tráfico elevado, debes evaluar la posibilidad de usar Google Cloud Cross-Cloud Interconnect para establecer una conectividad dedicada de gran ancho de banda entreGoogle Cloud y otros proveedores de servicios en la nube (disponible en determinadas ubicaciones).
Si se requiere cifrado en la capa de conectividad, hay varias opciones disponibles en función de la solución de conectividad híbrida seleccionada. Estas opciones incluyen túneles de VPN, VPN de alta disponibilidad mediante Cloud Interconnect y MACsec para Cross-Cloud Interconnect.
Usa herramientas y procesos coherentes en todos los entornos. En un escenario híbrido de analíticas, esta práctica puede ayudar a aumentar la eficiencia operativa, aunque no es un requisito.