Patrón de estadísticas híbridas y de múltiples nubes
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Last reviewed 2024-11-27 UTC
En este documento, se explica que el objetivo del patrón de estadísticas híbridas y de múltiples nubes es aprovechar la división entre las cargas de trabajo transaccionales y analíticas.
En sistemas empresariales, la mayoría de las cargas de trabajo se dividen en estas categorías:
Las cargas de trabajo transaccionales incluyen aplicaciones interactivas, como las de ventas, procesamiento financiero, planificación de recursos empresariales o comunicación.
Las cargas de trabajo de estadísticas incluyen aplicaciones que transforman, analizan, definen mejor o permiten visualizar datos para facilitar los procesos de toma de decisiones.
Los sistemas de estadísticas obtienen sus datos de los sistemas transaccionales mediante la consulta a las APIs o el acceso a las bases de datos. En la mayoría de las empresas, los sistemas de estadísticas y los transaccionales tienden a estar separados y con acoplamiento bajo. El objetivo del patrón de estadísticas de nube híbrida y múltiples es aprovechar esta división ya existente y ejecutar cargas de trabajo transaccionales y de estadísticas en dos entornos de computación diferentes. Los datos sin procesar se extraen primero de las cargas de trabajo que se ejecutan en el entorno de computación privado y, luego, se cargan enGoogle Cloud, donde se usan para el procesamiento analítico. Puede que algunos de los resultados se vuelvan a ingresar a los sistemas transaccionales.
En el siguiente diagrama, se muestran posibles canalizaciones de datos para ilustrar las arquitecturas conceptualmente posibles. Cada ruta o flecha representa una posible opción de canalización de transformación y movimiento de datos que puede basarse en ETL o ELT, según la calidad de los datos disponible y el caso de uso objetivo.
Para mover tus datos a Google Cloud y desbloquear su valor, usa los servicios de movimiento de datos, un paquete completo de servicios de transferencia, integración y replicación de datos.
Como se muestra en el diagrama anterior, conectarse Google Cloud con entornos locales y otros entornos de nube puede habilitar varios casos de uso de análisis de datos, como la transmisión de datos y las copias de seguridad de bases de datos. Para potenciar el transporte fundamental de un patrón de análisis híbrido y multinube que requiere un gran volumen de transferencia de datos, Cloud Interconnect y Cross-Cloud Interconnect proporcionan conectividad dedicada a proveedores locales y de otros servicios en la nube.
Ventajas
La ejecución de cargas de trabajo de estadísticas en la nube tiene varias ventajas clave:
El tráfico entrante (trasladar datos de tu entorno de computación privado o
otras nubes a
Google Cloud) podría ser gratuito.
Las cargas de trabajo de estadísticas a menudo necesitan procesar cantidades sustanciales de datos y pueden ser impredecibles, por lo que son adecuadas en particular para implementarse en un entorno de nube pública. Si escalas los recursos de procesamiento de forma dinámica, puedes procesar grandes conjuntos de datos con rapidez al tiempo que evitas las inversiones iniciales o la necesidad de aprovisionar en exceso los equipos de procesamiento.
Google Cloud proporciona un amplio conjunto de servicios para administrar datos durante todo su ciclo de vida, desde la adquisición inicial, el procesamiento y el análisis hasta la visualización final.
Los servicios de movimiento de datos en Google Cloud proporcionan un paquete completo
de productos para mover, integrar y transformar datos sin problemas de diferentes maneras.
Google Cloud te ayuda a modernizar y optimizar tu plataforma de datos para derribar los silos de datos. El uso de un lakehouse de datos ayuda a estandarizar los diferentes formatos de almacenamiento. También puede proporcionar la flexibilidad, la escalabilidad y la agilidad necesarias para garantizar que tus datos generen valor para tu empresa, en lugar de ineficiencias. Para obtener más información, consulta BigLake.
BigQuery Omni proporciona potencia de procesamiento que se ejecuta de forma local en el almacenamiento de AWS o Azure. También te ayuda a consultar tus propios datos almacenados en Amazon Simple Storage Service (Amazon S3) o Azure Blob Storage. Esta función de estadísticas de múltiples nubes
permite que los equipos de datos desglosen los silos de datos. Para obtener más información sobre cómo consultar datos almacenados fuera de BigQuery, consulta Introducción a las fuentes de datos externas.
Prácticas recomendadas
Para implementar el patrón de arquitectura de estadísticas híbridas y de múltiples nubes, ten en cuenta las siguientes prácticas recomendadas generales:
Usa el patrón de red de traspaso para habilitar la transferencia de datos. Si es necesario volver a ingresar los resultados de estadísticas a los sistemas transaccionales, puedes combinar las topologías de traspaso y de salida protegida.
Usa las colas de Pub/Sub o los buckets de Cloud Storage para entregar datos a Google Cloud desde sistemas transaccionales que se ejecutan en tu entorno de computación privado. Estas colas o
buckets pueden servir como fuentes para las cargas de trabajo y las canalizaciones de procesamiento de datos.
Para implementar canalizaciones de datos de ETL y ELT, considera usar Cloud Data Fusion o Dataflow según los requisitos específicos de tu caso de uso. Ambos son servicios de procesamiento de datos completamente administrados que priorizan la nube para compilar y administrar canalizaciones de datos.
Para descubrir, clasificar y proteger tus recursos de datos valiosos, considera
usar las funciones de Google Cloud
Protección de datos sensibles,
como las
técnicas de desidentificación.
Estas técnicas te permiten enmascarar, encriptar y reemplazar datos sensibles, como la información de identificación personal (PII), con una clave predeterminada o generada de forma aleatoria, cuando corresponda y sea conforme.
Cuando realices una transferencia de datos inicial de tu entorno de computación privado a Google Cloud, elige el método de transferencia más adecuado para el tamaño de tu conjunto de datos y el ancho de banda disponible. Para obtener más información, consulta Migración a Google Cloud: Transfiere tus conjuntos de datos grandes.
Si se requiere la transferencia o el intercambio de datos entre Google Cloud y otras nubes a largo plazo con un volumen de tráfico alto, debes evaluar el uso de Google Cloud
Cross-Cloud Interconnect para ayudarte a establecer una conectividad dedicada de ancho de banda alto entreGoogle Cloud y otros proveedores de servicios en la nube (disponible en ciertas ubicaciones).
Si se requiere encriptación en la capa de conectividad, hay varias opciones disponibles según la solución de conectividad híbrida seleccionada. Estas opciones incluyen túneles VPN, VPN con alta disponibilidad en Cloud Interconnect y MACsec para la interconexión entre nubes.
Usa herramientas y procesos coherentes en todos los entornos. En una situación con un patrón híbrido de estadísticas, puede que esta práctica ayude a aumentar la eficiencia operativa, aunque no es un requisito previo.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2024-11-27 (UTC)"],[[["\u003cp\u003eThe analytics hybrid and multicloud pattern leverages the separation of transactional and analytics workloads, running them in distinct computing environments.\u003c/p\u003e\n"],["\u003cp\u003eRaw data is extracted from transactional systems in a private computing environment and loaded into Google Cloud for analytical processing, with some results potentially feeding back into transactional systems.\u003c/p\u003e\n"],["\u003cp\u003eGoogle Cloud offers numerous advantages for running analytics workloads, including cost-effective inbound data transfer, dynamic scalability for processing large datasets, and a comprehensive suite of data management services.\u003c/p\u003e\n"],["\u003cp\u003eImplementing this architecture involves best practices such as using handover networking, employing Pub/Sub or Cloud Storage for data transfer, and utilizing Cloud Data Fusion or Dataflow for building data pipelines.\u003c/p\u003e\n"],["\u003cp\u003eCross-Cloud Interconnect can be utilized to facilitate long-term, high-volume data transfer between Google Cloud and other cloud providers.\u003c/p\u003e\n"]]],[],null,["# Analytics hybrid and multicloud pattern\n\nThis document discusses that the objective of the analytics hybrid and multicloud pattern is to capitalize on the split between transactional and analytics workloads.\n\nIn enterprise systems, most workloads fall into these categories:\n\n- *Transactional* workloads include interactive applications like sales, financial processing, enterprise resource planning, or communication.\n- *Analytics* workloads include applications that transform, analyze, refine, or visualize data to aid decision-making processes.\n\nAnalytics systems obtain their data from transactional systems by either\nquerying APIs or accessing databases. In most enterprises, analytics and\ntransactional systems tend to be separate and loosely coupled. The objective of\nthe *analytics hybrid and multicloud* pattern is to capitalize on this\npre-existing split by running transactional and analytics workloads in two\ndifferent computing environments. Raw data is first extracted from workloads\nthat are running in the private computing environment and then loaded into\nGoogle Cloud, where it's used for analytical processing. Some of the results\nmight then be fed back to transactional systems.\n\nThe following diagram illustrates conceptually possible architectures by showing\npotential data pipelines. Each path/arrow represents a possible data movement\nand transformation pipeline option that can be based on\n[ETL](/learn/what-is-etl)\nor ELT, depending on the available\n[data quality](/dataplex/docs/auto-data-quality-overview)\nand targeted use case.\n\nTo move your data into Google Cloud and unlock value from it, use\n[data movement](/data-movement)\nservices, a complete suite of data ingestion, integration, and replication\nservices.\n\nAs shown in the preceding diagram, connecting Google Cloud with\non-premises environments and other cloud environments can enable various data\nanalytics use cases, such as data streaming and database backups. To power the\nfoundational transport of a hybrid and multicloud analytics pattern that\nrequires a high volume of data transfer, Cloud Interconnect and\n[Cross-Cloud Interconnect](/network-connectivity/docs/interconnect/concepts/cci-overview)\nprovide dedicated connectivity to on-premises and other cloud providers.\n\nAdvantages\n----------\n\nRunning analytics workloads in the cloud has several key advantages:\n\n- Inbound traffic---moving data from your private computing environment or other clouds to Google Cloud---[might be free of charge](/vpc/network-pricing#general).\n- Analytics workloads often need to process substantial amounts of data and can be bursty, so they're especially well suited to being deployed in a public cloud environment. By dynamically scaling compute resources, you can quickly process large datasets while avoiding upfront investments or having to overprovision computing equipment.\n- Google Cloud provides a rich set of services to manage data throughout its entire lifecycle, ranging from initial acquisition through processing and analyzing to final visualization.\n - Data movement services on Google Cloud provide a complete suite of products to move, integrate, and transform data seamlessly in different ways.\n - Cloud Storage is well suited for [building a data lake](https://cloud.google.com/blog/topics/developers-practitioners/architect-your-data-lake-google-cloud-data-fusion-and-composer).\n- Google Cloud helps you to modernize and optimize your data\n platform to break down data silos. Using a\n [data lakehouse](/discover/what-is-a-data-lakehouse#section-3)\n helps to standardize across different storage formats. It can also provide\n the flexibility, scalability, and agility needed to help ensure that your\n data generates value for your business, rather than inefficiencies. For\n more information, see\n [BigLake](/biglake).\n\n- [BigQuery Omni,](/bigquery/docs/omni-introduction)\n provides compute power that runs locally to the storage on AWS or Azure. It\n also helps you query your own data stored in Amazon Simple Storage Service\n (Amazon S3) or Azure Blob Storage. This multicloud analytics capability\n lets data teams break down data silos. For more information about querying\n data stored outside of BigQuery, see\n [Introduction to external data sources](/bigquery/docs/external-data-sources).\n\nBest practices\n--------------\n\nTo implement the *analytics hybrid and multicloud* architecture pattern,\nconsider the following general best practices:\n\n- Use the [handover networking pattern](/architecture/hybrid-multicloud-secure-networking-patterns/handover-pattern) to enable the ingestion of data. If analytical results need to be fed back to transactional systems, you might combine both the handover and the [*gated egress*](/architecture/hybrid-multicloud-secure-networking-patterns/gated-egress) pattern.\n- Use [Pub/Sub](/pubsub) queues or [Cloud Storage](/storage) buckets to hand over data to Google Cloud from transactional systems that are running in your private computing environment. These queues or buckets can then serve as sources for data-processing pipelines and workloads.\n- To deploy ETL and ELT data pipelines, consider using [Cloud Data Fusion](/data-fusion) or [Dataflow](/dataflow) depending on your specific use case requirements. Both are fully managed, cloud-first data processing services for building and managing data pipelines.\n- To discover, classify, and protect your valuable data assets, consider using Google Cloud [Sensitive Data Protection](/sensitive-data-protection) capabilities, like [de-identification techniques](/sensitive-data-protection/docs/deidentify-sensitive-data). These techniques let you mask, encrypt, and replace sensitive data---like personally identifiable information (PII)---using a randomly generated or pre-determined key, where applicable and compliant.\n- When you're performing an initial data transfer from your private\n computing environment to Google Cloud, choose the transfer approach\n that is best suited for your dataset size and available bandwidth. For more\n information, see\n [Migration to Google Cloud: Transferring your large datasets](/architecture/migration-to-google-cloud-transferring-your-large-datasets).\n\n- If data transfer or exchange between Google Cloud and other clouds\n is required for the long term with high traffic volume, you should evaluate\n using Google Cloud\n [Cross-Cloud Interconnect](/network-connectivity/docs/interconnect/concepts/cci-overview)\n to help you establish high-bandwidth dedicated connectivity between\n Google Cloud and other cloud service providers (available in certain\n [locations](/network-connectivity/docs/interconnect/concepts/cci-overview#locations)).\n\n- If encryption is required at the connectivity layer, various options are\n available based on the selected hybrid connectivity solution. These options\n include VPN tunnels, HA VPN over Cloud Interconnect, and\n [MACsec for Cross-Cloud Interconnect](/network-connectivity/docs/interconnect/concepts/cci-overview#encryption).\n\n- Use consistent tooling and processes across environments. In an\n analytics hybrid scenario, this practice can help increase operational\n efficiency, although it's not a prerequisite."]]