Pattern ibrido e multi-cloud di analisi

Last reviewed 2023-12-14 UTC

Questo documento illustra che l'obiettivo del modello di analisi ibrido e multi-cloud è sfruttare al meglio la suddivisione tra carichi di lavoro transazionali e di analisi.

Nei sistemi aziendali, la maggior parte dei carichi di lavoro rientra nelle seguenti categorie:

  • I carichi di lavoro transazionali includono applicazioni interattive come vendite, elaborazione finanziaria, pianificazione delle risorse aziendali o comunicazione.
  • I carichi di lavoro di analisi includono applicazioni che trasformano, analizzano, perfezionano o visualizzano i dati per facilitare i processi decisionali.

I sistemi di analisi ottengono i dati dai sistemi transazionali eseguendo query sulle API o accedendo ai database. Nella maggior parte delle aziende, i sistemi di analisi e transazionali tendono a essere separati e a basso accoppiamento. L'obiettivo del pattern ibrido e multi-cloud dell'analisi è sfruttare al meglio questa suddivisione preesistente eseguendo carichi di lavoro transazionali e di analisi in due diversi ambienti di elaborazione. I dati non elaborati vengono prima estratti dai carichi di lavoro in esecuzione nell'ambiente di computing privato e poi caricati in Google Cloud, dove vengono utilizzati per l'elaborazione analitica. Alcuni dei risultati potrebbero poi essere restituiti a sistemi transazionali.

Il seguente diagramma illustra le architetture concettualmente possibili mostrando potenziali pipeline di dati. Ogni percorso/freccia rappresenta una possibile opzione di pipeline di spostamento e trasformazione dei dati che può essere basata su ETL o ELT, a seconda della qualità dei dati disponibile e del caso d'uso target.

Per spostare i dati in Google Cloud e sbloccarne il valore, utilizza i servizi di spostamento dei dati, una suite completa di servizi di importazione, integrazione e replica dei dati.

Dati che fluiscono da un ambiente on-premise o un altro ambiente cloud in Google Cloud, attraverso l'importazione, le pipeline, l'archiviazione, l'analisi, nel livello di applicazione e presentazione.

Come mostrato nel diagramma precedente, la connessione di Google Cloud con ambienti on-premise e altri ambienti cloud può consentire diversi casi d'uso di analisi dei dati, come flussi di dati e backup dei database. Per supportare il trasporto di base di un pattern di analisi ibrido e multi-cloud che richiede un volume elevato di trasferimenti di dati, Cloud Interconnect e Cross-Cloud Interconnect forniscono connettività dedicata a provider on-premise e ad altri cloud provider.

Vantaggi

L'esecuzione di carichi di lavoro di analisi nel cloud offre diversi vantaggi fondamentali:

  • Il traffico in entrata, ossia lo spostamento di dati dal tuo ambiente di computing privato o da altri cloud a Google Cloud, potrebbe essere senza costi.
  • I carichi di lavoro di analisi spesso devono elaborare notevoli quantità di dati e possono essere bursosi, per cui sono particolarmente adatti al deployment in un ambiente cloud pubblico. Scalando dinamicamente le risorse di calcolo, puoi elaborare rapidamente set di dati di grandi dimensioni evitando investimenti iniziali o l'overprovisioning delle apparecchiature di calcolo.
  • Google Cloud offre un ricco set di servizi per gestire i dati durante l'intero ciclo di vita, dall'acquisizione iniziale all'elaborazione e all'analisi, fino alla visualizzazione finale.
    • I servizi di spostamento dei dati su Google Cloud forniscono una suite completa di prodotti per spostare, integrare e trasformare facilmente i dati in modi diversi.
    • Cloud Storage è adatto alla creazione di un data lake.
  • Modernizzare e ottimizzare la piattaforma dati per abbattere i silos di dati. L'utilizzo di un data lakehouse consente di standardizzare diversi formati di archiviazione. Può anche fornire la flessibilità, la scalabilità e l'agilità necessarie per garantire che i dati generino valore per la tua azienda anziché inefficienze. Per maggiori informazioni, vedi BigLake.

  • BigQuery Omni fornisce potenza di calcolo eseguita localmente nell'archiviazione su AWS o Azure. Consente inoltre di eseguire query sui dati archiviati in Amazon Simple Storage Service (Amazon S3) o Azure Blob Storage. Questa funzionalità di analisi multi-cloud consente ai team dedicati ai dati di abbattere i silos di dati. Per ulteriori informazioni sull'esecuzione di query sui dati archiviati al di fuori di BigQuery, consulta Introduzione alle origini dati esterne.

Best practice

Per implementare il pattern di architettura ibrida e multi-cloud dell'analisi, considera le seguenti best practice generali:

  • Utilizza il pattern di networking di passaggio per abilitare l'importazione dei dati. Se i risultati delle analisi devono essere restituiti ai sistemi transazionali, puoi combinare il pattern di passaggio e di uscita in uscita.
  • Utilizza le code di Pub/Sub o i bucket di Cloud Storage per trasferire i dati a Google Cloud dai sistemi transazionali in esecuzione nel tuo ambiente di computing privato. Queste code o bucket possono quindi fungere da origini per le pipeline e i carichi di lavoro di elaborazione dati.
  • Per eseguire il deployment di pipeline di dati ETL ed ELT, valuta l'utilizzo di Cloud Data Fusion o Dataflow a seconda dei requisiti del tuo caso d'uso specifico. Entrambi sono servizi di elaborazione dati cloud-first completamente gestiti per creare e gestire pipeline di dati.
  • Per scoprire, classificare e proteggere i tuoi asset di dati importanti, valuta la possibilità di utilizzare le funzionalità di Sensitive Data Protection di Google Cloud, come le tecniche di anonimizzazione. Queste tecniche consentono di mascherare, criptare e sostituire i dati sensibili, come le informazioni che consentono l'identificazione personale (PII), utilizzando una chiave generata in modo casuale o predeterminata, ove applicabile e conforme.
  • Se hai carichi di lavoro Hadoop o Spark esistenti, valuta la possibilità di eseguire la migrazione dei job a Dataproc e di eseguire la migrazione dei dati HDFS esistenti in Cloud Storage.
  • Quando esegui un trasferimento iniziale dei dati dal tuo ambiente di computing privato a Google Cloud, scegli l'approccio di trasferimento più adatto alle dimensioni del tuo set di dati e alla larghezza di banda disponibile. Per ulteriori informazioni, consulta Migrazione a Google Cloud: trasferimento di set di dati di grandi dimensioni.

  • Se è necessario il trasferimento o lo scambio di dati tra Google Cloud e altri cloud per un volume di traffico elevato a lungo termine, dovresti valutare l'utilizzo di Google Cloud Cross-Cloud Interconnect per stabilire una connettività dedicata a elevata larghezza di banda tra Google Cloud e altri provider di servizi cloud (disponibile in determinate località).

  • Se è richiesta la crittografia a livello di connettività, sono disponibili varie opzioni in base alla soluzione di connettività ibrida selezionata. Queste opzioni includono tunnel VPN, VPN ad alta disponibilità su Cloud Interconnect e MACsec per Cross-Cloud Interconnect.

  • Utilizza strumenti e processi coerenti nei vari ambienti. In uno scenario ibrido di analisi, questa pratica può aiutare ad aumentare l'efficienza operativa, anche se non è un prerequisito.