Modello di analisi ibrida e multi-cloud

Last reviewed 2023-12-14 UTC

Questo documento illustra che l'obiettivo del modello di analisi ibrido e multi-cloud è sfruttare al meglio la suddivisione tra carichi di lavoro transazionali e di analisi.

Nei sistemi aziendali, la maggior parte dei carichi di lavoro rientra in queste categorie:

  • I carichi di lavoro transazionali includono applicazioni interattive come le vendite, elaborazione finanziaria, pianificazione delle risorse aziendali o comunicazione.
  • I carichi di lavoro di analisi includono applicazioni che trasformano, analizzano perfezionare o visualizzare i dati per facilitare i processi decisionali.

I sistemi di analisi ottengono i dati dai sistemi transazionali tramite che eseguono query sulle API o accedono ai database. Nella maggior parte delle aziende, i sistemi di analisi e transazionali tendono a essere separati e accoppiati in modo lasco. L'obiettivo il modello ibrido e multi-cloud dell'analisi dei dati deve trarre il massimo profitto da questo una suddivisione preesistente mediante l'esecuzione di carichi di lavoro transazionali e di analisi in due diversi ambienti di elaborazione. I dati non elaborati vengono prima estratti dai carichi di lavoro in esecuzione nell'ambiente di calcolo privato e poi caricati in Google Cloud, dove vengono utilizzati per l'elaborazione analitica. Alcuni risultati potrebbero quindi essere restituiti ai sistemi transazionali.

Il seguente diagramma illustra architetture concettualmente possibili mostrando potenziali pipeline di dati. Ogni percorso/freccia rappresenta una possibile opzione di pipeline di spostamento e trasformazione dei dati che può essere basata su ETL o ELT, a seconda della qualità dei dati disponibile e del caso d'uso target.

Per spostare i tuoi dati in Google Cloud e sbloccarne il valore, utilizza i servizi di trasferimento dei dati, una suite completa di servizi di importazione, integrazione e replica dei dati.

Dati che fluiscono da un ambiente on-premise o un altro ambiente cloud in Google Cloud, attraverso l'importazione, le pipeline, l'archiviazione, l'analisi, nel livello di applicazione e presentazione.

Come mostrato nel diagramma precedente, la connessione di Google Cloud con ambienti on-premise e altri ambienti cloud può abilitare vari casi d'uso di analisi dei dati, come lo streaming di dati e i backup del database. Per supportare il trasporto di base di un pattern di analisi ibrida e multicloud che richiede un volume elevato di trasferimento di dati, Cloud Interconnect e Cross-Cloud Interconnect forniscono connettività dedicata ai provider cloud on-premise e di altro tipo.

Vantaggi

L'esecuzione di carichi di lavoro di analisi nel cloud presenta diversi vantaggi chiave:

  • Il traffico in entrata, ovvero lo spostamento dei dati dal tuo ambiente di calcolo privato o da altri cloud a Google Cloud, potrebbe essere senza costi.
  • I carichi di lavoro di analisi devono spesso elaborare quantità considerevoli di dati e possono essere intermittenti, pertanto sono particolarmente adatti per essere implementati in un ambiente cloud pubblico. Se esegui la scalabilità dinamica delle risorse di calcolo, puoi elaborare rapidamente set di dati di grandi dimensioni evitando investimenti iniziali o dover eseguire il provisioning eccessivo delle apparecchiature di calcolo.
  • Google Cloud offre una vasta gamma di servizi per gestire i dati durante tutto il loro ciclo di vita, dall'acquisizione iniziale all'elaborazione e all'analisi fino alla visualizzazione finale.
    • I servizi di spostamento dei dati su Google Cloud forniscono una suite completa di prodotti per spostare, integrare e trasformare i dati in modo semplice e in diversi modi.
    • Cloud Storage è adatto a come creare un data lake.
  • Google Cloud ti aiuta a modernizzare e ottimizzare la tua piattaforma di dati per abbattere i silos di dati. L'utilizzo di un data lakehouse consente di standardizzare diversi formati di archiviazione. Inoltre, può fornire la flessibilità, la scalabilità e l'agilità necessarie per garantire che i dati generino valore per la tua azienda, anziché inefficienze. Per ulteriori informazioni, vedi BigLake.

  • BigQuery Omni fornisce potenza di calcolo che viene eseguita localmente nello spazio di archiviazione su AWS o Azure. it ti aiuta anche a interrogare i tuoi dati archiviati in Amazon Simple Storage Service (Amazon S3) o Azure Blob Storage. Questa funzionalità di analisi multi-cloud consente ai team dedicati ai dati di abbattere i silos di dati. Per ulteriori informazioni sulle query archiviati al di fuori di BigQuery, vedi Introduzione alle origini dati esterne.

Best practice

Per implementare il modello di architettura ibrida e multi-cloud di analisi, prendi in considerazione le seguenti best practice generali:

  • Utilizza il pattern di rete di trasferimento per attivare l'importazione dei dati. Se i risultati di analisi devono essere reintegrati nei sistemi transazionali, puoi combinare il pattern di uscita controllata con il trasferimento.
  • Utilizza le code Pub/Sub o i bucket Cloud Storage per trasferire i dati a Google Cloud da sistemi transazionali in esecuzione nel tuo ambiente di calcolo privato. Queste code o i bucket possono fungere da origini per le pipeline e i carichi di lavoro di elaborazione dati.
  • Per eseguire il deployment di pipeline di dati ETL ed ELT, valuta la possibilità di utilizzare Cloud Data Fusion o Dataflow a seconda dei requisiti del caso d'uso specifico. Sono entrambi completamente gestiti, servizi di elaborazione dati cloud-first per la creazione e la gestione di pipeline di dati.
  • Per scoprire, classificare e proteggere i tuoi asset di dati importanti, utilizzando Google Cloud Protezione dei dati sensibili funzionalità come tecniche di anonimizzazione. Queste tecniche ti consentono di mascherare, criptare e sostituire i dati sensibili, come le informazioni che consentono l'identificazione personale (PII), utilizzando una chiave predeterminata o generata in modo casuale, ove applicabile e conforme.
  • Se hai già carichi di lavoro Hadoop o Spark, ti consigliamo di eseguire la migrazione dei job in Dataproc e di eseguire la migrazione dei dati HDFS esistenti in Cloud Storage.
  • Quando esegui un trasferimento iniziale dei dati dal tuo ambiente di calcolo privato a Google Cloud, scegli l'approccio di trasferimento più adatto alle dimensioni del tuo set di dati e alla larghezza di banda disponibile. Per ulteriori informazioni, consulta Migrazione a Google Cloud: trasferimento dei tuoi set di dati di grandi dimensioni.

  • Se il trasferimento o lo scambio di dati tra Google Cloud e altri cloud è necessario per un lungo periodo di tempo con un volume di traffico elevato, ti consigliamo di valutare l'utilizzo di Cross-Cloud Interconnect di Google Cloud per stabilire una connettività dedicata ad alta larghezza di banda tra Google Cloud e altri provider di servizi cloud (disponibile in determinate località).

  • Se è necessaria la crittografia a livello di connettività, sono disponibili varie opzioni disponibili in base alla soluzione di connettività ibrida selezionata. Queste opzioni includono tunnel VPN, VPN ad alta disponibilità su Cloud Interconnect MACsec per Cross-Cloud Interconnect.

  • Utilizza strumenti e processi coerenti nei vari ambienti. In un uno scenario ibrido di analisi, questa pratica può aiutare ad aumentare dell'efficienza, sebbene non sia un prerequisito.