Pattern ibrido e multi-cloud di analisi

Last reviewed 2023-12-14 UTC

Questo documento illustra che l'obiettivo del modello di analisi ibrido e multi-cloud è sfruttare al meglio la suddivisione tra carichi di lavoro transazionali e di analisi.

Nei sistemi aziendali, la maggior parte dei carichi di lavoro rientra nelle seguenti categorie:

  • I carichi di lavoro transazionali includono applicazioni interattive come le vendite, elaborazione finanziaria, pianificazione delle risorse aziendali o comunicazione.
  • I carichi di lavoro di analisi includono applicazioni che trasformano, analizzano perfezionare o visualizzare i dati per facilitare i processi decisionali.

I sistemi di analisi ottengono i dati dai sistemi transazionali tramite che eseguono query sulle API o accedono ai database. Nella maggior parte delle aziende, i sistemi di analisi e sistemi transazionali tendono a essere separati e a basso accoppiamento. L'obiettivo il modello ibrido e multi-cloud dell'analisi dei dati deve trarre il massimo profitto da questo una suddivisione preesistente mediante l'esecuzione di carichi di lavoro transazionali e di analisi in due diversi ambienti di elaborazione. I dati non elaborati vengono prima estratti dai carichi di lavoro in esecuzione nell'ambiente di computing privato e poi caricati in Google Cloud, dove viene utilizzato per l'elaborazione analitica. Alcuni risultati potrebbero quindi essere restituiti ai sistemi transazionali.

Il seguente diagramma illustra le architetture concettualmente possibili mostrando e potenziali pipeline di dati. Ogni percorso/freccia rappresenta un possibile spostamento di dati e la pipeline di trasformazione che possono essere basate ETL o ELT, a seconda della disponibilità qualità dei dati e casi d'uso mirati.

Per spostare i dati in Google Cloud e generare valore da questi ultimi, utilizza spostamento dei dati servizi, una suite completa di servizi di importazione, integrazione e replica dei dati i servizi di machine learning.

Dati che fluiscono da un ambiente on-premise o un altro ambiente cloud in Google Cloud, attraverso l'importazione, le pipeline, l'archiviazione, l'analisi, nel livello di applicazione e presentazione.

Come mostrato nel diagramma precedente, la connessione di Google Cloud ambienti on-premise e altri ambienti cloud possono abilitare vari di analisi dei dati, come flussi di dati e backup dei database. Per alimentare il trasporto di base di un modello di analisi ibrido e multi-cloud che richiede un volume elevato di trasferimenti di dati, Cloud Interconnect Cross-Cloud Interconnect fornire connettività dedicata a on-premise e ad altri cloud provider.

Vantaggi

L'esecuzione di carichi di lavoro di analisi nel cloud offre diversi vantaggi fondamentali:

  • Traffico in entrata: spostamento di dati dal tuo ambiente informatico privato o da altre nuvole Google Cloud: potrebbe essere senza costi.
  • I carichi di lavoro di analisi spesso devono elaborare grandi quantità di dati e possono essere potenti, per cui sono particolarmente adatti al deployment un ambiente cloud pubblico. La scalabilità dinamica delle risorse di calcolo consente di elaborare rapidamente set di dati di grandi dimensioni, evitando investimenti iniziali o all'overprovisioning delle apparecchiature di calcolo.
  • Google Cloud offre un ricco set di servizi per gestire i dati durante tutto il suo ciclo di vita, dall'acquisizione iniziale l'elaborazione e l'analisi fino alla visualizzazione finale.
    • I servizi di spostamento dei dati su Google Cloud forniscono una suite completa di prodotti per spostare, integrare e trasformare i dati senza soluzione di continuità in modi diversi.
    • Cloud Storage è adatto per come creare un data lake.
  • Google Cloud ti aiuta a modernizzare e ottimizzare i tuoi dati una piattaforma per abbattere i silos di dati. L'utilizzo di un data lakehouse consente di standardizzare diversi formati di archiviazione. Può anche fornire la flessibilità, la scalabilità e l'agilità necessarie per garantire i dati generano valore per la tua attività piuttosto che inefficienze. Per ulteriori informazioni, vedi BigLake.

  • BigQuery Omni fornisce potenza di calcolo eseguita localmente nello spazio di archiviazione su AWS o Azure. it ti aiuta anche a interrogare i tuoi dati archiviati in Amazon Simple Storage Service (Amazon S3) o Azure Blob Storage. Questa funzionalità di analisi multi-cloud consente ai team dedicati ai dati di abbattere i silos di dati. Per ulteriori informazioni sulle query archiviati al di fuori di BigQuery, vedi Introduzione alle origini dati esterne.

Best practice

Per implementare il modello di architettura ibrida e multi-cloud di analisi, prendi in considerazione le seguenti best practice generali:

  • Utilizza la pattern di networking di passaggio per abilitare l'importazione dei dati. Se i risultati delle analisi devono essere restituiti ai sistemi transazionali, puoi combinare passaggio di consegne e il in uscita con accesso riservato pattern.
  • Utilizza le funzionalità di Pub/Sub code o Cloud Storage bucket per trasferire i dati a Google Cloud dai sistemi transazionali in esecuzione nel tuo ambiente di computing privato. Queste code o i bucket possono fungere da origini per le pipeline e i carichi di lavoro di elaborazione dati.
  • Per eseguire il deployment di pipeline di dati ETL ed ELT, valuta la possibilità di utilizzare Cloud Data Fusion o Dataflow a seconda dei requisiti del caso d'uso specifico. Sono entrambi completamente gestiti, servizi di elaborazione dati cloud-first per la creazione e la gestione di pipeline di dati.
  • Per scoprire, classificare e proteggere i tuoi asset di dati importanti, utilizzando Google Cloud Protezione dei dati sensibili funzionalità come tecniche di anonimizzazione. Queste tecniche ti consentono di mascherare, criptare e sostituire i dati sensibili, come che consentono l'identificazione personale (PII), utilizzando un modello una chiave predeterminata, ove applicabile e conforme.
  • Quando hai carichi di lavoro Hadoop o Spark esistenti, valuta migrazione dei job a Dataproc e eseguire la migrazione dei dati HDFS esistenti a Cloud Storage.
  • Quando esegui un trasferimento di dati iniziale dal tuo di computing a Google Cloud, scegli l'approccio di trasferimento più adatto alle dimensioni del set di dati e alla larghezza di banda disponibile. Per ulteriori informazioni le informazioni, vedi Migrazione a Google Cloud: trasferimento di set di dati di grandi dimensioni.

  • Se il trasferimento o lo scambio di dati tra Google Cloud e altri cloud per un volume di traffico elevato a lungo termine, occorre valutare utilizzando Google Cloud Cross-Cloud Interconnect per stabilire una connettività dedicata a elevata larghezza di banda Google Cloud e altri provider di servizi cloud (disponibili in alcuni località).

  • Se è necessaria la crittografia a livello di connettività, sono disponibili varie opzioni disponibili in base alla soluzione di connettività ibrida selezionata. Queste opzioni includono tunnel VPN, VPN ad alta disponibilità su Cloud Interconnect MACsec per Cross-Cloud Interconnect.

  • Utilizza strumenti e processi coerenti nei vari ambienti. In un uno scenario ibrido di analisi, questa pratica può aiutare ad aumentare dell'efficienza, sebbene non sia un prerequisito.