Analizzare i tuoi dati

Last reviewed 2023-08-08 UTC

Questo documento nel Framework dell'architettura Google Cloud spiega alcuni dei principi fondamentali e delle best practice per l'analisi dei dati in in Google Cloud. Imparerai a conoscere alcuni dei principali servizi di analisi dei dati in che modo possono aiutare nelle varie fasi del ciclo di vita dei dati. Le migliori ti aiutano a soddisfare le tue esigenze di analisi dei dati e creare un sistema la progettazione.

Principi fondamentali

Le aziende vogliono analizzare i dati e generare informazioni strategiche in base a questi dati. e i dati di Google Cloud. Google Cloud offre vari servizi utili per durante l'intero ciclo di vita dei dati, dall'importazione fino ai report visualizzazione. La maggior parte di questi servizi è completamente gestita e alcuni sono serverless. Puoi anche creare e gestire un ambiente di analisi dei dati VM di Compute Engine, ad esempio ospitare Apache Hadoop o trasmissione.

Il tuo obiettivo, l'esperienza del team e la tua prospettiva strategica ti aiutano a determinare quali servizi Google Cloud adotti per supportare i tuoi dati le esigenze di analisi dei dati. Ad esempio: Dataflow consente di scrivere trasformazioni complesse con un approccio serverless, ma devi si basano su una versione "guidata" delle configurazioni per il calcolo e l'elaborazione. e alle esigenze aziendali. In alternativa, Dataproc consente di eseguire le stesse trasformazioni, ma di gestire i cluster e di ottimizzare per svolgere personalmente i lavori.

Nella progettazione del tuo sistema, pensa alla strategia di elaborazione utilizzata dai tuoi team, come estrazione, trasformazione e caricamento (ETL) o estrazione, caricamento e trasformazione (ELT). La progettazione del sistema deve valutare anche se è necessario elaborare analisi in batch o analisi dei flussi di dati. Google Cloud fornisce una piattaforma dati unificata e ti consente di creare data lake o un data warehouse per soddisfare le tue esigenze aziendali.

Servizi chiavi

La tabella seguente fornisce una panoramica generale di Google Cloud servizi di analisi dei dati:

Servizio Google Cloud Descrizione
Pub/Sub Elementi di base semplici, affidabili e scalabili per l'analisi dei flussi e basati su eventi.
Dataflow Un servizio completamente gestito per trasformare e arricchire i dati in tempo reale (in tempo reale) e batch (storico).
Dataprep di Trifacta Servizio dati intelligente per esplorare in modo visivo, pulire e preparare i dati strutturati e non strutturati per l'analisi.
Dataproc Servizio cloud veloce, facile da usare e completamente gestito per eseguire Apache Spark e dei cluster Apache Hadoop.
Cloud Data Fusion Servizio di integrazione dei dati completamente gestito, creato per il cloud e che consente per la creazione e la gestione di pipeline di dati ETL/ELT. Cloud DataFusion fornisce e un'ampia libreria open source di modelli connettori e trasformazioni.
BigQuery Data warehouse serverless, a basso costo e completamente gestito, in grado di scalare di pari passo con le tue di archiviazione e potenza di calcolo. BigQuery è un modello a colonne Database ANSI SQL in grado di analizzare da terabyte a petabyte di dati.
Cloud Composer Un servizio di orchestrazione del flusso di lavoro completamente gestito che consente di creare, pianificare e monitorare le pipeline che comprendono cloud e dati on-premise center.
Dati Catalogo Servizio di gestione dei metadati completamente gestito e scalabile che ti aiuta a scoprire, gestire e comprendere tutti i tuoi dati.
Looker Studio Servizio di analisi visiva completamente gestito che può aiutarti a ottenere insight dai dati attraverso dashboard interattive.
Looker una piattaforma aziendale che connette, analizza e visualizza i dati su ambienti multi-cloud.
Dataform Prodotto completamente gestito per la collaborazione, la creazione e il deployment dei dati pipeline di dati e garantire la qualità dei dati.
Dataplex . Servizio di data lake gestito che gestisce, monitora e regolamenta centralmente tra data lake, data warehouse e data mart utilizzando i controlli di sicurezza.
AnalyticsHub . Piattaforma che scambia risorse di analisi dei dati in modo efficiente e sicuro della tua organizzazione per affrontare le sfide legate all'affidabilità dei dati ad accesso meno frequente per ridurre i costi di archiviazione.

Ciclo di vita dei dati

Quando crei la progettazione del sistema, puoi raggruppare i dati di Google Cloud di analisi dei dati sul movimento generale dei dati all'interno di qualsiasi sistema ciclo di vita dei dati.

Il ciclo di vita dei dati include le fasi e i servizi di esempio seguenti:

Le fasi e i servizi seguenti si applicano all'intero ciclo di vita dei dati:

  • L'integrazione dei dati include servizi come Data Fusion.
  • La gestione e la governance dei metadati include servizi come Data Catalog.
  • La gestione del flusso di lavoro include servizi come Cloud Composer.

Importazione dati

Applica al tuo ambiente le seguenti best practice per l'importazione dati.

Determina l'origine per l'importazione dei dati

I dati in genere provengono da un altro cloud provider o servizio oppure da località on-premise:

Valuta come vuoi elaborare i tuoi dati dopo averli importati. Ad esempio: Storage Transfer Service scrive dati solo in un bucket Cloud Storage, e BigQuery Data Transfer Service scrive i dati solo in un set di dati BigQuery. Cloud Data Fusion supporta più destinazioni.

Identifica le origini dati in flussi o batch

Pensa a come devi usare i tuoi dati e identifica dove sono disponibili flussi di dati e i casi d'uso in batch. Ad esempio, se esegui un servizio di streaming globale con prestazioni requisiti di latenza, puoi utilizzare Pub/Sub Se hai bisogno dei tuoi dati per l'analisi e la generazione di report, puoi trasferire flussi di dati in BigQuery.

Se devi trasmettere i dati in modalità flusso da un sistema come Apache Kafka in un ambiente on-premise o in un altro ambiente cloud, utilizza Modello Dataflow da Kafka a BigQuery. Per i carichi di lavoro batch, il primo passaggio solitamente consiste nell'importare dati di archiviazione ideale in Cloud Storage. Utilizza la gsutil o lo strumento Storage Transfer Service per importare i dati.

Importa i data con strumenti automatizzati

Lo spostamento manuale dei dati da altri sistemi al cloud può rappresentare una sfida. Se possibile, puoi utilizzare strumenti che consentono di automatizzare i processi di importazione dati. Per un esempio, Cloud Data Fusion fornisce connettori e plug-in per portare i dati da origini esterne con una con la GUI di trascinamento. Se i tuoi team vogliono scrivere codice, Flusso di dati o BigQuery può aiutare ad automatizzare importazione dati. Pub/Sub possono essere utili sia nell'approccio low code che code-first. Per importare i dati nei bucket di archiviazione, usa gsutil per dimensioni dei dati fino a 1 TB. Per importare quantità di dati superiori a 1 TB, utilizza Storage Transfer Service.

Usa gli strumenti di migrazione per importare da un altro data warehouse

Se devi eseguire la migrazione da un altro sistema di data warehouse, come Teradata, Netezza, o Redshift, puoi usare BigQuery Data Transfer Service assistenza per la migrazione. BigQuery Data Transfer Service fornisce inoltre trasferimenti di terze parti che ti aiutano a importare dati in una pianificazione da origini esterne. Per ulteriori informazioni informazioni, consulta approcci dettagliati alla migrazione per ogni data warehouse.

Stima le tue esigenze di importazione di dati

Il volume di dati che devi importare ti aiuta a determinare quale servizio nella progettazione del sistema. Per l'importazione di flussi di dati, Pub/Sub scala fino a decine di gigabyte al secondo. Capacità, spazio di archiviazione e requisiti regionali per il tuo di dati aiutano a stabilire se Pub/Sub Lite è un'opzione migliore la progettazione del tuo sistema. Per ulteriori informazioni, vedi Scegliere Pub/Sub o Pub/Sub Lite.

Per l'importazione in batch di dati, stima la quantità di dati da trasferire in entrata totali e la velocità desiderata. Esamina il opzioni di migrazione disponibili, tra cui un stima in tempo e confronto tra trasferimenti online e offline.

Usa gli strumenti adeguati per l'importazione regolare di dati in base a una pianificazione

Storage Transfer Service e BigQuery Data Transfer Service consentono di pianificare i job di importazione. Per un controllo granulare dei tempi di importazione o il sistema di origine e di destinazione, utilizza un sistema di gestione dei flussi di lavoro Mi piace Cloud Composer. Se vuoi un approccio più manuale, utilizzare Cloud Scheduler e Pub/Sub per attivare una funzione Cloud Functions.
Se vuoi gestire l'infrastruttura Compute, puoi utilizzare gsutil con cron per il trasferimento di dati fino a 1 TB. Se usi questo manuale anziché Cloud Composer, segui best practice per creare script di trasferimenti di produzione.

Esamina le esigenze di importazione di dati da server FTP/SFTP

Se hai bisogno di un ambiente senza codice per importare i dati da un server FTP/SFTP, puoi utilizzare plug-in per la copia FTP. Se vuoi modernizzare e creare una soluzione per flussi di lavoro a lungo termine, Cloud Composer è un servizio completamente gestito che consente di leggere e scrivere da varie origini e sink.

Usa connettori Apache Kafka per importare i dati

Se utilizzi Pub/Sub, Dataflow o BigQuery, puoi importare i dati utilizzando uno dei Connettori Apache Kafka. Ad esempio, Connettore open source Kafka per Pub/Sub consente di importare i dati da Pub/Sub o Pub/Sub Lite.

Risorse aggiuntive

Archiviazione dei dati

Applica le seguenti best practice per l'archiviazione dei dati al tuo ambiente.

Scegli il datastore appropriato per le tue esigenze

Per aiutarti a scegliere il tipo di soluzione di archiviazione da usare, esamina e comprendi l'utilizzo downstream dei tuoi dati. Di seguito sono riportati i casi d'uso comuni relativi ai tuoi dati fornire suggerimenti su quali prodotti Google Cloud utilizzare:

Caso d'uso dei dati Consiglio sul prodotto
Basato su file Filestore
Basato sugli oggetti Cloud Storage
Bassa latenza Bigtable
Serie temporale Bigtable
Cache online Memorystore
Elaborazione delle transazioni Cloud SQL
Business intelligence (BI) e dati e analisi BigQuery
Elaborazione dei dati in modalità batch Cloud Storage

Bigtable in caso di dati in entrata è una serie temporale e ti serve l'accesso a bassa latenza.

BigQuery se utilizzi per l'addestramento e sa usare il linguaggio SQL.

Esamina le tue esigenze di struttura dei dati

Per la maggior parte dei dati non strutturati, come documenti e file di testo, audio e video file o log, un archivio basato su oggetti è la scelta più adatta. Puoi quindi caricare ed elaborare i dati dall'archiviazione di oggetti quando necessario.

Per dati semistrutturati, come XML o JSON, i tuoi casi d'uso e l'accesso ai dati modelli ti aiutano a orientare la scelta. Puoi caricare questi set di dati BigQuery per rilevamento automatico dello schema. Se hai requisiti di bassa latenza, puoi caricare i tuoi dati JSON in Bigtable. Se hai requisiti precedenti o le tue applicazioni lavorare con database relazionali, puoi anche caricare set di dati in una relazione .

Per i dati strutturati, come CSV, Parquet, Avro o ORC, puoi utilizzare BigQuery, se hai BI e analisi che utilizzano SQL. Per ulteriori informazioni, vedi come caricare i dati in batch. Se vuoi creare un data lake su tecnologie e standard aperti, puoi per utilizzare Cloud Storage.

Esegui la migrazione dei dati e riduci i costi per HDFS

Cerca modi per spostare i dati HDFS (Hadoop Distributed File System) da on-premise o da un altro cloud provider a un sistema di archiviazione di oggetti più economico. Cloud Storage è la suite scelta comune delle aziende come datastore alternativo. Per sui vantaggi e sugli svantaggi di questa scelta, vedi HDFS e Cloud Storage a confronto.

Puoi trasferire i dati con un metodo push o pull. Entrambi i metodi utilizzano il comando hadoop distcp. Per ulteriori informazioni, vedi Migrazione dei dati HDFS da on-premise a Google Cloud.

Puoi anche usare l'open source Connettore Cloud Storage per consentire a job Hadoop e Spark di accedere ai dati in Cloud Storage. La è installato per impostazione predefinita sui cluster Dataproc e può essere installati manualmente su altri cluster.

Usa l'archiviazione a oggetti per creare un data lake coerente

R data lake è un repository centralizzato progettato per archiviare, elaborare e proteggere grandi quantità di dati strutturati, semistrutturati e non strutturati. Puoi Utilizzare Cloud Composer e Cloud Data Fusion per creare un data lake.

Per creare una piattaforma dati moderna, puoi utilizzare BigQuery come origine dati centrale, anziché Cloud Storage. BigQuery è un data warehouse moderno con la separazione di archiviazione e computing. Un data lake basato su BigQuery consente di eseguire dati e analisi da BigQuery nella console Cloud. Inoltre, consente di accedere ai dati archiviati da altri framework come Apache Spark.

Risorse aggiuntive

Elabora e trasforma i dati

Applica le seguenti best practice per l'analisi dei dati al tuo ambiente quando mentre elabori e trasformi i dati.

Esplora i software open source che puoi utilizzare in Google Cloud

Molti servizi Google Cloud utilizzano software open source per rendere una transizione senza soluzione di continuità. Google Cloud offre soluzioni gestite e serverless che dispongono di API aperte e sono compatibili con framework open source per ridurre vincoli al fornitore.

Dataproc è un servizio gestito compatibile con Hadoop che ti consente di ospitare software open source, con poco carico operativo. Dataproc è inclusa l'assistenza per Spark, Hive, Pig, Presto e Zookeeper. Offre inoltre Hive Metastore come servizio gestito in modo da rimuovere se stessa come single point of failure nell'ecosistema Hadoop.

Puoi eseguire la migrazione Dataflow se attualmente utilizzi Apache Beam come motore di elaborazione in modalità flusso e batch. Dataflow è un servizio completamente gestito e serverless che utilizza Apache Beam. Usa Dataflow per scrivere job in Beam, ma lascia Google Cloud gestisce l'ambiente di esecuzione.

Se utilizzi CDAP come piattaforma di integrazione dei dati, puoi migrare Cloud Data Fusion per un'esperienza completamente gestita.

Determina le tue esigenze di elaborazione dei dati ETL o ELT

L'esperienza e le preferenze del tuo team aiutano a stabilire la progettazione del sistema per le modalità di trattamento dei dati. Google Cloud ti consente di utilizzare ETL tradizionale o ELT più moderno sistemi di elaborazione dei dati.

Utilizza il framework appropriato per il tuo caso d'uso dei dati

I casi d'uso dei dati determinano quali strumenti e framework usare. Alcune I prodotti Google Cloud sono progettati per gestire tutti i seguenti utilizzi dei dati mentre altri supportano meglio un solo caso d'uso particolare.

  • Per un sistema di elaborazione dati batch, puoi elaborare e trasformare in BigQuery con un'interfaccia SQL familiare. Se disponi una pipeline esistente in esecuzione su Apache Hadoop o Spark on-premise o in un altro cloud pubblico, puoi usare Dataproc.
    • Puoi anche usare Dataflow se vuoi che una interfaccia di programmazione sia per i casi d'uso batch che per quelli in flussi. Me di modernizzare e utilizzare Dataflow per ETL e BigQuery per ELT.
  • Per le pipeline di dati in flussi, utilizzi un servizio gestito e serverless come Dataflow, che fornisce windowing, scalabilità automatica modelli di machine learning. Per ulteriori informazioni, vedi Creazione di pipeline di dati pronte per la produzione con Dataflow.

  • Per i casi d'uso in tempo reale, come l'analisi di serie temporali o i video in streaming e usare Dataflow.

Mantieni il controllo futuro sul tuo motore di esecuzione

Per ridurre al minimo i vincoli al fornitore ed essere in grado di utilizzare una piattaforma diversa nel utilizza Modello di programmazione Apache Beam e Dataflow come una soluzione serverless gestita. Il modello di programmazione Beam ti consente modificare il motore di esecuzione sottostante, ad esempio passando da Dataflow a Apache Flink o Apache Spark.

Usa Dataflow per importare dati da più origini

Per importare dati da più origini, ad esempio Pub/Sub, Cloud Storage, HDFS, S3 o Kafka, utilizza Dataflow. Dataflow è un servizio serverless gestito che supporta Modelli Dataflow, che consente ai team di eseguire modelli da diversi strumenti.

Dataflow Prime offre la scalabilità automatica orizzontale e verticale delle macchine utilizzate il processo di esecuzione di una pipeline. Offre inoltre funzioni di diagnostica intelligenti consigli che identificano i problemi e suggeriscono come risolverli.

Scopri, identifica e proteggi i dati sensibili

Utilizza le funzionalità di Protezione dei dati sensibili per ispezionare e trasformare dati strutturati e non strutturati. Protezione dei dati sensibili funziona per i dati che si trovano ovunque in Google Cloud, ad esempio Cloud Storage o database. Puoi classificare, mascherare e tokenizzare i dati sensibili per continuare a utilizzarli in modo sicuro per l'elaborazione downstream. Utilizza le funzionalità di Sensitive Data Protection per eseguire azioni come scansionare i dati BigQuery oppure anonimizza e reidentifica le PII in set di dati su larga scala.

Modernizza i tuoi processi di trasformazione dei dati

Utilizza le funzionalità di Dataform scrivere trasformazioni dei dati come codice e iniziare a usare il controllo della versione predefinito. Puoi anche adottare best practice per lo sviluppo software come CI/CD, delle unità di misura e controllo della versione al codice SQL. Dataform supporta tutti i principali servizi cloud di prodotti e database di data warehouse, come PostgreSQL.

Risorse aggiuntive

Analisi dei dati e data warehouse

Applica le seguenti best practice per l'analisi dei dati e il data warehouse alla tua completamente gestito di Google Cloud.

Verifica le tue esigenze di archiviazione dei dati

Data lake e data warehouse non si escludono a vicenda. I data lake sono utili per l'archiviazione e l'elaborazione di dati non strutturati e semistrutturati. Dati i warehouse sono ideali per l'analisi e la BI.

Rivedi le tue esigenze di dati per determinare dove archiviarli e il prodotto Google Cloud più appropriato per elaborare e analizzare i dati. Prodotti come BigQuery possono elaborare PB di dati e crescere di pari passo con le tue esigenze.

Identifica le opportunità per la migrazione da un data warehouse tradizionale a BigQuery

Esamina i data warehouse tradizionali attualmente in uso completamente gestito di Google Cloud. Per ridurre la complessità e potenzialmente ridurre i costi, per eseguire la migrazione dei tuoi data warehouse tradizionali da un servizio Google Cloud come BigQuery. Per ulteriori informazioni e scenari di esempio, consulta Migrazione dei data warehouse in BigQuery.

Pianifica l'accesso federato ai dati

Esamina i requisiti relativi ai dati e come potresti dover interagire con altri i nostri prodotti e servizi. Identifica le tue esigenze di federazione dei dati e crea una progettazione del sistema appropriata.

Ad esempio, BigQuery consente di definire tabelle esterne che possono leggere dati da altre origini, come Bigtable, Cloud SQL, Cloud Storage o Google Drive. Puoi partecipare a questi con tabelle archiviate in BigQuery.

Usa gli slot flessibili di BigQuery per fornire capacità burst on demand

A volte è necessaria una capacità aggiuntiva per eseguire analisi sperimentali o esplorative che richiede molte risorse di calcolo. BigQuery ti consente di ottenere di capacità di calcolo aggiuntiva sotto forma di slot flessibili. Questi slot flessibili sono utili quando c'è un periodo di domanda elevata o quando per completare un'analisi importante.

Comprendi le differenze nello schema se esegui la migrazione a BigQuery

BigQuery supporta gli schemi star e snowflake, ma per per impostazione predefinita campi nidificati e ripetuti. I campi nidificati e ripetuti possono essere più facili da leggere e correlare rispetto ad altri e schemi di machine learning. Se i dati sono rappresentati in uno schema a stella o a fiocco di neve e eseguire la migrazione a BigQuery, rivedi la progettazione del sistema le modifiche necessarie a processi o analisi.

Risorse aggiuntive

Report e visualizzazione

Applica le seguenti best practice per report e visualizzazioni alle tue completamente gestito di Google Cloud.

Usa BigQuery BI Engine per visualizzare i tuoi dati

BigQuery BI Engine è un rapido servizio di analisi in memoria. Puoi utilizzare BI Engine per analizzare i dati archiviati in BigQuery con una risposta alle query in frazioni di secondo nel tempo e con un'elevata contemporaneità. BI Engine è integrato l'API BigQuery. Utilizza le funzionalità di capacità BI Engine prenotata per gestire i prezzi on demand o a costo fisso in base alle tue esigenze. BI Engine può funzionare anche con altre dashboard BI o personalizzate che richiedono tempi di risposta inferiori al secondo.

Modernizza i tuoi processi di BI con Looker

Looker è un una moderna piattaforma aziendale per BI, applicazioni di dati e analisi incorporate. Puoi creare contenuti coerenti di dati basati sui tuoi dati in modo rapido e preciso e puoi accedere ai dati all'interno di datastore transazionali e analitici. Looker può anche analizzare i dati su più database e cloud. Se hai già processi e strumenti BI, ti consigliamo di modernizzare una piattaforma centrale come Looker.

Risorse aggiuntive

Usa strumenti di gestione del flusso di lavoro

L'analisi dei dati coinvolge molti processi e servizi. I dati si spostano diversi strumenti e pipeline di elaborazione durante il ciclo di vita dell'analisi dei dati. A gestire e mantenere pipeline di dati end-to-end, usare un flusso di lavoro appropriato i nostri strumenti di gestione. Cloud Composer è uno strumento di gestione del flusso di lavoro completamente gestito basato sul framework Apache Airflow progetto.

Puoi utilizzare Cloud Composer per avvia pipeline Dataflow e per utilizzare i modelli di flusso di lavoro Dataproc. Cloud Composer può inoltre aiutarti crea una pipeline CI/CD per testare, sincronizzare ed eseguire il deployment dei DAG o Utilizzare una pipeline CI/CD per i flussi di lavoro di elaborazione dati. Per ulteriori informazioni, guarda Cloud Composer: best practice per lo sviluppo.

Risorse di migrazione

Se utilizzi già una piattaforma di analisi dei dati e vuoi eseguire la migrazione di alcune di tutti i carichi di lavoro su Google Cloud, esamina la seguente migrazione per conoscere best practice e linee guida:

Passaggi successivi

Scopri le best practice di progettazione dei sistemi per l'AI e le macchine di Google Cloud apprendimento, tra cui:

Esplora altre categorie nella Framework dell'architettura come affidabilità, eccellenza operativa e sicurezza, privacy e conformità.