Questo documento nel Framework dell'architettura Google Cloud spiega alcuni dei principi fondamentali e delle best practice per l'analisi dei dati in in Google Cloud. Imparerai a conoscere alcuni dei principali servizi di analisi dei dati in che modo possono aiutare nelle varie fasi del ciclo di vita dei dati. Le migliori ti aiutano a soddisfare le tue esigenze di analisi dei dati e creare un sistema la progettazione.
Principi fondamentali
Le aziende vogliono analizzare i dati e generare informazioni strategiche in base a questi dati. e i dati di Google Cloud. Google Cloud offre vari servizi utili per durante l'intero ciclo di vita dei dati, dall'importazione fino ai report visualizzazione. La maggior parte di questi servizi è completamente gestita e alcuni sono serverless. Puoi anche creare e gestire un ambiente di analisi dei dati VM di Compute Engine, ad esempio ospitare Apache Hadoop o trasmissione.
Il tuo obiettivo, l'esperienza del team e la tua prospettiva strategica ti aiutano a determinare quali servizi Google Cloud adotti per supportare i tuoi dati le esigenze di analisi dei dati. Ad esempio: Dataflow consente di scrivere trasformazioni complesse con un approccio serverless, ma devi si basano su una versione "guidata" delle configurazioni per il calcolo e l'elaborazione. e alle esigenze aziendali. In alternativa, Dataproc consente di eseguire le stesse trasformazioni, ma di gestire i cluster e di ottimizzare per svolgere personalmente i lavori.
Nella progettazione del tuo sistema, pensa alla strategia di elaborazione utilizzata dai tuoi team, come estrazione, trasformazione e caricamento (ETL) o estrazione, caricamento e trasformazione (ELT). La progettazione del sistema deve valutare anche se è necessario elaborare analisi in batch o analisi dei flussi di dati. Google Cloud fornisce una piattaforma dati unificata e ti consente di creare data lake o un data warehouse per soddisfare le tue esigenze aziendali.
Servizi chiavi
La tabella seguente fornisce una panoramica generale di Google Cloud servizi di analisi dei dati:
Servizio Google Cloud | Descrizione |
---|---|
Pub/Sub | Elementi di base semplici, affidabili e scalabili per l'analisi dei flussi e basati su eventi. |
Dataflow | Un servizio completamente gestito per trasformare e arricchire i dati in tempo reale (in tempo reale) e batch (storico). |
Dataprep di Trifacta | Servizio dati intelligente per esplorare in modo visivo, pulire e preparare i dati strutturati e non strutturati per l'analisi. |
Dataproc | Servizio cloud veloce, facile da usare e completamente gestito per eseguire Apache Spark e dei cluster Apache Hadoop. |
Cloud Data Fusion | Servizio di integrazione dei dati completamente gestito, creato per il cloud e che consente per la creazione e la gestione di pipeline di dati ETL/ELT. Cloud DataFusion fornisce e un'ampia libreria open source di modelli connettori e trasformazioni. |
BigQuery | Data warehouse serverless, a basso costo e completamente gestito, in grado di scalare di pari passo con le tue di archiviazione e potenza di calcolo. BigQuery è un modello a colonne Database ANSI SQL in grado di analizzare da terabyte a petabyte di dati. |
Cloud Composer | Un servizio di orchestrazione del flusso di lavoro completamente gestito che consente di creare, pianificare e monitorare le pipeline che comprendono cloud e dati on-premise center. |
Dati Catalogo | Servizio di gestione dei metadati completamente gestito e scalabile che ti aiuta a scoprire, gestire e comprendere tutti i tuoi dati. |
Looker Studio | Servizio di analisi visiva completamente gestito che può aiutarti a ottenere insight dai dati attraverso dashboard interattive. |
Looker | una piattaforma aziendale che connette, analizza e visualizza i dati su ambienti multi-cloud. |
Dataform | Prodotto completamente gestito per la collaborazione, la creazione e il deployment dei dati pipeline di dati e garantire la qualità dei dati. |
Dataplex | Servizio di data lake gestito che gestisce, monitora e regolamenta centralmente tra data lake, data warehouse e data mart utilizzando i controlli di sicurezza. |
AnalyticsHub | Piattaforma che scambia risorse di analisi dei dati in modo efficiente e sicuro della tua organizzazione per affrontare le sfide legate all'affidabilità dei dati ad accesso meno frequente per ridurre i costi di archiviazione. |
Ciclo di vita dei dati
Quando crei la progettazione del sistema, puoi raggruppare i dati di Google Cloud di analisi dei dati sul movimento generale dei dati all'interno di qualsiasi sistema ciclo di vita dei dati.
Il ciclo di vita dei dati include le fasi e i servizi di esempio seguenti:
- L'importazione include servizi come Pub/Sub Storage Transfer Service, Transfer Appliance, e BigQuery.
- Archiviazione include servizi come Cloud Storage Bigtable Memorystore, e BigQuery.
- Elaborazione e trasformazione include servizi come Dataflow Dataproc Dataprep Sensitive Data Protection, e BigQuery.
- Analisi e warehousing include servizi come BigQuery.
- Generazione di report e visualizzazione include servizi come Looker Studio e Looker.
Le fasi e i servizi seguenti si applicano all'intero ciclo di vita dei dati:
- L'integrazione dei dati include servizi come Data Fusion.
- La gestione e la governance dei metadati include servizi come Data Catalog.
- La gestione del flusso di lavoro include servizi come Cloud Composer.
Importazione dati
Applica al tuo ambiente le seguenti best practice per l'importazione dati.
Determina l'origine per l'importazione dei dati
I dati in genere provengono da un altro cloud provider o servizio oppure da località on-premise:
Per importare dati da altri cloud provider, in genere usi Cloud Data Fusion Storage Transfer Service, o BigQuery Transfer Service.
Per l'importazione dati on-premise, considera il volume di dati da importare e le competenze del tuo team. Se il tuo team preferisce una Graphic User Interface con poco codice dell'interfaccia utente (GUI), utilizza Cloud Data Fusion con un connettore adatto, ad esempio Java Database Connectivity (JDBC). Per grandi volumi di dati, puoi utilizzare Transfer Appliance o Storage Transfer Service.
Valuta come vuoi elaborare i tuoi dati dopo averli importati. Ad esempio: Storage Transfer Service scrive dati solo in un bucket Cloud Storage, e BigQuery Data Transfer Service scrive i dati solo in un set di dati BigQuery. Cloud Data Fusion supporta più destinazioni.
Identifica le origini dati in flussi o batch
Pensa a come devi usare i tuoi dati e identifica dove sono disponibili flussi di dati e i casi d'uso in batch. Ad esempio, se esegui un servizio di streaming globale con prestazioni requisiti di latenza, puoi utilizzare Pub/Sub Se hai bisogno dei tuoi dati per l'analisi e la generazione di report, puoi trasferire flussi di dati in BigQuery.
Se devi trasmettere i dati in modalità flusso da un sistema come Apache Kafka in un ambiente on-premise o in un altro ambiente cloud, utilizza Modello Dataflow da Kafka a BigQuery. Per i carichi di lavoro batch, il primo passaggio solitamente consiste nell'importare dati di archiviazione ideale in Cloud Storage. Utilizza la gsutil o lo strumento Storage Transfer Service per importare i dati.
Importa i data con strumenti automatizzati
Lo spostamento manuale dei dati da altri sistemi al cloud può rappresentare una sfida. Se possibile, puoi utilizzare strumenti che consentono di automatizzare i processi di importazione dati. Per un esempio, Cloud Data Fusion fornisce connettori e plug-in per portare i dati da origini esterne con una con la GUI di trascinamento. Se i tuoi team vogliono scrivere codice, Flusso di dati o BigQuery può aiutare ad automatizzare importazione dati. Pub/Sub possono essere utili sia nell'approccio low code che code-first. Per importare i dati nei bucket di archiviazione, usa gsutil per dimensioni dei dati fino a 1 TB. Per importare quantità di dati superiori a 1 TB, utilizza Storage Transfer Service.
Usa gli strumenti di migrazione per importare da un altro data warehouse
Se devi eseguire la migrazione da un altro sistema di data warehouse, come Teradata, Netezza, o Redshift, puoi usare BigQuery Data Transfer Service assistenza per la migrazione. BigQuery Data Transfer Service fornisce inoltre trasferimenti di terze parti che ti aiutano a importare dati in una pianificazione da origini esterne. Per maggiori informazioni informazioni, consulta approcci dettagliati alla migrazione per ogni data warehouse.
Stima le tue esigenze di importazione di dati
Il volume di dati che devi importare ti aiuta a determinare quale servizio nella progettazione del sistema. Per l'importazione di flussi di dati, Pub/Sub scala fino a decine di gigabyte al secondo. Capacità, spazio di archiviazione e requisiti regionali per il tuo di dati aiutano a stabilire se Pub/Sub Lite è un'opzione migliore la progettazione del tuo sistema. Per ulteriori informazioni, vedi Scegliere Pub/Sub o Pub/Sub Lite.
Per l'importazione in batch di dati, stima la quantità di dati da trasferire in entrata totali e la velocità desiderata. Esamina il opzioni di migrazione disponibili, tra cui un stima in tempo e confronto tra trasferimenti online e offline.
Usa gli strumenti adeguati per l'importazione regolare di dati in base a una pianificazione
Storage Transfer Service
e
BigQuery Data Transfer Service
consentono di pianificare i job di importazione. Per un controllo granulare dei tempi di
importazione o il sistema di origine e di destinazione, utilizza un sistema di gestione dei flussi di lavoro
Mi piace
Cloud Composer.
Se vuoi un approccio più manuale,
utilizzare Cloud Scheduler e Pub/Sub per attivare una funzione Cloud Functions.
Se vuoi gestire l'infrastruttura Compute, puoi utilizzare
gsutil
con cron per il trasferimento di dati fino a 1 TB. Se usi questo manuale
anziché Cloud Composer, segui
best practice per creare script di trasferimenti di produzione.
Esamina le esigenze di importazione di dati da server FTP/SFTP
Se hai bisogno di un ambiente senza codice per importare i dati da un server FTP/SFTP, puoi utilizzare plug-in per la copia FTP. Se vuoi modernizzare e creare una soluzione per flussi di lavoro a lungo termine, Cloud Composer è un servizio completamente gestito che consente di leggere e scrivere da varie origini e sink.
Usa connettori Apache Kafka per importare i dati
Se utilizzi Pub/Sub, Dataflow o BigQuery, puoi importare i dati utilizzando uno dei Connettori Apache Kafka. Ad esempio, Connettore open source Kafka per Pub/Sub consente di importare i dati da Pub/Sub o Pub/Sub Lite.
Risorse aggiuntive
- Best practice per gli agenti Cloud Storage Transfer Service
- Come importare i dati in BigQuery per analizzarli
Archiviazione dei dati
Applica le seguenti best practice per l'archiviazione dei dati al tuo ambiente.
Scegli il datastore appropriato per le tue esigenze
Per aiutarti a scegliere il tipo di soluzione di archiviazione da usare, esamina e comprendi l'utilizzo downstream dei tuoi dati. Di seguito sono riportati i casi d'uso comuni relativi ai tuoi dati fornire suggerimenti su quali prodotti Google Cloud utilizzare:
Caso d'uso dei dati | Consiglio sul prodotto |
---|---|
Basato su file | Filestore |
Basato sugli oggetti | Cloud Storage |
Bassa latenza | Bigtable |
Serie temporale | Bigtable |
Cache online | Memorystore |
Elaborazione delle transazioni | Cloud SQL |
Business intelligence (BI) e dati e analisi | BigQuery |
Elaborazione dei dati in modalità batch | Cloud Storage Bigtable in caso di dati in entrata è una serie temporale e ti serve l'accesso a bassa latenza. BigQuery se utilizzi per l'addestramento e sa usare il linguaggio SQL. |
Esamina le tue esigenze di struttura dei dati
Per la maggior parte dei dati non strutturati, come documenti e file di testo, audio e video file o log, un archivio basato su oggetti è la scelta più adatta. Puoi quindi caricare ed elaborare i dati dall'archiviazione di oggetti quando necessario.
Per dati semistrutturati, come XML o JSON, i tuoi casi d'uso e l'accesso ai dati modelli ti aiutano a orientare la scelta. Puoi caricare questi set di dati BigQuery per rilevamento automatico dello schema. Se hai requisiti di bassa latenza, puoi caricare i tuoi dati JSON in Bigtable. Se hai requisiti precedenti o le tue applicazioni lavorare con database relazionali, puoi anche caricare set di dati in una relazione .
Per i dati strutturati, come CSV, Parquet, Avro o ORC, puoi utilizzare BigQuery, se hai BI e analisi che utilizzano SQL. Per ulteriori informazioni, vedi come caricare i dati in batch. Se vuoi creare un data lake su tecnologie e standard aperti, puoi per utilizzare Cloud Storage.
Esegui la migrazione dei dati e riduci i costi per HDFS
Cerca modi per spostare i dati HDFS (Hadoop Distributed File System) da on-premise o da un altro cloud provider a un sistema di archiviazione di oggetti più economico. Cloud Storage è la suite scelta comune delle aziende come datastore alternativo. Per sui vantaggi e sugli svantaggi di questa scelta, vedi HDFS e Cloud Storage a confronto.
Puoi trasferire i dati con un metodo push o pull. Entrambi i metodi utilizzano il comando hadoop
distcp
. Per ulteriori informazioni, vedi
Migrazione dei dati HDFS da on-premise a Google Cloud.
Puoi anche usare l'open source Connettore Cloud Storage per consentire a job Hadoop e Spark di accedere ai dati in Cloud Storage. La è installato per impostazione predefinita sui cluster Dataproc e può essere installati manualmente su altri cluster.
Usa l'archiviazione a oggetti per creare un data lake coerente
R data lake è un repository centralizzato progettato per archiviare, elaborare e proteggere grandi quantità di dati strutturati, semistrutturati e non strutturati. Puoi Utilizzare Cloud Composer e Cloud Data Fusion per creare un data lake.
Per creare una piattaforma dati moderna, puoi utilizzare BigQuery come origine dati centrale, anziché Cloud Storage. BigQuery è un data warehouse moderno con la separazione di archiviazione e computing. Un data lake basato su BigQuery consente di eseguire dati e analisi da BigQuery nella console Cloud. Inoltre, consente di accedere ai dati archiviati da altri framework come Apache Spark.
Risorse aggiuntive
- Best practice per Cloud Storage
- Best practice per l'ottimizzazione dei costi di Cloud Storage
- Best practice per garantire la privacy e la sicurezza dei tuoi dati in Cloud Storage
- Best practice per Memorystore
- Ottimizzare lo spazio di archiviazione in BigQuery
- Progettazione dello schema Bigtable
Elabora e trasforma i dati
Applica le seguenti best practice per l'analisi dei dati al tuo ambiente quando mentre elabori e trasformi i dati.
Esplora i software open source che puoi utilizzare in Google Cloud
Molti servizi Google Cloud utilizzano software open source per rendere una transizione senza soluzione di continuità. Google Cloud offre soluzioni gestite e serverless che dispongono di API aperte e sono compatibili con framework open source per ridurre vincoli al fornitore.
Dataproc è un servizio gestito compatibile con Hadoop che ti consente di ospitare software open source, con poco carico operativo. Dataproc è inclusa l'assistenza per Spark, Hive, Pig, Presto e Zookeeper. Offre inoltre Hive Metastore come servizio gestito in modo da rimuovere se stessa come single point of failure nell'ecosistema Hadoop.
Puoi eseguire la migrazione Dataflow se attualmente utilizzi Apache Beam come motore di elaborazione in modalità flusso e batch. Dataflow è un servizio completamente gestito e serverless che utilizza Apache Beam. Usa Dataflow per scrivere job in Beam, ma lascia Google Cloud gestisce l'ambiente di esecuzione.
Se utilizzi CDAP come piattaforma di integrazione dei dati, puoi migrare Cloud Data Fusion per un'esperienza completamente gestita.
Determina le tue esigenze di elaborazione dei dati ETL o ELT
L'esperienza e le preferenze del tuo team aiutano a stabilire la progettazione del sistema per le modalità di trattamento dei dati. Google Cloud ti consente di utilizzare ETL tradizionale o ELT più moderno sistemi di elaborazione dei dati.
Per le pipeline ETL, puoi utilizzare Data Fusion Dataproc o Dataflow.
- Per i nuovi ambienti, consigliamo Dataflow per un un modo unificato per creare applicazioni in modalità flusso e batch.
- Per un approccio completamente gestito, Data Fusion offre e trascinare la GUI per aiutarti a creare pipeline.
Per le pipeline ELT, utilizza BigQuery, che supporta carico dei dati sia in batch che in flussi. Una volta che i dati sono in BigQuery, utilizza SQL per eseguire trasformazioni per ricavare nuovi set di dati per i tuoi casi d'uso aziendali.
Se vuoi modernizzare passare da ETL a ELT, puoi utilizzare Dataform.
Utilizza il framework appropriato per il tuo caso d'uso dei dati
I casi d'uso dei dati determinano quali strumenti e framework usare. Alcune I prodotti Google Cloud sono progettati per gestire tutti i seguenti utilizzi dei dati mentre altri supportano meglio un solo caso d'uso particolare.
- Per un sistema di elaborazione dati batch, puoi elaborare e trasformare
in BigQuery con un'interfaccia SQL familiare. Se disponi
una pipeline esistente in esecuzione su Apache Hadoop o Spark on-premise o
in un altro cloud pubblico, puoi usare Dataproc.
- Puoi anche usare Dataflow se vuoi che una interfaccia di programmazione sia per i casi d'uso batch che per quelli in flussi. Me di modernizzare e utilizzare Dataflow per ETL e BigQuery per ELT.
Per le pipeline di dati in flussi, utilizzi un servizio gestito e serverless come Dataflow, che fornisce windowing, scalabilità automatica modelli di machine learning. Per ulteriori informazioni, vedi Creazione di pipeline di dati pronte per la produzione con Dataflow.
- Se hai team e capacità incentrati sull'analisi e su SQL, puoi anche trasferire flussi di dati in BigQuery.
Per i casi d'uso in tempo reale, come l'analisi di serie temporali o i video in streaming e usare Dataflow.
Mantieni il controllo futuro sul tuo motore di esecuzione
Per ridurre al minimo i vincoli al fornitore ed essere in grado di utilizzare una piattaforma diversa nel utilizza Modello di programmazione Apache Beam e Dataflow come una soluzione serverless gestita. Il modello di programmazione Beam ti consente modificare il motore di esecuzione sottostante, ad esempio passando da Dataflow a Apache Flink o Apache Spark.
Usa Dataflow per importare dati da più origini
Per importare dati da più origini, ad esempio Pub/Sub, Cloud Storage, HDFS, S3 o Kafka, utilizza Dataflow. Dataflow è un servizio serverless gestito che supporta Modelli Dataflow, che consente ai team di eseguire modelli da diversi strumenti.
Dataflow Prime offre la scalabilità automatica orizzontale e verticale delle macchine utilizzate il processo di esecuzione di una pipeline. Offre inoltre funzioni di diagnostica intelligenti consigli che identificano i problemi e suggeriscono come risolverli.
Scopri, identifica e proteggi i dati sensibili
Utilizza le funzionalità di Protezione dei dati sensibili per ispezionare e trasformare dati strutturati e non strutturati. Protezione dei dati sensibili funziona per i dati che si trovano ovunque in Google Cloud, ad esempio Cloud Storage o database. Puoi classificare, mascherare e tokenizzare i dati sensibili per continuare a utilizzarli in modo sicuro per l'elaborazione downstream. Utilizza le funzionalità di Sensitive Data Protection per eseguire azioni come scansionare i dati BigQuery oppure anonimizza e reidentifica le PII in set di dati su larga scala.
Modernizza i tuoi processi di trasformazione dei dati
Utilizza le funzionalità di Dataform scrivere trasformazioni dei dati come codice e iniziare a usare il controllo della versione predefinito. Puoi anche adottare best practice per lo sviluppo software come CI/CD, delle unità di misura e controllo della versione al codice SQL. Dataform supporta tutti i principali servizi cloud di prodotti e database di data warehouse, come PostgreSQL.
Risorse aggiuntive
- Dataproc
- Dataflow
- Data Fusion
- BigQuery
- Dataform
- Protezione dei dati sensibili
Analisi dei dati e data warehouse
Applica le seguenti best practice per l'analisi dei dati e il data warehouse alla tua completamente gestito di Google Cloud.
Verifica le tue esigenze di archiviazione dei dati
Data lake e data warehouse non si escludono a vicenda. I data lake sono utili per l'archiviazione e l'elaborazione di dati non strutturati e semistrutturati. Dati i warehouse sono ideali per l'analisi e la BI.
Rivedi le tue esigenze di dati per determinare dove archiviarli e il prodotto Google Cloud più appropriato per elaborare e analizzare i dati. Prodotti come BigQuery possono elaborare PB di dati e crescere di pari passo con le tue esigenze.
Identifica le opportunità per la migrazione da un data warehouse tradizionale a BigQuery
Esamina i data warehouse tradizionali attualmente in uso completamente gestito di Google Cloud. Per ridurre la complessità e potenzialmente ridurre i costi, per eseguire la migrazione dei tuoi data warehouse tradizionali da un servizio Google Cloud come BigQuery. Per ulteriori informazioni e scenari di esempio, consulta Migrazione dei data warehouse in BigQuery.
Pianifica l'accesso federato ai dati
Esamina i requisiti relativi ai dati e come potresti dover interagire con altri i nostri prodotti e servizi. Identifica le tue esigenze di federazione dei dati e crea una progettazione del sistema appropriata.
Ad esempio, BigQuery consente di definire tabelle esterne che possono leggere dati da altre origini, come Bigtable, Cloud SQL, Cloud Storage o Google Drive. Puoi partecipare a questi con tabelle archiviate in BigQuery.
Usa gli slot flessibili di BigQuery per fornire capacità burst on demand
A volte è necessaria una capacità aggiuntiva per eseguire analisi sperimentali o esplorative che richiede molte risorse di calcolo. BigQuery ti consente di ottenere di capacità di calcolo aggiuntiva sotto forma di slot flessibili. Questi slot flessibili sono utili quando c'è un periodo di domanda elevata o quando per completare un'analisi importante.
Comprendi le differenze nello schema se esegui la migrazione a BigQuery
BigQuery supporta gli schemi star e snowflake, ma per per impostazione predefinita campi nidificati e ripetuti. I campi nidificati e ripetuti possono essere più facili da leggere e correlare rispetto ad altri e schemi di machine learning. Se i dati sono rappresentati in uno schema a stella o a fiocco di neve e eseguire la migrazione a BigQuery, rivedi la progettazione del sistema le modifiche necessarie a processi o analisi.
Risorse aggiuntive
- Best practice per i carichi di lavoro multi-tenant su BigQuery
- Best practice per la sicurezza a livello di riga in BigQuery
- Best practice per le viste materializzate in BigQuery
Report e visualizzazione
Applica le seguenti best practice per report e visualizzazioni alle tue completamente gestito di Google Cloud.
Usa BigQuery BI Engine per visualizzare i tuoi dati
BigQuery BI Engine è un rapido servizio di analisi in memoria. Puoi utilizzare BI Engine per analizzare i dati archiviati in BigQuery con una risposta alle query in frazioni di secondo nel tempo e con un'elevata contemporaneità. BI Engine è integrato l'API BigQuery. Utilizza le funzionalità di capacità BI Engine prenotata per gestire i prezzi on demand o a costo fisso in base alle tue esigenze. BI Engine può funzionare anche con altre dashboard BI o personalizzate che richiedono tempi di risposta inferiori al secondo.
Modernizza i tuoi processi di BI con Looker
Looker è un una moderna piattaforma aziendale per BI, applicazioni di dati e analisi incorporate. Puoi creare contenuti coerenti di dati basati sui tuoi dati in modo rapido e preciso e puoi accedere ai dati all'interno di datastore transazionali e analitici. Looker può anche analizzare i dati su più database e cloud. Se hai già processi e strumenti BI, ti consigliamo di modernizzare una piattaforma centrale come Looker.
Risorse aggiuntive
- Migrazione dei data warehouse a BigQuery: generazione di report e analisi
- Architettura per connettere il software di visualizzazione a Hadoop su Google Cloud
- Velocizzare piccole query in BigQuery con BI Engine
Usa strumenti di gestione del flusso di lavoro
L'analisi dei dati coinvolge molti processi e servizi. I dati si spostano diversi strumenti e pipeline di elaborazione durante il ciclo di vita dell'analisi dei dati. A gestire e mantenere pipeline di dati end-to-end, usare un flusso di lavoro appropriato i nostri strumenti di gestione. Cloud Composer è uno strumento di gestione del flusso di lavoro completamente gestito basato sul framework Apache Airflow progetto.
Puoi utilizzare Cloud Composer per avvia pipeline Dataflow e per utilizzare i modelli di flusso di lavoro Dataproc. Cloud Composer può inoltre aiutarti crea una pipeline CI/CD per testare, sincronizzare ed eseguire il deployment dei DAG o Utilizzare una pipeline CI/CD per i flussi di lavoro di elaborazione dati. Per ulteriori informazioni, guarda Cloud Composer: best practice per lo sviluppo.
Risorse di migrazione
Se utilizzi già una piattaforma di analisi dei dati e vuoi eseguire la migrazione di alcune di tutti i carichi di lavoro su Google Cloud, esamina la seguente migrazione per conoscere best practice e linee guida:
- Indicazioni generali per la migrazione
- Migrazione a Cloud Storage
- Migrazione Pub/Sub
- Migrazione a Bigtable
- Migrazione di Dataproc
- Migrazione a BigQuery
- Migrazione di Composer
Passaggi successivi
Scopri le best practice di progettazione dei sistemi per l'AI e le macchine di Google Cloud apprendimento, tra cui:
- Scopri di più sull'IA e sulle macchine di Google Cloud di machine learning che supportano la progettazione di sistemi.
- Scopri le best practice per l'elaborazione dei dati ML.
- Scopri le best practice per lo sviluppo e l'addestramento dei modelli.
Esplora altre categorie nella Framework dell'architettura come affidabilità, eccellenza operativa e sicurezza, privacy e conformità.