Dataflow

Elaborazione unificata dei dati in modalità flusso e batch serverless, veloce e conveniente.

Prova Dataflow gratuitamente
  • action/check_circle_24px Creato con Sketch.

    Servizio di elaborazione dati completamente gestito

  • action/check_circle_24px Creato con Sketch.

    Provisioning e gestione automatizzati delle risorse di elaborazione

  • action/check_circle_24px Creato con Sketch.

    Scalabilità automatica orizzontale delle risorse worker per ottimizzare l'utilizzo delle risorse

  • action/check_circle_24px Creato con Sketch.

    Innovazione guidata dalla community del software open source con l'SDK Apache Beam

  • action/check_circle_24px Creato con Sketch.

    Elaborazione "exactly-once" affidabile e coerente

Analizza rapidamente i flussi di dati

Dataflow velocizza e semplifica lo sviluppo di pipeline di dati in modalità flusso garantendo una latenza dei dati minore.

Semplifica operazioni e gestione

Puoi consentire ai team di concentrarsi sulla programmazione invece che sulla gestione dei cluster di server grazie all'approccio serverless di Dataflow, che elimina i problemi di overhead operativo dai carichi di lavoro di data engineering.

Riduci il costo totale di proprietà

Grazie alla scalabilità automatica delle risorse e all'ottimizzazione dei costi per l'elaborazione batch, Dataflow offre una capacità praticamente illimitata per gestire i carichi di lavoro durante i picchi e i periodi di punta stagionali senza spendere troppo.

Funzionalità principali

Gestione automatizzata delle risorse e ridistribuzione dinamica del lavoro

Dataflow automatizza il provisioning e la gestione delle risorse di elaborazione per ridurre al minimo i tempi di latenza e ottimizzare l'utilizzo, evitando la necessità di avviare o prenotare le istanze manualmente. Anche il partizionamento del lavoro è automatizzato e ottimizzato per ridistribuire dinamicamente il lavoro in sospeso. Non è necessario andare alla ricerca di tasti di scelta rapida o pre-elaborare i dati di input.

Scalabilità automatica orizzontale

La scalabilità automatica orizzontale delle risorse worker per ottimizzare la velocità effettiva si traduce in un migliore rapporto prezzo-prestazioni complessivo.

Prezzi flessibili di pianificazione delle risorse per l'elaborazione batch

Per consentire un'elaborazione flessibile nei tempi di pianificazione dei job, come i job notturni, la pianificazione flessibile delle risorse (FlexRS) offre prezzi inferiori per l'elaborazione batch. Questi job flessibili sono inseriti in una coda con la garanzia che verranno recuperati per l'esecuzione entro un lasso di tempo di sei ore.

Visualizza tutte le funzionalità

Clienti

Dow Jones
Dow Jones sfrutta al meglio i set di dati di eventi storici chiave con Dataflow.
Leggi la storia

La storia in breve

  • Oltre 30 anni di dati di notizie sintetizzati per valutare l'impatto sul business

  • Svelate relazioni nascoste tra i dati e insight

  • Prototipo di Knowledge Graph distribuito con facilità in 10 settimane

Partner

Documentazione

Guida rapida
Guida rapida di Dataflow mediante Python

Configura un progetto Google Cloud e un ambiente di sviluppo Python, scarica l'SDK Apache Beam, quindi esegui e modifica l'esempio WordCount nel servizio Dataflow.

Tutorial
Utilizzo di Dataflow SQL

Crea una query SQL ed esegui il deployment di un job Dataflow per eseguire la query SQL dall'interfaccia utente di Dataflow SQL.

Tutorial
Installazione dell'SDK Apache Beam

Installa l'SDK Apache Beam per eseguire le pipeline nel servizio Dataflow.

Tutorial
Machine learning con Apache Beam e TensorFlow

Preelabora, addestra ed esegui previsioni su un modello di machine learning per l'energia molecolare utilizzando Apache Beam, Dataflow e TensorFlow.

Tutorial
Qwiklab: Big Data and Machine Learning Fundamentals

Questo corso on demand di una settimana propone un'introduzione alle funzionalità di analisi dei dati e machine learning di Google Cloud, inclusa la creazione di pipeline con Dataflow.

Nozioni di base su Google Cloud
Risorse Dataflow

Trova informazioni su prezzi, quote per le risorse, domande frequenti e altro ancora.

Tutorial
Scopri cosa puoi creare su Google Cloud

Scopri le guide tecniche sulle risorse di Google Cloud relative a Dataflow.

Casi d'uso

Caso d'uso
Analisi dei flussi

L'analisi dei flussi di Google rende i dati più organizzati, utili e accessibili fin dal momento in cui vengono generati. Basata su Dataflow insieme a Pub/Sub e BigQuery, la nostra soluzione per i flussi di dati fornisce le risorse necessarie per importare, elaborare e analizzare volumi variabili di dati in tempo reale per ottenere degli insight sull'attività in tempo reale. Questo provisioning astratto riduce la complessità e rende l'analisi dei flussi accessibile sia ai data analyst che ai data engineer.

Diagramma dell'analisi dei flussi di Dataflow
Caso d'uso
AI in tempo reale

Dataflow integra gli eventi di flusso nell'ambiente AI Platform e TensorFlow Extended (TFX) di Google Cloud per consentire l'analisi predittiva, il rilevamento delle frodi, la personalizzazione in tempo reale e altri casi d'uso di analisi avanzata. TFX utilizza Dataflow e Apache Beam come motore di elaborazione di dati distribuiti al fine di gestire vari aspetti del ciclo di vita ML, tutti supportati con CI/CD per ML tramite pipeline Kubeflow.

Caso d'uso
Elaborazione dei dati di sensori e log

Ricava insight sull'attività dalla tua rete di dispositivi globale grazie a una piattaforma IoT intelligente.

Tutte le funzionalità

Streaming Engine Streaming Engine separa il computing dall'archiviazione dello stato e trasferisce parte dell'esecuzione delle pipeline dalle VM worker al servizio Dataflow backend, migliorando notevolmente la scalabilità automatica e la latenza dei dati.
Scalabilità automatica La scalabilità automatica consente al servizio Dataflow di scegliere automaticamente il numero appropriato di istanze worker necessarie per eseguire il tuo job. Il servizio Dataflow può anche riallocare dinamicamente più o meno worker durante il runtime in base alle caratteristiche del tuo job.
Dataflow Shuffle Dataflow Shuffle, basato su servizi, trasferisce l'operazione di shuffle, usata per il raggruppamento e l'unione dei dati, dalle VM worker al servizio Dataflow backend per le pipeline batch. Le pipeline batch possono essere facilmente scalate, senza necessità di tuning, in centinaia di terabyte.
Dataflow SQL Dataflow SQL ti permette di sfruttare le tue competenze su SQL per sviluppare pipeline di Dataflow in modalità flusso direttamente dall'interfaccia utente web di BigQuery. Puoi unire flussi di dati di Pub/Sub a file di Cloud Storage o tabelle di BigQuery, scrivere i risultati in BigQuery e creare dashboard in tempo reale con Fogli Google o altri strumenti di business intelligence.
Pianificazione flessibile delle risorse (FlexRS) Dataflow FlexRS riduce i costi di elaborazione batch grazie a tecniche di pianificazione avanzate, al servizio Dataflow Shuffle e a una combinazione di istanze di macchine virtuali prerilasciabili e VM standard. 
Modelli Dataflow Con i modelli Dataflow puoi condividere facilmente le tue pipeline con i membri del team e dell'intera organizzazione oppure sfruttare i numerosi modelli forniti da Google per implementare attività di elaborazione dati semplici ma utili. Con i modelli flessibili, puoi creare un modello da qualsiasi pipeline Dataflow.
Integrazione con Notebooks Crea in modo iterativo pipeline complete con AI Platform Notebooks ed esegui il deployment con l'esecutore di Dataflow. Genera pipeline Apache Beam dettagliate ispezionando i grafici delle pipeline in un flusso di lavoro Read–Eval–Print Loop (REPL). Disponibile tramite AI Platform di Google, Notebooks ti consente di scrivere pipeline in un ambiente intuitivo con i più recenti framework di data science e machine learning.
Monitoraggio incorporato La funzionalità di monitoraggio incorporato di Dataflow ti consente di accedere direttamente alle metriche dei job per facilitare la risoluzione dei problemi relativi alle pipeline in modalità batch e flusso. Puoi accedere ai grafici di monitoraggio con visibilità a livello sia di fase che di worker e impostare avvisi per condizioni come dati inattivi ed elevata latenza di sistema.
Chiavi di crittografia gestite dal cliente Puoi creare una pipeline in modalità batch o flusso protetta con una chiave di crittografia gestita dal cliente (CMEK) o accedere a dati protetti tramite CMEK in origini e sink.
Controlli di servizio VPC di Dataflow L'integrazione di Dataflow con i Controlli di servizio VPC aumenta la sicurezza dell'ambiente di elaborazione dati migliorando la tua capacità di ridurre il rischio di esfiltrazione di dati.
IP privati La disattivazione degli IP pubblici assicura una maggiore protezione dell'infrastruttura di elaborazione dati. Evitando di utilizzare indirizzi IP pubblici per i worker di Dataflow, riduci anche il numero di indirizzi IP pubblici conteggiati nella tua quota di progetto Google Cloud.

Prezzi

I job di Dataflow vengono fatturati al secondo, sulla base dell'utilizzo effettivo dei worker in modalità batch o flusso di Dataflow. Ulteriori risorse, come Cloud Storage o Pub/Sub, vengono fatturate in base al prezzo del servizio corrispondente.

Partner

I partner di Google Cloud hanno sviluppato integrazioni con Dataflow che consentono di eseguire in modo rapido e semplice attività avanzate di elaborazione dati di qualsiasi dimensione.