Che cosa sono i big data?

L'espressione big data si riferisce a dati in genere troppo costosi da archiviare, gestire e analizzare utilizzando sistemi di database tradizionali (relazionali e/o monolitici). Di solito, questi sistemi sono inefficienti in termini di costi, in quanto mancano della flessibilità adeguata per archiviare dati non strutturati (come immagini, testo e video), ospitare dati "ad alta velocità" (in tempo reale) o garantire la scalabilità necessaria per supportare volumi di dati molto elevati (nell'ordine dei petabyte).

Per questo motivo, negli ultimi anni si è assistito alla diffusione dell'adozione di nuovi approcci alla gestione e all'elaborazione dei big data, inclusi i sistemi di database Apache Hadoop e NoSQL. Tuttavia, queste opzioni si rivelano spesso complesse in termini di deployment, gestione e utilizzo in un ambiente on-premise.

Da dove vengono i big data?

In passato, la maggior parte dei dati dei clienti poteva essere classificata come transazioni ben strutturate (come quelle bancarie). Tuttavia, la produzione di alcuni anni fa non è nulla in confronto a quella di oggi, un enorme "scarico" quotidiano di contenuti che le organizzazioni producono sotto forma di dati non strutturati di interazioni online con i clienti. La recente nascita del cosiddetto "Internet of Things", il termine che descrive la rete globale di miliardi di dispositivi e sensori interconnessi, ha causato un'esplosione del volume di dati sotto forma di testo, video, immagini e persino audio. Infine, in alcuni settori regolamentati, l'accesso ai dati che altrimenti verrebbero archiviati è spesso necessario per motivi di conformità.

Perché i big data sono importanti?

La capacità di ottenere costantemente valore di business dai dati è ora una caratteristica di organizzazioni di successo in ogni settore e di ogni dimensione. In alcuni settori (come il retail, la pubblicità, i servizi finanziari e un elenco in continua espansione) è persino una questione di sopravvivenza.

L'analisi dei dati restituisce più valore solo quando si dispone dell'accesso a più dati, per cui le organizzazioni di più settori hanno scoperto che i big data sono una ricca risorsa da cui "estrarre informazioni di business approfondite. Inoltre, poiché i modelli di machine learning diventano più efficienti se "addestrati" con più dati, il machine learning e i big data sono altamente complementari.

Come faccio a sapere se i miei dati sono "big"?

Sebbene molte aziende debbano ancora raggiungere l'ordine dei petabyte in termini di volumi di dati, è possibile che questi presentino una delle altre due caratteristiche che definiscono i big data. Una cosa è certa: i tuoi dati cresceranno nel tempo, probabilmente in modo esponenziale. In tal senso, tutti i "big data" iniziano come "small data".

Perché il cloud è la migliore piattaforma per i big data?

Il cloud computing offre accesso all'archiviazione, all'elaborazione e all'analisi dei dati su una base più scalabile, flessibile, economica e persino sicura di quanto si possa ottenere con un deployment on-premise. Quando i volumi di dati crescono in modo esponenziale, queste caratteristiche sono essenziali per i clienti, sia per rendere disponibili le risorse di archiviazione e di elaborazione in base alle esigenze sia per ottenere valore da tali dati. Inoltre, per quelle organizzazioni che sono solo all'inizio del percorso verso l'analisi dei big data e il machine learning e vogliono evitare le potenziali complessità dei sistemi di big data on-premise, il cloud offre una soluzione per sperimentare i servizi gestiti (come Google BigQuery e Google Cloud ML Engine) in modalità di pagamento a consumo.

Ulteriori informazioni: