Big data cosa sono e perché sono importanti per le aziende

Tempo lettura 12
Valutazione: (14)

Definizione di Big data

I Big data sono insiemi di dati dal volume talmente elevato da non poter essere gestiti dagli strumenti convenzionali, bensì da tecnologie e metodi innovativi in grado di raccoglierli, elaborarli e analizzarli, in modo da poterli sfruttare per fare previsioni su trend di comportamento, per esempio, e così prendere delle decisioni più efficienti.

Cosa sono i big data?

L’espressione “big data” può essere impiegata sia in riferimento alla grande velocità con cui vengono attualmente generati i dati che alla capacità sempre crescente di immagazzinarli, elaborarli ed analizzarli, come si legge all’interno di un articolo di IBM. Anche noti come “megadati“, i big data sono stati definiti da Gartner, nel 2001, come «risorse informative a elevato volume, velocità e varietà che richiedono forme di elaborazione delle informazioni economiche e innovative per potenziare la comprensione, la presa di decisioni e l’automazione dei processi».

Le 5V dei big data

La definizione big data mette in evidenza tre proprietà o caratteristiche:

elevato volume: il riferimento è all’enorme mole di dati generata ogni secondo, dalle email ai messaggi e ai post sui social network (foto, video, dati generati da sensori), fino a tante altre tipologie di contenuti prodotti ogni secondo. Oggi si parla infatti ormai di zettabyte e addirittura di brontobyte di dati, quantità ben superiori al terabyte. Si tratta ovviamente di una quantità di dati che non può essere immagazzinata o elaborata dai sistemi convenzionali di gestione dei dati e che richiede delle tecnologie ad hoc;
elevata velocità: riguarda la velocità con cui vengono generati nuovi dati ma anche la velocità con cui si “spostano” gli stessi. Basti pensare ai contenuti virali e alla rapidità con cui vengono condivisi dagli utenti tramite i social network, ma anche a procedure che richiedono spostamenti di dati che avvengono in millesimi di secondi, come il controllo sicurezza che viene effettuato in una transazione con carta di credito per evitare situazioni di frode;
grande varietà: si tratta di differenti tipi di dati che vengono generati, raccolti e analizzati. Questi possono essere strutturati (ossia organizzati secondo schemi predefiniti, in tabelle per esempio, come i dati di tipo finanziario, dati di vendita per paese o per tipo di prodotto, ecc.) e dati non strutturati. Buona parte dei dati generati, però, è non strutturata e può essere di tanti tipi diversi (fotografie, messaggi scritti, registrazioni vocali, video, ecc.).

Più di recente, poi, sono state analizzate altre due dimensioni che interessano i big data:

veracità: la seconda parte della definizione di Gartner sottolinea l’eventuale utilità dei big data per la presa di decisioni. Proprio considerando che i dati analizzati possano essere usati come base per la presa di decisioni, si intuisce l’importanza di effettuare un “controllo qualità” adeguato. Chiaramente, il grande volume di dati generati al secondo rende difficile garantirne l’affidabilità e l’accuratezza. A seconda della tipologia di dati, essi possono essere più o meno facili da controllare (si pensi per esempio ai tweet o ad altri post pubblicati sui social network);
valore: si tratta della capacità di “trasformare” i dati in valore e cioè di sfruttarli per esempio per fare delle previsioni che consentono di ottimizzare la presa di decisione. Il classico esempio è quello di un’azienda che si basa sull’analisi dei dati relativi ai consumi per prevedere il comportamento di acquisto dei consumatori e proporre dei prodotti, dei servizi o dei cambiamenti nel business, sulla base di queste previsioni. Rifacendoci ancora alla definizione di Gartner, questa veloce analisi di grandi volumi di dati consente di ottimizzare la presa di decisione, portando all’automazione dei processi per quanto riguarda per esempio la capacità di fornire delle risposte adeguate (sia in termini di assistenza al cliente che di scelta degli annunci pubblicitari), in maniera veloce, ai clienti, sulla base dei loro comportamenti online (e anche offline).

Come distinguere i big data dagli altri dati?

Occorre specificare che non esiste una definizione unica dell’espressione, poiché il fenomeno viene descritto partendo da diversi punti di vista o comunque mettendo in risalto aspetti diversi. Tanti autori però descrivono i big data come un insieme di dati il cui volume è talmente grande «da superare la capacità dei convenzionali strumenti di gestione di dati di raccoglierli, immagazzinarli, gestirli e analizzarli» (McKinsey, 2011).

Come si legge all’interno del report “Big data: the next frontier for innovation, competition, and productivity“, McKinsey non definisce i big data «in termini di volume superiore ad un certo numero di terabyte». Questo perché si presume che con il progresso a livello tecnologico aumenti anche il volume di dati ritenuti appunto big data. Per questa ragione, la definizione di McKinsey non è statica, ma si “adatta” al progresso tecnologico.

Una definizione simile viene fornita anche da O’Reilly Media. La casa editrice aggiunge che si tratta di un volume di «dati troppo grande, che si sposta troppo velocemente o che non si adegua all’architettura dei database usati». Viene specificato, inoltre, che per riuscire a «estrarre valore da questi dati, bisogna scegliere un metodo alternativo per elaborarli».

Origine dei big data: brevi cenni storici

Per molti anni la raccolta e immagazzinamento di grandi volumi di dati sono stati appannaggio dei governi. Il primo dispositivo di elaborazione di dati è nato nel 1943 ed è stato sviluppato dal governo britannico per decifrare le comunicazioni provenienti dal regime nazista, durante la seconda guerra mondiale. Colossus era in grado di identificare dei modelli o pattern all’interno dei messaggi a una velocità di 5mila caratteri per secondo, un’enorme innovazione per l’epoca.

Nel 1965 il governo americano ha creato un data center per immagazzinare dati dei cittadini, ma la tecnologia in questione era ancora ben lontana da quella a cui è possibile accedere oggi. Con la creazione del World Wide Web per la raccolta e lo scambio di dati, però, servivano strumenti più sofisticati. Nel 1992 il Teradata DBC 1012 è così diventato il primo sistema in grado di memorizzare e analizzare grandi volumi di dati corrispondenti a 1 Terabyte (l’equivalente di 1000 GB).

Nel 2005 Roger Magoulas di O’Reilly Media viene menzionato come uno dei primi ad aver utilizzato l’espressione “big data”. A partire da quest’anno social come Facebook e YouTube hanno contribuito alla crescita esponenziale dei dati online generati dagli utenti. Sempre nel 2005 è stato creato Hadoop di Yahoo! e poco più tardi Spark, framework open source che sarebbero diventati cruciali per la gestione e l’immagazzinamento veloce ed efficiente dei big data.

Successivamente, con lo sviluppo dell’ internet of things sono state raccolte grandi quantità di dati provenienti da ogni tipo di oggetto e dispositivo, facilitando in questo modo l’accesso alle aziende a nuove tipologie di dati che consentono di identificare dei pattern di utilizzo di prodotti da parte dei consumatori e, di conseguenza, di ottimizzare le soluzioni offerte. Aumenta così in maniera massiccia non solo il volume di dati raccolti, ma anche la varietà di questi ultimi, che negli ultimi anni vengono sfruttati dalle aziende per le più svariate applicazioni.

Analisi dei big data

L’analisi dei big data, anche detta “big data analytics”, consiste nell’uso di tecniche di analisi altamente sofisticate su grandi volumi di dati (strutturati, semi-strutturati e non strutturati), allo scopo di descrivere degli eventi o delle situazioni, identificare dei pattern, delle correlazioni o delle tendenze e trasformare così i dati in informazioni utili e funzionali per l’ottimizzazione della presa di decisioni.

Infatti, la big data analytics consente a diversi attori (analisti, business e ricercatori) di prendere delle decisioni in maniera veloce e basate su dati concreti che, senza gli strumenti adeguati, risultavano prima inaccessibili. Attualmente, ci sono diverse aziende che mettono a disposizione degli strumenti di business intelligence e di analytics in grado di gestire questi dati: è il caso per esempio di Microsoft, Qlick o Tableau.

Grazie a tecnologie, tecniche o strumenti come machine learning, analitica predittiva, elaborazione di linguaggio naturale e data mining è oggi possibile analizzare grandi volumi di dati di diversi tipi ed estrarre informazioni rilevanti per i più svariati settori e utili a diversi fini.

Tipi di data analytics

È possibile distinguere quattro categorie principali di data analytics, a seconda dello scopo dell’analisi:

analisi descrittiva: risulta essenziale per la realizzazione di report e viene realizzata effettuando un’analisi riassuntiva e appunto descrittiva degli eventi che consenta di avere una visione globale di un contesto o di una situazione e di rispondere a domande come “Cosa è successo?“;
analisi predittiva: è una delle tipologie di data analytics più usate e consente di identificare delle tendenze, delle correlazioni o delle relazioni di causa-effetto fra i dati. È un tipo di analisi che permette di delineare dei scenari di sviluppo futuri in differenti contesti o situazioni. L’analisi predittiva consente di determinare “Cosa potrebbe accadere in futuro“;
analisi prescrittiva: grazie a innovazioni come il maching learning e, dunque, grazie al supporto dell’intelligenza artificiale è oggi possibile non solo fare delle previsioni relativamente a risultati specifici, ma anche riguardo alle azioni ottimali da intraprendere. L’analisi prescrittiva consente di comprendere “Cosa succederebbe se scegliessimo l’opzione A“, risparmiando così le risorse che verrebbero impiegate per provare tutte le soluzioni a disposizione e consentendo di effettuare la scelta (probabilmente) più efficace fin dall’inizio. Tale analisi consente di rispondere alla domanda “Come potremmo rispondere ad un evento futuro?“;
analisi diagnostica: è il tipo di analisi che serve a identificare nello specifico il perché di qualcosa o di un dato evento, consentendo di trovare le cause che hanno portato alla situazione attuale. A tale scopo le aziende spesso usano tecniche come drill-down e data mining per determinare le cause di trend o avvenimenti e per poter così identificare, ripetere e ottimizzare le azioni che hanno portato a dei risultati positivi. Questo genere di analisi consente di rispondere a domande come “Perché qualcosa è successo?“.

Applicazioni dei big data

Governi e politica

L’analisi dei big data può essere sfruttata in diversi modi per cause di interesse pubblico. Si pensi, per esempio, alle applicazioni da parte di un ente governativo per la sicurezza stradale, ottenendo così dati relativi agli incidenti stradali o a zone e orari più trafficati per guidare la pianificazione urbana e rendere più sicure le strade.

Grandi volumi di dati vengono anche usati in periodi di elezioni, da un lato per conoscere orientamenti, abitudini e preferenze dei cittadini, dall’altro per fare previsioni sui risultati elettorali.

Leggi anche:

Elezioni 2018 sui social: dai protagonisti ai temi più discussi e le previsioni di voto

Educazione, agricoltura e salute

Nel campo dell’agricoltura le aziende di biotecnologia riescono oggi grazie ai dati provenienti da sensori ad hoc a ottimizzare l’efficienza delle coltivazioni. Attraverso simulazioni o test di coltivazioni vengono monitorate le risposte delle piante a differenti condizioni climatiche o comunque a delle variazioni nell’ambiente. Sulla base dei dati raccolti è possibile adeguare, man mano, la temperatura, l’acqua, la composizione della terra, tra i vari fattori, per riuscire a identificare qual è l’ambiente ottimale per la crescita delle differenti tipologie di piante.

In ambito medico, invece, le potenzialità della big data analysis sono grandi: dei sensori altamente sofisticati e particolarmente precisi vengono inseriti sia negli strumenti medici che nel corpo dei pazienti, ma anche nei dispositivi indossabili come orologi o occhiali. Questi ultimi, per esempio, consentono di monitorare in tempo reale lo stato di salute di pazienti con problemi specifici, permettendo ai medici di ottenere delle informazioni molto precise sulla situazione dell’individuo e di poter agire in maniera tempestiva. Ovviamente una grande raccolta di dati in questo ambito risulta di particolare rilevanza per la ricerca di nuovi farmaci e terapie più efficaci.

Sono stati sviluppati, poi, nel campo dell’educazione diversi software in grado di sfruttare dati sull’apprendimento e la valutazione degli studenti per proporre dei piani didattici che si adattino alle loro esigenze. È il caso dell’applicazione Knewton che fornisce al professore delle previsioni sui contenuti appresi da uno studente, individuando, sulla base di queste, i moduli più adatti al caso specifico. Altre app, come iParadigms, consentono di confrontare la grafia degli elaborati degli studenti, garantendo così che tutti i materiali consegnati siano stati scritti effettivamente dallo studente in questione.

Aziende di vari settori

Sempre più imprese ricorrono alla figura del data scientist perché i risultati positivi di un’analisi efficiente dei dati, in termini di profitto, sono evidenti. Più sono grandi il volume e la varietà dei dati, più funzionale risulterà la loro analisi ai fini del business. Dati provenienti per esempio dai social network possono aiutare a definire bene il target (o i differenti target di un’azienda) e a migliorare i prodotti o i servizi sulla base delle preferenze espresse dagli utenti. Si pensi a casi come quello di Netflix che sfrutta i dati di visualizzazione e le preferenze degli utenti che usano la piattaforma di streaming per creare dei prodotti audiovisivi mirati e per ottimizzare anche la piattaforma stessa.

Le tecniche di analytics consentono inoltre di guidare la progettazione di campagne di marketing in maniera mirata. È possibile prevedere quali prodotti potrebbero avere un maggior o minor successo sul mercato una volta lanciati e comprendere se una strategia di rebranding potrebbe essere adatta o meno al target che si intende raggiungere.

Grazie all’IOT le aziende possono anche ottenere dei dati provenienti dai macchinari industriali e così identificare velocemente eventuali problemi tecnici e risolverli in maniera più efficiente. Ugualmente importante è l’utilizzo di questi dati per evitare casi di frode o almeno per ridurne i danni, cercando di prevenire situazioni future. Infatti, è possibile migliorare la qualità dei prodotti e processi produttivi, ottimizzando la loro manutenzione presso i clienti e abbassando anche i costi di produzione grazie alla riduzione di guasti inaspettati.

La gestione dei Big data in campo privacy

Attualmente buona parte delle azioni che vengono compiute quotidianamente lascia una traccia, dalle ricerche online agli acquisti, fino alle telefonate. Con i dispositivi di IOT anche gli elettrodomestici che si hanno in casa sono connessi tra di loro, scambiando e generando enormi quantità di dati, ogni giorno, sui consumatori.

Ovviamente, l’evoluzione degli strumenti di raccolta, analisi e immagazzinamento dei dati ha sollevato delle questioni relative alla privacy degli utenti e al modo in cui i loro dati possono diventare accessibili a terzi senza che ci sia piena consapevolezza da parte dell’utente.

È nato quindi anche il bisogno di sviluppare normative che impongano delle linee guida alle aziende o organizzazioni relativamente all’uso dei dati messi a loro disposizione e, contemporaneamente, tutelando gli utenti interessati. Nel 2016 è stato adottato il Regolamento Generale sulla Protezione dei Dati proprio allo scopo di rafforzare la tutela dei dati personali dei cittadini e residenti nell’Unione Europea. Tuttavia, l’adeguamento al GDPR, attualmente, secondo i risultati di alcune indagini, sembra lasciare ancora a desiderare.

Leggi anche:

GDPR e il "nuovo" consenso al trattamento dei dati personali

Rimane aperta, dunque, la discussione per cercare delle soluzioni che consentano di trovare un equilibrio tra un utilizzo ottimale dei dati degli utenti, da parte di aziende e altri enti, e il rispetto della loro privacy.

Leggi anche:

Big data ed etica: verso un uso più consapevole dei dati personali

Esempi di big data: i social media come fonte di dati preziosi

Sui social media , da diversi anni, milioni di persone comunicano e raccontano la propria vita ogni giorno, condividendo esperienze personali, preferenze, dubbi e opinioni su ogni tema e nei più svariati modi (sotto forma di testo, commento, foto, video, messaggio privato ma anche utilizzando strumenti come gli hashtag ).

Come ha fatto notare Mauro Vecchio, CMO di Datalytics, in un’intervista a Inside Marketing, «che arrivino in veste di consumatori, spettatori, opinionisti o tifosi, i cittadini digitali scelgono i social per la loro immediatezza e universalità». Da questo punto di vista, i social media sono diventati delle fonti preziose di dati, che aziende in diversi settori sfruttano ogni giorno, per ottimizzare i propri prodotti e servizi e rispondere alle esigenze e aspettative espresse dai consumatori in questi canali.

L’esperto menziona, a questo proposito, l’esempio della social TV e di come gli spettatori siano particolarmente propensi a guardare i programmi televisivi e a commentarli sulle reti sociali.

«Grandi e piccoli broadcaster hanno ormai capito la legge dell’hashtag: nessun programma può diventare un fenomeno social senza una fervida attività in second screen. Ecco perché monitorare e coinvolgere gli spettatori collegati via tablet, smartphone o PC diventa attività fondamentale per tutti quei programmi che mirano al successo sui canali digitali.»

Ciò è valido non solo nel mondo dello spettacolo e dell’intrattenimento: in qualsiasi altro settore la brand reputation può e deve essere monitorata attraverso l’analisi di user generated content e dunque di tutti i dati pubblicati dagli utenti sul brand online. Il monitoraggio del sentiment e l’analisi delle conversazioni attorno alla marca e ai relativi prodotti offre all’azienda una grande mole di dati da cui trarre insight su come migliorare la propria offerta.

«La diffusione di un hashtag negativo nell’universo semantico di un brand ha evidentemente delle ripercussioni in termini di reputation – sottolinea ancora l’esperto –. Un marchio ha oggi la necessità di tenere la situazione sotto controllo, capire chi sta parlando e come ne sta parlando. […] Un’attenta fase di ascolto della Rete diventa perciò un’opportunità unica di engagement e, di conseguenza, una leva del marketing per aumentare i profitti. Da questo nasce l’esigenza di creare degli strumenti per l’analisi “qualitativa” dei dati d’ascolto.»

Ci sono a questo scopo delle piattaforme che consentono il monitoraggio dei big data derivanti dai social media, analizzandone il sentiment, monitorando l’engagement e aiutando le aziende a identificare e a gestire eventuali crisi sui social che coinvolgano il brand, i suoi prodotti/servizi o la relativa categoria merceologica.

Resta aggiornato!

Iscriviti gratuitamente per essere informato su notizie e offerte esclusive su corsi, eventi, libri e strumenti di marketing.

Newsletter Telegram GoogleNews