Big Data

Big data ("grandi dati" in inglese) è un termine adoperato per descrivere l'insieme delle tecnologie e delle metodologie di analisi di dati massivi. Il termine indica la capacità di estrapolare, analizzare e mettere in relazione un'enorme mole di dati eterogenei, strutturati e non strutturati, per scoprire i legami tra fenomeni diversi e prevedere quelli futuri.

Non esiste ancora una definizione rigorosa del termine big data, mentre c’è un acceso dibattito sull'origine dell’espressione e su come definirla esattamente. Nel 2011, Teradata afferma che "Un sistema di big data eccede/sorpassa/supera i sistemi hardware e software comunemente usati per catturare, gestire ed elaborare i dati in un lasso di tempo ragionevole per una comunità/popolazione di utenti anche massiva." Un'ulteriore definizione di big data è stata data dal McKinsey Global Institute: "Un sistema di Big Data si riferisce a dataset la cui taglia/volume è talmente grande che eccede la capacità dei sistemi di database relazionali di catturare, immagazzinare, gestire ed analizzare."

Per poter parlare di big data il volume dei dati deve essere correlato alla capacità del sistema di acquisire le informazioni così come arrivano dalle differenti sorgenti dati che sono adoperate. Quindi, un sistema diventa big quando aumenta il volume dei dati e allo stesso tempo aumenta la velocità/flusso di informazioni che il sistema deve poter acquisire e gestire per secondo. Negli ultimi due anni c'è stato un incremento del 90% dei dati prodotti nel mondo. Le aziende potrebbero arrivare a produrre zettabyte di dati, ad esempio considerando dati provenienti da sensori, dati satellitari, finanziari, telefonici, ecc.

Il progressivo aumento della dimensione dei dataset è legato alla necessità di analisi su un unico insieme di dati, con l'obiettivo di estrarre informazioni aggiuntive rispetto a quelle che si potrebbero ottenere analizzando piccole serie, con la stessa quantità totale di dati. Ad esempio, l'analisi per sondare gli "umori" dei mercati e del commercio, e quindi del trend complessivo della società e del fiume di informazioni che viaggiano e transitano attraverso Internet.

Big data rappresenta anche l'interrelazione di dati provenienti potenzialmente da fonti eterogenee, quindi non soltanto i dati strutturati, come i database, ma anche non strutturati, come immagini, email, dati GPS, informazioni prese dai social network.

Con i big data la mole dei dati è dell'ordine degli zettabyte, ovvero miliardi di terabyte. Quindi si richiede una potenza di calcolo parallelo e massivo con strumenti dedicati eseguiti su decine, centinaia o anche migliaia di server.

fonte wikipedia