Rasa umană se află acum într-o intersecție incredibilă de volume de date fără precedent, generate de hardware-ul din ce în ce mai mic și puternic și analizate prin algoritmi, procesul a ajutat la dezvoltare. Nu este pur și simplu o chestiune de volum, care de la sine este o provocare dificilă.
După cum a fost formalizată de compania de cercetare Gartner în 2001 și apoi reprimată și extinsă de alte companii, cum ar fi IBM, datele mari pot fi rezumate pe patru V s care reprezintă caracteristicile cheie ale acestora:
Volumul: Cantitatea de date
Viteza: Viteza generării de date
Varietatea: :
Calitatea și vocea autoritară a datelor (cuantificarea erorilor, a datelor nepotrivite și a zgomotului amestecat cu semnale), o măsură a incertitudinii datelor Fiecare caracteristică mare de date oferă o provocare și o oportunitate. De exemplu, volumul analizează cantitatea de date utile. Ceea ce o organizație consideră date mari ar putea fi date mici pentru altul. Incapacitatea de a procesa datele pe o singură mașină nu face ca datele să fie mari. Ceea ce diferențiază datele mari de datele de afaceri ca de obicei este faptul că forțează o organizație să-și revizuiască metodele și soluțiile răspândite și împinge tehnologiile și algoritmii actuali să privească înainte.
Wired
la acel moment, asupra volumului mare de date care poate ajuta descoperirile științifice în afara metodei științifice. Autorul se bazează pe exemplul Google în sectoarele de publicitate și de traducere, unde compania ar putea obține o importanță fără a folosi modele sau teorii specifice, ci prin aplicarea algoritmilor pentru a învăța din date. Ca și în publicitate, datele din domeniul științei (fizică, biologie) pot sprijini inovația care permite oamenilor de știință să abordeze probleme fără ipoteze, dar luând în considerare variațiile găsite în cantități mari de date și prin algoritmi de descoperire.
Caracterul de veridicitate ajută la democratizarea datelor în sine. În trecut, organizațiile au stocat date, deoarece erau prețioase și dificil de obținut. În acest moment, diverse surse creează date în cantități atât de în creștere încât acumularea lor este lipsită de sens (90% din datele lumii au fost create în ultimii doi ani), astfel încât nu există niciun motiv pentru a limita accesul. Datele se transformă într-o astfel de marfă, încât există numeroase programe de date deschise care se desfășoară în întreaga lume.(Statele Unite au o tradiție îndelungată în accesul liber, primele programe de date deschise datează din anii 1970, când Administrația Națională Oceanică și Atmosferică, NOAA, a început să elibereze în mod liber datele meteorologice către public.) Totuși, deoarece datele au devenit o marfă, incertitudinea acestor date a devenit o problemă. Nu mai știți dacă datele sunt complet adevărate, deoarece este posibil să nu știți chiar sursa acesteia.
Datele au devenit atât de omniprezente încât valoarea lor nu mai există în informațiile actuale (cum ar fi datele stocate în baza de date a firmei). Valoarea datelor există în modul în care o utilizați. Aici intră în joc algoritmi și schimbă jocul. O companie ca Google se alimentează de la date disponibile în mod liber, cum ar fi conținutul site-urilor web sau textul găsit în textele și cărțile disponibile publicului. Cu toate acestea, valoarea pe care Google o extrag din date derivă în principal din algoritmii săi. De exemplu, valoarea datelor se găsește în algoritmul PageRank (ilustrat în Capitolul 11), care este fundamentul afacerii companiei Google. Valoarea algoritmilor este valabilă și pentru alte companii. Motorul recomandat de Amazon contribuie cu o parte semnificativă a veniturilor companiei. Multe firme financiare folosesc tranzacții algoritmice și sfaturi robo-uri, punând la dispoziție date stoc disponibile în mod liber și informații economice pentru investiții.