Cuprins:
Video: Genetic Engineering Will Change Everything Forever – CRISPR 2024
Produsele tradiționale de business intelligence nu au fost proiectate cu adevărat pentru a gestiona date importante, astfel încât acestea pot necesita modificări. Acestea au fost concepute pentru a lucra cu date foarte bine structurate, bine înțelese, adesea stocate într-un depozit de date relaționale și afișate pe desktop sau laptop. Această analiză tradițională a inteligenței de afaceri se aplică în mod obișnuit la instantanee de date, mai degrabă decât la întreaga cantitate de date disponibile. Ce diferă de analiza datelor?
Datele de date mari
Datele mari constau în date structurate, semi-structurate și nestructurate. De multe ori aveți multe și puteți fi destul de complexe. Când vă gândiți să o analizați, trebuie să fiți conștienți de potențialele caracteristici ale datelor dvs.:
-
Poate proveni din surse neîncrezătoare. Analiza mare a datelor implică de multe ori agregarea datelor din diferite surse. Acestea pot include atât surse de date interne cât și externe. Cât de demne de încredere sunt aceste surse externe de informații? De exemplu, cât de demn de încredere sunt datele de social media, cum ar fi un tweet? Informațiile pot proveni dintr-o sursă neconfirmată. Integritatea acestor date trebuie luată în considerare în analiză.
-
Poate fi murdar. Dirty data se referă la date inexacte, incomplete sau eronate. Aceasta poate include erorile cuvintelor; un senzor care este rupt, nu este corect calibrat sau corupt într-un fel; sau chiar date duplicate. Cercetătorii de date dezbat despre unde să curățească datele - fie aproape de sursă, fie în timp real.
Desigur, o școală de gândire spune că datele murdare nu ar trebui să fie curățate deloc, deoarece ar putea conține valori interesante. Strategia de curățare va depinde probabil de sursa și tipul de date și de scopul analizei dvs. De exemplu, dacă dezvoltați un filtru de spam, obiectivul este de a detecta elementele rău din date, deci nu doriți să îl curățați.
-
Raportul semnal-zgomot poate fi scăzut. Cu alte cuvinte, semnalul (informații utile) poate fi doar un procent mic din date; zgomotul este restul. Capacitatea de a extrage un semnal mic de la date zgomotoase face parte din avantajul unor analize de date mari, dar trebuie să știți că semnalul poate fi într-adevăr mic.
-
Poate fi în timp real. În multe cazuri, veți încerca să analizați fluxurile de date în timp real.
Guvernanța mare a datelor va fi o parte importantă a ecuației de analiză. Sub analizele de afaceri vor fi necesare îmbunătățiri la soluțiile de guvernare pentru a asigura veridicitatea provenind din noile surse de date, mai ales că este combinată cu datele de încredere existente stocate într-un depozit.Securitatea datelor și soluțiile de confidențialitate trebuie de asemenea îmbunătățite pentru a sprijini gestionarea / gestionarea datelor importante stocate în cadrul noilor tehnologii.
Algoritmi analitic de date mari
Când analizați analizele de date mari, trebuie să fiți conștienți de faptul că atunci când extindeți dincolo de desktop, algoritmii utilizați de multe ori trebuie să fie refacturați, cod intern fără a afecta funcționarea sa externă. Frumusețea unei infrastructuri de date mari este că puteți rula un model care a fost folosit pentru a lua ore sau zile în câteva minute.
Aceasta vă permite să repetați modelul de sute de ori. Cu toate acestea, dacă executați o regresie pe un miliard de rânduri de date într-un mediu distribuit, trebuie să țineți cont de cerințele de resurse referitoare la volumul de date și locația sa în cluster. Algoritmii dvs. trebuie să fie conștienți de date.
În plus, vânzătorii încep să ofere noi analize concepute pentru a fi amplasate în apropierea surselor mari de date pentru a analiza datele în loc. Această abordare de rulare a analizei mai aproape de sursele de date minimizează cantitatea de date stocate prin păstrarea numai a datelor cu valoare ridicată. De asemenea, vă permite să analizați datele mai devreme, ceea ce este esențial pentru luarea deciziilor în timp real.
Desigur, analizele vor continua să evolueze. De exemplu, este posibil să aveți nevoie de funcții de vizualizare în timp real pentru a afișa date în timp real care se schimbă continuu. Cum practicați un miliard de puncte pe un grafic? Sau, cum lucrați cu algoritmii de predicție, astfel încât aceștia să efectueze o analiză destul de rapidă și destul de profundă pentru a utiliza un set de date complex și tot mai extins? Acesta este un domeniu de cercetare activă.
Sprijin pentru o infrastructură mare de date
Este suficient să spunem că dacă căutați o platformă, trebuie să realizați următoarele:
-
Integrarea tehnologiilor: Infrastructura trebuie să integreze noi tehnologii de date mari tehnologii tradiționale pentru a putea procesa toate tipurile de date mari și pentru a le consuma prin analizele tradiționale.
-
Stocați cantități mari de date disparate: Este posibil să fie necesar un sistem Hadoop întărit de întreprinderi care să poată procesa / stoca / gestiona cantități mari de date în stare de repaus, fie că este structurat, semi-structurat sau nestructurat.
-
Datele procesate în mișcare: Este posibil să fie necesară o capacitate de procesare a fluxului pentru a procesa date în mișcare generate continuu de senzori, dispozitive inteligente, video, audio și jurnale pentru a sprijini luarea deciziilor în timp real.
-
Date depozit: Este posibil să aveți nevoie de o soluție optimizată pentru sarcini de lucru operaționale sau profunde analitic pentru stocarea și gestionarea cantităților tot mai mari de date de încredere.
Și, bineînțeles, aveți nevoie de capacitatea de a integra datele deja existente, împreună cu rezultatele analizei mari a datelor.