Big Data Pentru Dummies Cheat Sheet - Dummies

Companiile trebuie să găsească o modalitate practică de a face față unor date importante pentru a rămâne competitive - să învețe noi modalități de captare și analiză a sumelor tot mai mari de informații despre clienți, produse și servicii. Datele devin din ce în ce mai complexe în moduri structurate și nestructurate. Noi surse de date provin de la mașini, cum ar fi senzori; site-uri de afaceri sociale; și interacțiunea site-ului web, cum ar fi datele privind fluxul de clicuri. Respectarea acestor cerințe schimbătoare de afaceri impune ca informațiile corecte să fie disponibile la momentul potrivit.

Datele mari permit organizațiilor să stocheze, să gestioneze și să manipuleze cantități mari de date disparate la viteza corectă și la momentul potrivit. Pentru a obține cunoștințele corecte, datele mari sunt de obicei defalcate pe trei caracteristici:

Volum:

Cât de mult

Viteza: Cât de rapid este procesată
Varietatea: tipuri de date
În timp ce este convenabil să simplificăm datele mari în cele trei Vs, aceasta poate fi înșelătoare și prea simplistă. De exemplu, este posibil să gestionați o cantitate relativ mică de date foarte disparate și complexe sau este posibil să procesați un volum imens de date foarte simple. Aceste date simple pot fi structurate sau toate structurate.
Și mai importantă este a patra V,

veracitate.

Cât de precisă sunt datele în predicția valorii afacerii? Rezultatele unei analize de date mari au sens? Datele trebuie să poată fi verificate atât pe baza preciziei, cât și a contextului. O afacere inovatoare poate dori să fie capabilă să analizeze cantități masive de date în timp real pentru a evalua rapid valoarea clientului respectiv și potențialul de a oferi clienților oferte suplimentare. Este necesar să se identifice cantitatea și tipurile adecvate de date care pot fi analizate în timp real pentru a influența rezultatele afacerii.

Datele mari încorporează toate soiurile de date, inclusiv date structurate și date nestructurate de la e-mailuri, social media, fluxuri de text și așa mai departe. Acest tip de gestionare a datelor impune companiilor să valorifice atât datele lor structurate, cât și cele nestructurate.

Înțelegerea datelor nestructurate

Datele nestructurate sunt diferite de datele structurate prin faptul că structura lor este imprevizibilă. Exemple de date nestructurate includ documente, e-mailuri, bloguri, imagini digitale, videoclipuri și imagini din satelit. Acesta include, de asemenea, unele date generate de mașini sau senzori. De fapt, datele nestructurate reprezintă cea mai mare parte a datelor aflate în incinta companiei dvs., precum și externe companiei dvs. în surse private și publice online, cum ar fi Twitter și Facebook.

În trecut, majoritatea companiilor nu au reușit nici să captureze, nici să stocheze acest număr mare de date. Era pur și simplu prea scumpă sau prea copleșitoare. Chiar dacă companiile puteau captura datele, nu aveau instrumentele necesare pentru a analiza cu ușurință datele și pentru a utiliza rezultatele pentru a lua decizii. Foarte puține instrumente ar putea face sens acestor cantități mari de date. Instrumentele existente au fost complexe de utilizat și nu au produs rezultate într-un interval de timp rezonabil.

În cele din urmă, cei care doreau cu adevărat să meargă la efortul enorm de a analiza aceste date au fost forțați să lucreze cu instantanee de date. Acest lucru are efectul nedorit al evenimentelor importante care lipsesc, deoarece nu se aflau într-o instantanee specială.

O abordare care devine din ce în ce mai apreciată ca o modalitate de a obține valoare de afaceri din datele nestructurate este

analiza textului, procesul de analiză a textului nestructurat, extragerea informațiilor relevante și transformarea acestuia în informații structurate care pot să fie puse în aplicare în diverse moduri. Procesele de analiză și extracție au avantajul tehnicilor care au originea în lingvistică, statistică și alte discipline informatice. Rolul datelor operaționale tradiționale în mediul mare de date Știind ce date sunt stocate și unde sunt stocate sunt elementele critice de construcție în implementarea mare a datelor. Este puțin probabil să utilizați RDBMS pentru nucleul implementării, dar este foarte probabil că va trebui să vă bazați pe datele stocate în RDBMS pentru a crea cel mai înalt nivel de valoare pentru afacerea cu date mari.

Majoritatea companiilor mari și mici, probabil, stochează majoritatea informațiilor operaționale importante în sistemele de gestionare a bazelor de date relaționale (RDBMSs), care sunt construite pe una sau mai multe relații și sunt reprezentate prin tabele. Aceste tabele sunt definite de modul în care sunt stocate datele. Datele sunt stocate în obiecte baze de date numite tabele - organizate în rânduri și coloane. RDBMS-urile urmează o abordare consecventă în modul în care datele sunt stocate și preluate.

Pentru a obține cea mai mare valoare de afaceri din analiza în timp real a datelor nestructurate, trebuie să înțelegeți datele în context cu datele dvs. istorice despre clienți, produse, tranzacții și operațiuni. Cu alte cuvinte, va trebui să vă integrați datele nestructurate cu datele dvs. operaționale tradiționale.

Elementele de bază ale infrastructurii mari de date

Datele mari privesc viteza mare, volumele mari și varietatea largă de date, astfel încât infrastructura fizică va face sau va sparge literalmente implementarea. Cele mai multe implementări de date mari trebuie să fie foarte disponibile, astfel încât rețelele, serverele și stocarea fizică trebuie să fie reziliente și redundante.

Rezistența și redundanța sunt interdependente. O infrastructură sau un sistem este rezistentă la eșec sau la schimbări atunci când există suficiente resurse redundante care sunt pregătite să intre în acțiune. Rezistența ajută la eliminarea punctelor singulare de eșec în infrastructura dvs. De exemplu, dacă există o singură conexiune de rețea între afacerea dvs. și Internet, nu aveți nicio redundanță în rețea și infrastructura nu este rezistentă în ceea ce privește o întrerupere a rețelei.

În centrele mari de date cu cerințe de continuitate a activității, cea mai mare parte a redundanței este disponibilă și poate fi utilizată pentru a crea un mediu mare de date. În noile implementări, designerii au responsabilitatea de a mapa implementarea la nevoile afacerii pe baza costurilor și performanței.

Gestionarea datelor mari cu Hadoop: HDFS și MapReduce

Hadoop, un cadru software open-source, utilizează HDFS (Hadoop Distributed File System) și MapReduce pentru a analiza date importante despre clustere de hardware de mărfuri - mediu distribuit de calcul.

Sistemul distribuit de fișiere Hadoop (HDFS) a fost dezvoltat pentru a permite companiilor să gestioneze mai ușor volume imense de date într-un mod simplu și pragmatic. Hadoop permite ca mari probleme să fie descompuse în elemente mai mici, astfel încât analiza să se facă rapid și eficient din punct de vedere al costurilor. HDFS este o abordare versatilă, rezistentă, clustered pentru gestionarea fișierelor într-un mediu de date mare.

HDFS nu este destinația finală pentru fișiere. Mai degrabă este un "serviciu" de date care oferă un set unic de capabilități necesare atunci când volumul de date și viteza sunt mari.

MapReduce este un cadru software care permite dezvoltatorilor să scrie programe care pot procesa cantități masive de date nestructurate în paralel într-un grup distribuit de procesoare. MapReduce a fost proiectat de Google ca o modalitate de a executa eficient un set de funcții împotriva unei cantități mari de date în modul lot.

Componenta "hartă" distribuie problema de programare sau sarcini într-un număr mare de sisteme și gestionează plasarea sarcinilor într-un mod care echilibrează încărcarea și gestionează recuperarea de la defecțiuni. După ce calculul distribuit este finalizat, o altă funcție numită "reduce" agregă toate elementele înapoi împreună pentru a oferi un rezultat. Un exemplu de utilizare MapReduce ar fi determinarea câte pagini ale unei cărți sunt scrise în fiecare dintre cele 50 de limbi diferite.

Punerea la bază a principalelor strategii de date

Companiile înotă în date mari. Problema este că ele nu știu cum să utilizeze pragmatic aceste date pentru a putea anticipa viitorul, pentru a executa procese importante de afaceri sau pur și simplu pentru a obține noi perspective. Scopul strategiei și planului dvs. de date de mare anvergură ar trebui să fie găsirea unui mod pragmatic de a mobiliza date pentru rezultate de afaceri mai previzibile.

Începeți strategia de date de mare amploare prin lansarea unui proces de descoperire. Trebuie să vă ocupați de datele pe care le aveți deja, unde sunt, de cine le deține și de care le controlează și de modul în care acestea sunt utilizate în prezent. De exemplu, care sunt sursele de date terță parte pe care se bazează compania dvs.? Acest proces vă poate oferi o mulțime de informații:

Puteți determina câte surse de date aveți și cât de mult există suprapuneri.

Puteți identifica lacune în cunoașterea surselor de date.

S-ar putea să descoperiți că aveți o mulțime de date duplicate într-o zonă a afacerii și aproape că nu există date într-o altă zonă.
S-ar putea să vă asigurați că sunteți dependent de datele unor terțe părți care nu sunt la fel de exacte cum ar trebui să fie.
Petreceți timpul necesar pentru a face acest proces de descoperire, deoarece acesta va fi fundamentul pentru planificarea și executarea strategiei dvs. de date de mare anvergură.