Aspecte de performanță Arhitectură de gestionare a datelor mari - dummies

Arhitectura mare de date trebuie, de asemenea, să funcționeze în concordanță cu infrastructura de sprijin a organizației dvs. De exemplu, s-ar putea să fiți interesat să rulați modele pentru a determina dacă este sigur să perforați pentru petrol într-o zonă off-shore dat date în timp real privind temperatura, salinitatea, resuspendarea sedimentelor și o serie de alte proprietăți biologice, chimice și fizice ale coloana de apă.

Este posibil să dureze câteva zile pentru a rula acest model utilizând o configurație tradițională a serverului. Cu toate acestea, folosirea unui model distribuit de calcul, ceea ce a durat zile ar putea dura acum câteva minute.

Performanța poate determina, de asemenea, tipul de bază de date pe care îl utilizați. De exemplu, în anumite situații, poate doriți să înțelegeți cum sunt legate două elemente de date foarte diferite. Care este relația dintre buzz într-o rețea socială și creșterea vânzărilor? Aceasta nu este interogarea tipică pe care ați putea să o cereți dintr-o bază de date structurată și relațională.

O bază de date cu grafice poate fi o alegere mai bună, deoarece este special concepută pentru a separa "nodurile" sau entitățile de "proprietățile" sau informațiile care definesc acea entitate și "marginea" sau relația dintre noduri și proprietăți. Utilizarea bazei de date corecte va îmbunătăți și performanța. De obicei, baza de date cu grafice va fi utilizată în aplicații științifice și tehnice.

Alte abordări importante ale bazei de date operaționale includ bazele de date coloanele care stochează eficient informațiile în coloane, mai degrabă decât în rânduri. Această abordare duce la o performanță mai rapidă, deoarece intrarea / ieșirea este extrem de rapidă. Atunci când stocarea datelor geografice face parte din ecuație, o bază de date spațială este optimizată pentru stocarea și interogarea datelor bazate pe modul în care obiectele sunt legate în spațiu.

Organizați mari servicii și instrumente de date

Nu toate datele pe care organizațiile le utilizează sunt operaționale. O cantitate tot mai mare de date provine dintr-o varietate de surse care nu sunt la fel de organizate sau simple, incluzând date provenite de la mașini sau senzori și surse masive de date publice și private. În trecut, majoritatea companiilor nu au putut să capteze sau să stocheze atât de multe date. Era pur și simplu prea scumpă sau prea copleșitoare.

Chiar dacă companiile puteau captura datele, nu aveau instrumentele necesare pentru a face nimic. Foarte puține instrumente ar putea face sens acestor cantități mari de date. Instrumentele existente au fost complexe de utilizat și nu au produs rezultate într-un interval de timp rezonabil.

În cele din urmă, cei care doreau cu adevărat să meargă la efortul enorm de a analiza aceste date au fost forțați să lucreze cu instantanee de date.Acest lucru are efectul nedorit al evenimentelor importante care lipsesc, deoarece nu se aflau într-o instantanee specială.

MapReduce, Hadoop și Big Table pentru date mari

Odată cu evoluția tehnologiei de calcul, acum este posibilă gestionarea unor volume imense de date. Prețurile sistemelor s-au diminuat și, ca urmare, noile tehnici de calcul distribuite sunt principalele. Descoperirea reală sa întâmplat deoarece companii precum Yahoo!, Google și Facebook au ajuns la concluzia că au nevoie de ajutor pentru a genera bani din cantitățile masive de date pe care le-au creat.

Aceste companii emergente au trebuit să găsească noi tehnologii care să le permită să stocheze, să acceseze și să analizeze cantități uriașe de date în timp real, astfel încât să poată genera bani din avantajele deținerii acestor date importante despre participanții în rețelele lor.

Soluțiile lor rezultă transformarea pieței de gestionare a datelor. În special, inovațiile MapReduce, Hadoop și Big Table s-au dovedit a fi scântei care au condus la o nouă generație de gestionare a datelor. Aceste tehnologii abordează una dintre cele mai importante probleme - capacitatea de a procesa cantități masive de date eficient, cost-eficient și în timp util.

MapReduce

MapReduce a fost proiectat de Google ca o modalitate de a executa eficient un set de funcții împotriva unui volum mare de date în modul lot. Componenta "hartă" distribuie problema de programare sau sarcini într-un număr mare de sisteme și gestionează plasarea sarcinilor. De asemenea, echilibrează încărcătura și gestionează recuperarea defecțiunilor. O altă funcție numită "reduce" agregate toate elementele înapoi împreună pentru a oferi un rezultat.

Big Table

Big Table a fost dezvoltat de Google pentru a fi un sistem de stocare distribuit menit să gestioneze date structurate foarte scalabile. Datele sunt organizate în tabele cu rânduri și coloane. Spre deosebire de un model tradițional baze de date relaționale, Big Table este o hartă tridimensională sortită, distribuită, persistentă, multidimensională. Se intenționează să se stocheze volume imense de date pe serverele de mărfuri.

Hadoop

Hadoop este un framework de software administrat de Apache derivat din MapReduce și Big Table. Hadoop permite aplicațiilor bazate pe MapReduce să ruleze pe grupuri mari de hardware de mărfuri. Proiectul este fundamentul pentru arhitectura de calcul care sprijină Yahoo! de afaceri. Hadoop este conceput pentru a paraleliza prelucrarea datelor între nodurile de calcul la calculul vitezei și a ascunde latența.

Există două componente majore ale Hadoop: un sistem de fișiere distribuit masiv scalabil care poate suporta câțiva date de date și un motor MapReduce masiv scalabil care calculează rezultatele în lot.