Video: Dimensionarea pompelor in sisteme de incalzire cu radiatoare 2024
Stabilirea oricărui sistem de procesare a datelor este la fel de importantă ca și știința este o artă.Cu Hadoop, considerați aceleași informații ca și dvs. cu o bază de date relațională, de exemplu. Mai important, trebuie să știți cât de multe date aveți, să estimați ratele de creștere așteptate și să stabiliți o politică de păstrare (cât timp pentru a păstra datele)
Răspunsurile la aceste întrebări servesc ca punct de pornire, care este independent de orice cerințe legate de tehnologie.
pe care trebuie să le stocați, puteți începe să factorizați în considerente specifice Hadoop. Să presupunem că aveți o companie de telecomunicații și ați stabilit că aveți nevoie de 750 terabajați (TB) de spațiu de stocare pentru fișierele jurnal de înregistrări detaliate ale apelului (CDR) Mențineți aceste înregistrări pentru a respecta reglementările guvernamentale, dar le puteți analiza, de asemenea o vedeți modelele de churn și monitorizați sănătatea rețelei, de exemplu. Pentru a determina cât spațiu de stocare aveți nevoie și, în consecință, câte rafturi și noduri slave aveți nevoie, efectuați calculele dvs. în funcție de acești factori:
Factorul de replicare implicit pentru datele din HDFS este 3. 500 terabyte de date CDR pentru compania de telecomunicații din exemplul respectiv se transformă în 1500 terabytes.
-
Spațiu swap: Orice analiză sau procesare a datelor de către MapReduce necesită un spațiu suplimentar de 25% pentru a stoca orice set de rezultate intermediare și finale. (Compania de telecomunicații are acum nevoie de 1875 terabiți de spațiu de stocare.)
-
Compania de telecomunicații stochează CDR-urile într-o formă comprimată, unde raportul mediu de compresie este de 3: 1. Acum aveți nevoie de 625 terabytes.
Numarul de noduri slave: -
Presupunand ca fiecare nod slave are douasprezece unitati 3TB dedicate HDFS, fiecare nod sclav are 36 terabytes de stocare raw HDFS, deci compania are nevoie de 18 noduri slave. Numărul de rack-uri:
-
Deoarece fiecare nod slave utilizează 2RU și compania din exemplu are nevoie de trei noduri principale (1RU bucată) și două switch-uri ToR (1RU bucată), aveți nevoie de un total de 41RU. Este 1RU mai mică decât capacitatea totală a unui rack standard, deci un singur rack este suficient pentru această desfășurare. Indiferent, nu există nicio cameră pentru creștere în acest grup, deci este prudent să cumpărăm un al doilea rack (și două comutatoare ToR suplimentare) și să împărțim nodurile slave între cele două rafturi.
-
Testarea: Menținerea unui cluster de testare care reprezintă o reprezentare la scară mai mică a clusterului de producție este o practică standard. Nu trebuie să fie mare, dar doriți cel puțin cinci noduri de date pentru a obține o reprezentare exactă a comportamentului lui Hadoop.Ca în cazul oricărui mediu de testare, acesta ar trebui să fie izolat într-o rețea diferită de grupul de producție.
Restabilire înapoi și dezastre:
-
Ca orice sistem de producție, compania de telecomunicații va trebui să ia în considerare și cerințele de salvare și de recuperare în caz de dezastru. Această companie ar putea merge atât de departe încât să creeze un cluster oglindă pentru a se asigura că au o stare de așteptare la cald pentru întregul lor sistem. Aceasta este, evident, cea mai scumpă opțiune, dar este potrivită pentru medii în care constanta uptime este critică. La capătul cel mai puțin costisitor al spectrului (dincolo de faptul că datele nu sunt suportate în totalitate), compania de telecomunicații ar putea să stocheze în mod regulat toate datele (inclusiv datele în sine, aplicațiile, fișierele de configurare și metadatele) la bandă. Cu bandă, datele nu sunt accesibile imediat, dar va permite un efort de recuperare în caz de dezastru în cazul în care întregul cluster Hadoop de producție nu reușește.
-
Ca și în propriul calculator personal, atunci când unitatea de disc principală se umple cu spațiu, sistemul încetinește considerabil. Hadoop nu face excepție. De asemenea, un hard disk funcționează mai bine atunci când este mai mic de 85 până la 90% plin. Ținând seama de aceste informații, dacă performanța este importantă pentru dvs., trebuie să acoperiți factorul de schimb de la 25 la 33%.