Acasă Finanțe personale Dimensionarea Hadoop Cluster - dummies

Dimensionarea Hadoop Cluster - dummies

Video: Dimensionarea pompelor in sisteme de incalzire cu radiatoare 2024

Video: Dimensionarea pompelor in sisteme de incalzire cu radiatoare 2024
Anonim

Stabilirea oricărui sistem de procesare a datelor este la fel de importantă ca și știința este o artă.Cu Hadoop, considerați aceleași informații ca și dvs. cu o bază de date relațională, de exemplu. Mai important, trebuie să știți cât de multe date aveți, să estimați ratele de creștere așteptate și să stabiliți o politică de păstrare (cât timp pentru a păstra datele)

Răspunsurile la aceste întrebări servesc ca punct de pornire, care este independent de orice cerințe legate de tehnologie.

pe care trebuie să le stocați, puteți începe să factorizați în considerente specifice Hadoop. Să presupunem că aveți o companie de telecomunicații și ați stabilit că aveți nevoie de 750 terabajați (TB) de spațiu de stocare pentru fișierele jurnal de înregistrări detaliate ale apelului (CDR) Mențineți aceste înregistrări pentru a respecta reglementările guvernamentale, dar le puteți analiza, de asemenea o vedeți modelele de churn și monitorizați sănătatea rețelei, de exemplu. Pentru a determina cât spațiu de stocare aveți nevoie și, în consecință, câte rafturi și noduri slave aveți nevoie, efectuați calculele dvs. în funcție de acești factori:

Factorul de replicare implicit pentru datele din HDFS este 3. 500 terabyte de date CDR pentru compania de telecomunicații din exemplul respectiv se transformă în 1500 terabytes.

  • Spațiu swap: Orice analiză sau procesare a datelor de către MapReduce necesită un spațiu suplimentar de 25% pentru a stoca orice set de rezultate intermediare și finale. (Compania de telecomunicații are acum nevoie de 1875 terabiți de spațiu de stocare.)

  • Compania de telecomunicații stochează CDR-urile într-o formă comprimată, unde raportul mediu de compresie este de 3: 1. Acum aveți nevoie de 625 terabytes.

    Numarul de noduri slave:
  • Presupunand ca fiecare nod slave are douasprezece unitati 3TB dedicate HDFS, fiecare nod sclav are 36 terabytes de stocare raw HDFS, deci compania are nevoie de 18 noduri slave. Numărul de rack-uri:

  • Deoarece fiecare nod slave utilizează 2RU și compania din exemplu are nevoie de trei noduri principale (1RU bucată) și două switch-uri ToR (1RU bucată), aveți nevoie de un total de 41RU. Este 1RU mai mică decât capacitatea totală a unui rack standard, deci un singur rack este suficient pentru această desfășurare. Indiferent, nu există nicio cameră pentru creștere în acest grup, deci este prudent să cumpărăm un al doilea rack (și două comutatoare ToR suplimentare) și să împărțim nodurile slave între cele două rafturi.

  • Testarea: Menținerea unui cluster de testare care reprezintă o reprezentare la scară mai mică a clusterului de producție este o practică standard. Nu trebuie să fie mare, dar doriți cel puțin cinci noduri de date pentru a obține o reprezentare exactă a comportamentului lui Hadoop.Ca în cazul oricărui mediu de testare, acesta ar trebui să fie izolat într-o rețea diferită de grupul de producție.

    Restabilire înapoi și dezastre:

  • Ca orice sistem de producție, compania de telecomunicații va trebui să ia în considerare și cerințele de salvare și de recuperare în caz de dezastru. Această companie ar putea merge atât de departe încât să creeze un cluster oglindă pentru a se asigura că au o stare de așteptare la cald pentru întregul lor sistem. Aceasta este, evident, cea mai scumpă opțiune, dar este potrivită pentru medii în care constanta uptime este critică. La capătul cel mai puțin costisitor al spectrului (dincolo de faptul că datele nu sunt suportate în totalitate), compania de telecomunicații ar putea să stocheze în mod regulat toate datele (inclusiv datele în sine, aplicațiile, fișierele de configurare și metadatele) la bandă. Cu bandă, datele nu sunt accesibile imediat, dar va permite un efort de recuperare în caz de dezastru în cazul în care întregul cluster Hadoop de producție nu reușește.

  • Ca și în propriul calculator personal, atunci când unitatea de disc principală se umple cu spațiu, sistemul încetinește considerabil. Hadoop nu face excepție. De asemenea, un hard disk funcționează mai bine atunci când este mai mic de 85 până la 90% plin. Ținând seama de aceste informații, dacă performanța este importantă pentru dvs., trebuie să acoperiți factorul de schimb de la 25 la 33%.

Dimensionarea Hadoop Cluster - dummies

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...