Acasă Finanțe personale Noduri slave în sistemul de distribuire a fișierelor Hadoop (HDFS)

Noduri slave în sistemul de distribuire a fișierelor Hadoop (HDFS)

Cuprins:

Video: The Third Industrial Revolution: A Radical New Sharing Economy 2024

Video: The Third Industrial Revolution: A Radical New Sharing Economy 2024
Anonim

Într-un cluster Hadoop, fiecare nod de date (cunoscut și ca nod sclav proces de fundal numit DataNode. Acest proces de fundal (cunoscut și sub numele de daemon ) ține evidența felilor de date pe care sistemul le stochează pe computerul său. Acesta discută în mod regulat cu serverul principal pentru HDFS (cunoscut sub numele de NumeNod) pentru a raporta despre starea de sănătate și starea datelor stocate local.

Blocurile de date sunt stocate ca fișiere brute în sistemul de fișiere local. Din perspectiva unui utilizator Hadoop, nu aveți nicio idee despre care dintre nodurile slave are piesele din fișierul pe care trebuie să le procesați. Din interiorul Hadoop, nu vedeți blocuri de date sau modul în care sunt distribuite în cadrul clusterului - tot ceea ce vedeți este o listă a fișierelor în HDFS.

Complexitatea modului în care sunt distribuite blocurile de fișiere în cluster este ascunsă de dvs. - nu știți cât de complicat este totul și nu aveți nevoie de pentru a știu. De fapt, nodurile de sclavi nu știu nici măcar ce se află în blocurile de date pe care le stochează. Este serverul NameNode care cunoaște mapările ale căror blocuri de date compun fișierele stocate în HDFS. O viață mai bună prin redundanță

Un principiu de design al HDFS este conceptul de minimizare a costului nodurilor slave individuale prin utilizarea componentelor hardware de mărfuri. Pentru sistemele masiv scalabile, această idee este una sensibilă, deoarece costurile se escaladă rapid atunci când aveți nevoie de sute sau mii de noduri de sclavi. Utilizarea hardware-ului cu costuri mai mici are drept consecință faptul că componentele individuale nu sunt la fel de fiabile ca cele hardware mai scumpe.

Atunci când alegeți opțiunile de stocare, luați în considerare impactul utilizării unităților de mărfuri, mai degrabă decât unitățile mai scumpe de calitate pentru întreprinderi. Imaginați-vă că aveți un cluster de 750 noduri, în care fiecare nod are 12 unități de hard disk dedicate spațiului de stocare HDFS.

Pe baza unei rate anuale de defecțiune (AFR) de 4% pentru unitățile de disc de mărfuri (o anumită unitate de disc are o probabilitate de 4% de a nu reuși într-un anumit an, cu alte cuvinte), clusterul dvs. va avea probabil un hard disk eșec în fiecare zi a anului.

Deoarece pot exista atât de multe noduri de sclavi, eșecul lor este, de asemenea, o întâlnire obișnuită în clustere mai mari cu sute sau mai multe noduri. Având în vedere aceste informații, HDFS a fost proiectat presupunând că

toate componentele hardware, chiar și la nivelul nodului slave, nu sunt fiabile. HDFS depășește lipsa de fiabilitate a componentelor hardware individuale prin redundanță: Aceasta este ideea din spatele acelor trei copii ale fiecărui fișier stocat în HDFS, distribuite pe întreg sistemul.Mai precis, fiecare bloc de fișiere stocat în HDFS are un total de trei replici. Dacă un sistem se rupe cu un anumit bloc de fișiere de care aveți nevoie, puteți accesa celelalte două.

Schițarea designului serverului nodului slave

Pentru a echilibra factori importanți precum costul total al proprietății, capacitatea de stocare și performanța, trebuie să planificați cu atenție proiectarea nodurilor slave.

Vedeți frecvent nodurile slave acum, unde fiecare nod are de obicei între 12 și 16 unități de hard disk 3TB atașate local. Slave nodurile folosesc procesoare moderne cu dual-socket cu șase până la opt nuclee fiecare - fără demoni de viteză, cu alte cuvinte. Acest lucru este însoțit de 48 GB de memorie RAM. Pe scurt, acest server este optimizat pentru stocarea densă.

Deoarece HDFS este un sistem de fișiere la nivel de spațiu utilizator, este important să optimizați sistemul de fișiere local pe nodurile slave pentru a lucra cu HDFS. În această privință, o decizie cu impact ridicat la instalarea serverelor este alegerea unui sistem de fișiere pentru instalarea Linux pe nodurile slave.

Ext3 este sistemul de fișiere cel mai răspândit, deoarece a fost cea mai stabilă opțiune de câțiva ani. Aruncați o privire la Ext4, totuși. Este următoarea versiune a Ext3 și a fost disponibilă suficient de mult pentru a fi considerată pe scară largă stabilă și fiabilă.

Mai important pentru scopurile noastre, are o serie de optimizări pentru gestionarea fișierelor mari, ceea ce îl face o alegere ideală pentru serverele de noduri slave HDFS.

Nu utilizați Managerul Linux Logical Volume Manager (LVM) - reprezintă un strat suplimentar între sistemul de fișiere Linux și HDFS, ceea ce îl împiedică pe Hadoop să-și optimizeze performanța. În mod specific, discurile LVM agregate, care împiedică gestionarea resurselor pe care HDFS și YARN le fac, pe baza modului în care fișierele sunt distribuite pe unitățile fizice.

Noduri slave în sistemul de distribuire a fișierelor Hadoop (HDFS)

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...