Noduri slave în sistemul de distribuire a fișierelor Hadoop (HDFS)

Video: The Third Industrial Revolution: A Radical New Sharing Economy 2024

Într-un cluster Hadoop, fiecare nod de date (cunoscut și ca nod sclav proces de fundal numit DataNode. Acest proces de fundal (cunoscut și sub numele de daemon ) ține evidența felilor de date pe care sistemul le stochează pe computerul său. Acesta discută în mod regulat cu serverul principal pentru HDFS (cunoscut sub numele de NumeNod) pentru a raporta despre starea de sănătate și starea datelor stocate local.

Blocurile de date sunt stocate ca fișiere brute în sistemul de fișiere local. Din perspectiva unui utilizator Hadoop, nu aveți nicio idee despre care dintre nodurile slave are piesele din fișierul pe care trebuie să le procesați. Din interiorul Hadoop, nu vedeți blocuri de date sau modul în care sunt distribuite în cadrul clusterului - tot ceea ce vedeți este o listă a fișierelor în HDFS.

Complexitatea modului în care sunt distribuite blocurile de fișiere în cluster este ascunsă de dvs. - nu știți cât de complicat este totul și nu aveți nevoie de pentru a știu. De fapt, nodurile de sclavi nu știu nici măcar ce se află în blocurile de date pe care le stochează. Este serverul NameNode care cunoaște mapările ale căror blocuri de date compun fișierele stocate în HDFS. O viață mai bună prin redundanță

Un principiu de design al HDFS este conceptul de minimizare a costului nodurilor slave individuale prin utilizarea componentelor hardware de mărfuri. Pentru sistemele masiv scalabile, această idee este una sensibilă, deoarece costurile se escaladă rapid atunci când aveți nevoie de sute sau mii de noduri de sclavi. Utilizarea hardware-ului cu costuri mai mici are drept consecință faptul că componentele individuale nu sunt la fel de fiabile ca cele hardware mai scumpe.

Atunci când alegeți opțiunile de stocare, luați în considerare impactul utilizării unităților de mărfuri, mai degrabă decât unitățile mai scumpe de calitate pentru întreprinderi. Imaginați-vă că aveți un cluster de 750 noduri, în care fiecare nod are 12 unități de hard disk dedicate spațiului de stocare HDFS.

Pe baza unei rate anuale de defecțiune (AFR) de 4% pentru unitățile de disc de mărfuri (o anumită unitate de disc are o probabilitate de 4% de a nu reuși într-un anumit an, cu alte cuvinte), clusterul dvs. va avea probabil un hard disk eșec în fiecare zi a anului.

Deoarece pot exista atât de multe noduri de sclavi, eșecul lor este, de asemenea, o întâlnire obișnuită în clustere mai mari cu sute sau mai multe noduri. Având în vedere aceste informații, HDFS a fost proiectat presupunând că

toate componentele hardware, chiar și la nivelul nodului slave, nu sunt fiabile. HDFS depășește lipsa de fiabilitate a componentelor hardware individuale prin redundanță: Aceasta este ideea din spatele acelor trei copii ale fiecărui fișier stocat în HDFS, distribuite pe întreg sistemul.Mai precis, fiecare bloc de fișiere stocat în HDFS are un total de trei replici. Dacă un sistem se rupe cu un anumit bloc de fișiere de care aveți nevoie, puteți accesa celelalte două.

Schițarea designului serverului nodului slave

Pentru a echilibra factori importanți precum costul total al proprietății, capacitatea de stocare și performanța, trebuie să planificați cu atenție proiectarea nodurilor slave.

Vedeți frecvent nodurile slave acum, unde fiecare nod are de obicei între 12 și 16 unități de hard disk 3TB atașate local. Slave nodurile folosesc procesoare moderne cu dual-socket cu șase până la opt nuclee fiecare - fără demoni de viteză, cu alte cuvinte. Acest lucru este însoțit de 48 GB de memorie RAM. Pe scurt, acest server este optimizat pentru stocarea densă.

Deoarece HDFS este un sistem de fișiere la nivel de spațiu utilizator, este important să optimizați sistemul de fișiere local pe nodurile slave pentru a lucra cu HDFS. În această privință, o decizie cu impact ridicat la instalarea serverelor este alegerea unui sistem de fișiere pentru instalarea Linux pe nodurile slave.

Ext3 este sistemul de fișiere cel mai răspândit, deoarece a fost cea mai stabilă opțiune de câțiva ani. Aruncați o privire la Ext4, totuși. Este următoarea versiune a Ext3 și a fost disponibilă suficient de mult pentru a fi considerată pe scară largă stabilă și fiabilă.

Mai important pentru scopurile noastre, are o serie de optimizări pentru gestionarea fișierelor mari, ceea ce îl face o alegere ideală pentru serverele de noduri slave HDFS.

Nu utilizați Managerul Linux Logical Volume Manager (LVM) - reprezintă un strat suplimentar între sistemul de fișiere Linux și HDFS, ceea ce îl împiedică pe Hadoop să-și optimizeze performanța. În mod specific, discurile LVM agregate, care împiedică gestionarea resurselor pe care HDFS și YARN le fac, pe baza modului în care fișierele sunt distribuite pe unitățile fizice.