Acasă Finanțe personale Noduri principale în clustere Hadoop - dummies

Noduri principale în clustere Hadoop - dummies

Cuprins:

Video: How to Install Hadoop on Windows 2024

Video: How to Install Hadoop on Windows 2024
Anonim

Nodurile principale din clusterele distribuite Hadoop găzduiesc diferitele servicii de gestionare a stocării și procesării, descrise în această listă, pentru întregul cluster Hadoop. Redundanța este esențială pentru evitarea punctelor unice de eșec, așa că vedeți două comutatoare și trei noduri principale.

  • NameNode: Gestionează stocarea HDFS. Pentru a vă asigura disponibilitatea ridicată, aveți atât un NumeNode activ, cât și un nume de stare în așteptare. Fiecare rulează pe propriul nod principal dedicat.

  • Nodul de verificare (sau nodul de rezervă): Oferă servicii puncte de control pentru NameNode. Aceasta implică citirea jurnalului de editare al lui NameNode pentru modificarea fișierelor din fișierele HDFS (fișierele noi, șterse și atașate) de la ultimul punct de control și aplicarea acestora în fișierul principal al numelui care cartografiază fișierele în blocurile de date.

    În plus, Nodul de rezervă păstrează o copie a spațiului de nume al sistemului de fișiere în memorie și îl păstrează în sincronizare cu starea numelui de nume. Pentru implementări de înaltă disponibilitate, nu utilizați un nod de control sau un nod de rezervă - utilizați în schimb un nume de rezervă în așteptare. Pe lângă faptul că este o stare de așteptare activă pentru NumeNod, StandbyNameNode menține serviciile de punctare și păstrează o copie actualizată a spațiului de nume al sistemului de fișiere din memorie.

  • JournalNode: primește modificări ale istoricului de modificări care indică modificări ale fișierelor în HDFS din NameNode. Cel puțin trei servicii JournalNode (și întotdeauna un număr impar) trebuie să ruleze într-un cluster și sunt suficient de ușoare încât să poată fi colocate cu alte servicii pe nodurile principale.

  • Resurse Manager: Supraveghează programarea sarcinilor de aplicare și gestionarea resurselor clusterului Hadoop. Acest serviciu este inima lui YARN.

  • JobTracker: Pentru serverele Hadoop 1, se ocupă de gestionarea și planificarea resurselor cluster. Cu YARN, JobTracker este învechit și nu este folosit. O serie de implementări Hadoop încă nu au migrat la Hadoop 2 și YARN.

  • HMaster: Monitorizează serverele din regiunea HBase și gestionează toate modificările metadatelor. Pentru a vă asigura disponibilitatea ridicată, asigurați-vă că utilizați oa doua instanță HMaster. Serviciul HMaster este suficient de ușor pentru a fi co-codat cu alte servicii pe nodurile principale. În Hadoop 1, instanțele serviciului HMaster funcționează pe nodurile master. În Hadoop 2, cu Hoya (HBase on Fire), instanțele HMaster rulează în recipiente pe nodurile slave.

  • Zookeeper: Coordonează componentele distribuite și oferă mecanisme pentru a le păstra în sincronizare. Zookeeper este folosit pentru a detecta eșecul NameNode și a alege un nou numeNode.Este, de asemenea, utilizat cu HBase pentru gestionarea stărilor HMaster și RegionServers.

    Ca și în JournalNode, aveți nevoie de cel puțin trei instanțe de noduri Zookeeper (și întotdeauna un număr impar) și sunt suficient de ușoare pentru a fi colocați cu alte servicii pe nodurile master.

Aici aveți trei noduri principale (cu același hardware), în care serviciile principale Active NameNode, Standby NameNode și Resource Manager au fiecare propriul server. Există servicii Jurnal și Zookeeper care rulează pe fiecare server, dar acestea sunt ușoare și nu vor fi o sursă de controversă a resurselor cu serviciile NameNode și Resource Manager.

Principiile sunt aceleași pentru Hadoop 1, unde aveți nevoie de un nod principal dedicat pentru serviciile NameNode, Secondary NameNode și JobTracker.

Dacă intenționați să utilizați HBase cu Hoya în Hadoop 2, nu aveți nevoie de servicii suplimentare. Pentru implementările Hadoop 1 utilizând HBase, verificați figura următoare pentru implementarea serviciilor pe nodurile principale ale clusterului Hadoop.

Există două diferențe în compararea acestor servere principale cu serverele principale Hadoop 1 fără suport pentru HBase: aici aveți nevoie de două servicii HMaster (una pentru a coordona HBase și una de a activa în regim de așteptare) și servicii Zookeeper pe toate cele trei noduri principale pentru a gestiona failover.

Dacă intenționați să utilizați clusterul Hadoop 1 numai pentru HBase, puteți face acest lucru fără serviciul JobTracker, deoarece HBase nu depinde de infrastructura Hadoop 1 MapReduce.

Atunci când oamenii vorbesc despre hardware pentru Hadoop, ei subliniază, în general, utilizarea componentelor mărfuri - cele necostisitoare. Deoarece trebuie să vă plângeți numai pentru câteva noduri principale (de obicei, trei sau patru), nu sunteți afectați prin înmulțirea costurilor dacă, de exemplu, decideți să utilizați unități de hard disk scumpe.

Țineți minte că, fără nodurile master, nu există cluster Hadoop. Nodurile principale servesc o funcție critică a misiunii, și chiar dacă aveți nevoie de redundanță, ar trebui să le proiectați cu disponibilitate ridicată și rezistență în minte.

Depozitare recomandată

Pentru nodurile principale Hadoop, indiferent de numărul de noduri slave sau de utilizările clusterului, caracteristicile de stocare sunt consecvente. Utilizați patru unități SAS de 900 GB împreună cu un controller RAID HDD configurat pentru RAID 1 + 0. Unitățile SAS sunt mai scumpe decât unitățile SATA și au o capacitate de stocare mai mică, dar sunt mai rapide și mult mai fiabile.

Implementarea unităților dvs. SAS ca matrice RAID asigură că serviciile de administrare Hadoop au un stoc redundant pentru datele critice ale acestora. Acest lucru vă oferă suficient spațiu de stocare stabil, rapid și redundant pentru a vă ajuta să gestionați clusterul Hadoop.

Procesoare recomandate

În momentul acestei scrieri, majoritatea arhitecturilor de referință recomandă utilizarea plăcilor de bază cu două prize CPU, fiecare cu șase sau opt nuclee. Arhitectura Intel Ivy Bridge este frecvent utilizată.

Memorie recomandată

Cerințele de memorie variază considerabil în funcție de scara unui cluster Hadoop.Memoria este un factor critic pentru nodurile master Hadoop, deoarece serverele active și standby NameNode se bazează foarte mult pe RAM pentru a gestiona HDFS. Ca atare, utilizați memoria de corectare a erorilor (ECC) pentru nodurile master Hadoop. De obicei, nodurile master necesită între 64 GB și 128 GB de memorie RAM.

Cerința de memorie NameNode este o funcție directă a numărului de blocuri de fișiere stocate în HDFS. De regulă, NameNode utilizează aproximativ 1GB de RAM pe milion blocuri HDFS. (Amintiți-vă că fișierele sunt împărțite în blocuri individuale și replicate astfel încât să aveți trei copii ale fiecărui bloc.)

Cerințele de memorie ale serverelor Resource Manager, HMaster, Zookeeper și JournalNode sunt considerabil mai mici decât pentru serverul NameNode. Cu toate acestea, este o practică bună de a dimensiona nodurile principale într-o manieră consecventă, astfel încât acestea să fie interschimbabile în cazul unei defecțiuni hardware.

Rețeaua recomandată

Comunicația rapidă este vitală pentru serviciile de pe nodurile principale, așa că vă recomandăm să utilizați o pereche de conexiuni 10GbE conectate. Această pereche legată oferă redundanță, dar de asemenea dublează capacitatea de transfer la 20GbE. Pentru grupuri mai mici (de exemplu, mai puțin de 50 de noduri), puteți să vă îndepărtați folosind conectori de 1 GbE.

Noduri principale în clustere Hadoop - dummies

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...