Acasă Finanțe personale Păstrați urmărirea blocurilor de date cu numeNode în HDFS - dummies

Păstrați urmărirea blocurilor de date cu numeNode în HDFS - dummies

Cuprins:

Video: Top 20 Outlook 2016 Tips and Tricks 2024

Video: Top 20 Outlook 2016 Tips and Tricks 2024
Anonim

NameNode acționează ca adresă pentru Hadoop Distributed File System (HDFS) deoarece nu știe numai blocurile care compun fișiere individuale, dar și unde sunt stocate fiecare dintre aceste blocuri și replicile acestora. Când un utilizator stochează un fișier în HDFS, fișierul este împărțit în blocuri de date, iar trei copii ale acestor blocuri de date sunt stocate în nodurile slave în întregul cluster Hadoop.

Este o mulțime de blocuri de date pentru a ține evidența. Așa cum v-ați putea aștepta, știind unde sunt îngropate cadavrele, face Nomenclatorul o componentă importantă într-un cluster Hadoop. Dacă numeleNode nu este disponibil, aplicațiile nu pot accesa toate datele stocate în HDFS.

Dacă aruncați o privire la figura următoare, puteți vedea daemonul NameNode care rulează pe un server nod principal. Toate informațiile de mapare care se ocupă de blocurile de date și fișierele corespunzătoare sunt stocate într-un fișier numit.

HDFS este un sistem de fișiere de jurnalizare, ceea ce înseamnă că orice schimbare de date este înregistrată într-un jurnal de editare care urmărește evenimente de la ultimul punct de control - ultima dată când a fost îmbinat jurnalul de editare. În HDFS, jurnalul de editare este menținut într-un fișier numit care este stocat pe NameNode.

Startup și funcționare NumeNode

Pentru a înțelege modul în care funcția NameNode funcționează, este util să examinați cum pornește. Deoarece scopul NameNode este de a informa aplicațiile despre câte blocuri de date au nevoie pentru a procesa și de a urmări locația exactă în care sunt stocate, are nevoie de toate locațiile blocurilor și mapările bloc-la-fi care sunt disponibile în BERBEC.

Acestea sunt pașii pe care Nomenclatorul de Date ia. Pentru a încărca toate informațiile pe care trebuie să le aibă NumeleNode după pornire, se întâmplă următoarele:

  1. NameNode încarcă fișierul în memorie.

  2. NameNode încarcă fișierul și re-redă modificările redactate pentru a actualiza metadatele de bloc care sunt deja în memorie.

  3. Demonii DataNode trimit rapoartele blocului NameNode.

    Pentru fiecare nod slave, există un raport bloc care afișează toate blocurile de date stocate acolo și descrie starea de sănătate a fiecăruia.

După terminarea procesului de pornire, NameNode are o imagine completă a tuturor datelor stocate în HDFS și este gata să primească cereri de solicitare de la clienții Hadoop.

Dat fiind că fișierele de date sunt adăugate și eliminate pe baza solicitărilor clientului, modificările sunt scrise în volumele de disc ale nodului slave, sunt actualizate jurnalul în fișier, iar modificările sunt reflectate în locațiile și metadatele stocate în memoria NumelNode.

De-a lungul vieții clusterului, daemonii DataNode trimit batai de inimă NumeNode (un semnal rapid) la fiecare trei secunde, indicând faptul că sunt activi.(Această valoare implicită este configurabilă.) La fiecare șase ore (din nou, o valoare implicită configurabilă), DataNodes trimit NameNode un raport bloc care subliniază ce blocuri de fișiere sunt pe nodurile lor. În acest fel, NameNode are întotdeauna o vizualizare curentă a resurselor disponibile din cluster.

Scrierea datelor

Pentru a crea fișiere noi în HDFS, ar trebui să aibă loc următorul proces:

  1. Clientul trimite o cerere către NumeNode pentru a crea un fișier nou.

    NameNode determină câte blocuri sunt necesare și clientului i se acordă un lease pentru crearea acestor blocuri de fișiere noi în cluster. Ca parte a acestui contract de leasing, clientul are o limită de timp pentru a finaliza sarcina de creare. (Această limită de timp asigură faptul că spațiul de stocare nu este preluat de aplicațiile client nereușite.)

  2. Clientul scrie apoi primele exemplare ale blocurilor de fișiere la nodurile slave utilizând contractul de leasing atribuit de NameNode.

    NameNode se ocupă de cererile de scriere și determină locul în care trebuie să fie scrise blocurile de fișiere și replicile acestora, echilibrarea disponibilității și a performanței. Prima copie a unui bloc de fișiere este scrisă într-un rack, iar a doua și a treia copie sunt scrise pe un alt rack decât prima copie, dar în diferite noduri slave din același rack. Acest aranjament minimizează traficul în rețea, asigurând în același timp că nici un bloc de date nu se află pe același punct de eroare.

  3. Pe măsură ce fiecare bloc este scris în HDFS, un proces special scrie toate replicile rămase către celelalte noduri slave identificate de NumeNod.

  4. După ce daemoanele DataNode confirmă că au fost create replici de bloc de fișiere, aplicația client închide fișierul și notifică numeleNode, care apoi închide leasingul deschis.

Citirea datelor

Pentru a citi fișierele din HDFS, ar trebui să aibă loc următorul proces:

  1. Clientul trimite o cerere către NumeNod pentru un fișier.

    NameNode determină blocurile care sunt implicate și aleg, pe baza proximității globale a blocurilor unul față de celălalt și de client, cea mai eficientă cale de acces.

  2. Clientul accesează apoi blocurile folosind adresele date de NameNode.

Balansarea datelor în clusterul Hadoop

Cu timpul, cu combinații de patternuri ingenioase de date (în cazul în care unele noduri slave ar putea avea mai multe date scrise) sau de noduri, este posibil ca datele să devină distribuite inegal pe rafturi și nodurile slave din clusterul dvs. Hadoop.

Această distribuție inegală poate avea un impact dăunător asupra performanței, deoarece cererea pe nodurile slave individuale va deveni dezechilibrată; nodurile cu puține date nu vor fi utilizate pe deplin; iar nodurile cu multe blocuri vor fi folosite prea mult. ( Notă: Suprasolicitarea și utilizarea necorespunzătoare se bazează pe activitatea discului, nu pe CPU sau RAM.)

HDFS include un utilitar balancer pentru a redistribui blocurile de la nodurile slave neutilizate la cele neutilizate, blochează diferite noduri și rack-uri slave. Administratorii Hadoop ar trebui să verifice în mod regulat starea de sănătate a HDFS și, dacă datele devin inegal distribuite, ar trebui să invocă utilitatea balancer.

Designul serverului NameNode

Din cauza naturii sale critice, serverul principal care rulează daemonul NameNode are nevoie de cerințe hardware diferite față de cele pentru un nod slave. În mod semnificativ, componentele la nivel de întreprindere trebuie utilizate pentru a minimiza probabilitatea unei întreruperi. De asemenea, veți avea nevoie de suficientă memorie RAM pentru a încărca în memorie toate datele despre metadate și locație despre toate blocurile de date stocate în HDFS.

Păstrați urmărirea blocurilor de date cu numeNode în HDFS - dummies

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...