Acasă Finanțe personale Blocuri de date în sistemul de distribuire a fișierelor Hadoop (dummy)

Blocuri de date în sistemul de distribuire a fișierelor Hadoop (dummy)

Video: Jak wymienić rozrząd w Opel Astra G II Vauxhall 1.6 16V 2024

Video: Jak wymienić rozrząd w Opel Astra G II Vauxhall 1.6 16V 2024
Anonim

Când stocați un fișier în HDFS, sistemul îl rupe într-un set de blocuri individuale și stochează aceste blocuri în diferite noduri slave din grupul Hadoop. Acesta este un lucru cu totul normal de făcut, deoarece toate sistemele de fișiere sparge fișierele în blocuri înainte de a le depozita pe disc.

HDFS nu are idee (și nu are grijă) ce este stocat în interiorul fișierului, astfel încât fișierele brute nu sunt împărțite în conformitate cu regulile pe care noi le-am înțelege noi. Oamenii, de exemplu, ar dori limite de înregistrare - linii care să arate unde începe și se termină înregistrarea - să fie respectate.

->

HDFS deseori nu știe cu blândețe că înregistrarea finală dintr-un bloc poate fi doar o înregistrare parțială, restul conținutului fiind eliminat în următorul bloc. HDFS dorește doar să se asigure că fișierele sunt împărțite în blocuri de dimensiuni egale care se potrivesc cu dimensiunea predefinită a blocului pentru instanța Hadoop (dacă nu a fost introdusă o valoare particularizată pentru fișierul care este stocat). În figura precedentă, dimensiunea blocului este de 128 MB.

Nu toate fișierele pe care trebuie să le stocați este un multiplu exact al dimensiunii blocului sistemului dvs., astfel încât blocul de date finale pentru un fișier utilizează doar spațiul necesar. În cazul figurii precedente, blocul final de date este de 1 MB.

Conceptul de stocare a unui fișier ca o colecție de blocuri este în întregime compatibil cu modul în care funcționează în mod normal sistemele de fișiere. Dar ceea ce este diferit în ceea ce privește HDFS este scara. O dimensiune tipică a blocului pe care o vedeți într-un sistem de fișiere sub Linux este de 4KB, în timp ce o dimensiune tipică a blocului în Hadoop este de 128MB. Această valoare este configurabilă și poate fi personalizată, atât pentru o nouă valoare implicită a sistemului, cât și pentru o valoare personalizată pentru fișierele individuale.

Hadoop a fost conceput pentru a stoca date la scara petabyte, unde orice limitare potentiala a scalarii este minimizata. Dimensiunea mare a blocurilor este o consecință directă a acestei necesități de stocare a datelor pe o scară masivă.

Mai întâi, fiecare bloc de date stocat în HDFS are propriile metadate și trebuie urmărit de un server central, astfel încât aplicațiile care au nevoie să acceseze un anumit fișier pot fi direcționate oriunde sunt stocate toate blocurile fișierului. Dacă mărimea blocului era în intervalul de kilobyte, chiar și volume modeste de date în scara terabyte ar copleși serverul de metadate cu prea multe blocuri de urmărire.

În al doilea rând, HDFS este proiectat să permită o performanță ridicată, astfel încât procesarea paralelă a acestor seturi de date mari să se întâmple cât mai repede posibil. Cheia spre scalabilitatea lui Hadoop pe partea de prelucrare a datelor este, și va fi întotdeauna, paralelismul - capacitatea de a procesa blocurile individuale ale acestor fișiere mari în paralel.

Pentru a permite o prelucrare eficientă, este nevoie de un echilibru. Pe de o parte, dimensiunea blocului trebuie să fie suficient de mare pentru a garanta resursele dedicate unei unități individuale de procesare a datelor (de exemplu, o hartă sau o sarcină de reducere). Pe de altă parte, dimensiunea blocului nu poate fi atât de mare încât sistemul așteaptă foarte mult timp pentru o ultimă unitate de procesare a datelor pentru a-și termina activitatea.

Aceste două considerații, în mod evident, depind de tipul lucrărilor efectuate pe blocurile de date.

Blocuri de date în sistemul de distribuire a fișierelor Hadoop (dummy)

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...