Acasă Finanțe personale Hadoop MapReduce pentru Big Data - dummies

Hadoop MapReduce pentru Big Data - dummies

Cuprins:

Video: Joel Selanikio: The surprising seeds of a big-data revolution in healthcare 2024

Video: Joel Selanikio: The surprising seeds of a big-data revolution in healthcare 2024
Anonim

Pentru a înțelege pe deplin capabilitățile Hadoop MapReduce, este important să se facă diferența între MapReduce (algoritmul) implementarea MapReduce. Hadoop MapReduce este o implementare a algoritmului dezvoltat și menținut de proiectul Apache Hadoop.

Este util să te gândești la această implementare ca pe un motor MapReduce, pentru că exact așa funcționează. Oferiți o intrare (combustibil), motorul transformă intrarea în ieșire rapid și eficient și obțineți răspunsurile de care aveți nevoie.

Hadoop MapReduce include mai multe etape, fiecare cu un set important de operațiuni care ajută la atingerea obiectivului dvs. de a obține răspunsurile de care aveți nevoie de la date mari. Procesul începe cu o cerere a utilizatorului de a executa un program MapReduce și continuă până când rezultatele sunt scrise în HDFS.

HDFS și MapReduce își desfășoară activitatea pe noduri dintr-un cluster găzduit pe rafturi de servere de mărfuri. Pentru a simplifica discuția, diagrama arată numai două noduri.

Obțineți datele gata pregătite

Atunci când un client solicită executarea unui program MapReduce, primul pas este să localizați și să citiți fișierul de intrare care conține datele brute. Formatul de fișier este complet arbitrar, dar datele trebuie convertite în ceva ce poate procesa programul. Aceasta este funcția InputFormat și RecordReader. InputFormat decide modul în care fișierul va fi fragmentat în bucăți mai mici pentru procesare utilizând o funcție numită InputSplit.

Apoi atribuie un recordreader pentru a transforma datele brute pentru prelucrare de către hartă. Mai multe tipuri de înregistratori de înregistrări sunt livrate împreună cu Hadoop, oferind o mare varietate de opțiuni de conversie. Această caracteristică este una dintre modalitățile prin care Hadoop gestionează o mare varietate de tipuri de date găsite în probleme de date mari.

Lăsați harta mare de date să începă

Datele dvs. sunt acum într-o formă acceptabilă pentru a fi mapate. Pentru fiecare pereche de intrări, este apelată o instanță distinctă de hartă pentru procesarea datelor. Dar ce face cu ieșirea prelucrată și cum puteți să le urmăriți?

Harta are două capacități suplimentare pentru a răspunde la întrebări. Deoarece harta și reducerea necesității de a lucra împreună pentru procesarea datelor dvs., programul trebuie să colecteze rezultatele de la cartografii independente și să le transmită reductorilor. Această sarcină este realizată de un OutputCollector. O funcție Reporter furnizează, de asemenea, informații colectate din sarcinile de hartă, astfel încât să știți când sau în cazul în care sarcinile hărții sunt complete.

Toate aceste lucrări sunt efectuate simultan pe mai multe noduri din clusterul Hadoop.S-ar putea să aveți cazuri în care ieșirea din anumite procese de cartografiere trebuie acumulată înainte ca reductorii să poată începe. Sau, unele dintre rezultatele intermediare pot fi procesate înainte de reducere.

În plus, o parte din această ieșire poate fi pe un nod diferit de nodul în care se vor executa reductoarele pentru ieșirea specifică. Colectarea și amestecarea rezultatelor intermediare sunt efectuate de un partiționator și un fel. Sarcinile hărții vor furniza rezultatele unei anumite partiții ca intrări în sarcinile de reducere.

După ce toate sarcinile de hartă sunt complete, rezultatele intermediare sunt adunate în partiție și apare o amestecare, sortarea ieșirii pentru o prelucrare optimă prin reducere.

Reduceți și combinați pentru date mari

Pentru fiecare pereche de ieșiri, reduceți este chemat să-și îndeplinească sarcina. În mod asemănător cu hărțile, reducerea își adună rezultatele în timp ce toate sarcinile se procesează. Reducerea nu poate începe până când nu se face maparea. Producția de reducere este, de asemenea, o cheie și o valoare. În timp ce acest lucru este necesar pentru a reduce pentru a-și face munca, este posibil să nu fie cel mai eficient format de ieșire pentru aplicația dvs.

Hadoop oferă o caracteristică OutputFormat și funcționează foarte mult ca InputFormat. OutputFormat ia perechea cheie-valoare și organizează ieșirea pentru scrierea în HDFS. Ultima sarcină este de a scrie datele la HDFS. Acest lucru este realizat de RecordWriter, și se execută similar cu RecordReader, cu excepția invers. Este nevoie de date OutputFormat și o scrie în HDFS în forma necesară pentru cerințele programului.

Coordonarea tuturor acestor activități a fost gestionată în versiuni anterioare ale programului Hadoop de către un programator de locuri de muncă. Acest planificator a fost rudimentar, iar odată cu schimbarea și creșterea mixului de locuri de muncă, era clar că era nevoie de o abordare diferită. Deficitul primar al planificatorului vechi a fost lipsa gestionării resurselor. Cea mai recentă versiune de Hadoop are această nouă capacitate.

Hadoop MapReduce este inima sistemului Hadoop. Acesta oferă toate capabilitățile de care aveți nevoie pentru a rupe datele mari în bucăți ușor de gestionat, procesați datele în paralel pe clusterul distribuit și apoi faceți datele disponibile pentru consumul utilizatorilor sau procesarea suplimentară. Și face toate aceste lucruri într-o manieră foarte rezistentă, tolerantă la erori. Acesta este doar începutul.

Hadoop MapReduce pentru Big Data - dummies

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...