Video: Technology Stacks - Computer Science for Business Leaders 2016 2024
Inovatorii motoarelor de cautare, ca Yahoo! și Google s-au confruntat cu o problemă de date bogat. Trebuiau să găsească o modalitate de a înțelege cantitățile masive de date pe care motoarele le colecționau. Aceste companii aveau nevoie atât de înțelegerea informațiilor pe care le colectau, cât și de modul în care puteau monetiza aceste date pentru a-și susține modelul de afaceri.
Hadoop a fost dezvoltat deoarece reprezenta modul cel mai pragmatic de a permite companiilor să gestioneze cu ușurință volume imense de date. Hadoop a permis ca problemele mari să fie împărțite în elemente mai mici, astfel încât analiza să poată fi efectuată rapid și eficient din punct de vedere al costurilor.
Prin ruperea problemei mari de date în bucăți mici care ar putea fi procesate în paralel, puteți procesa informațiile și regrupa piesele mici pentru a prezenta rezultatele.
Hadoop a fost inițial construit de un Yahoo! inginer numit Doug Cutting și este acum un proiect open source administrat de Fundația Software Apache. Acesta este disponibil sub licența Apache v2. 0.
Hadoop este un element fundamental de construcție în dorința noastră de a capta și procesa date importante. Hadoop este conceput pentru a paraleliza procesarea datelor între nodurile de calcul la calculul vitezei și a ascunde latența. În centrul său, Hadoop are două componente principale:
-
Sistem distribuit de fișiere Hadoop: Un cluster fiabil de stocare a datelor, cu o lățime de bandă mare, care facilitează gestionarea fișierelor conexe între mașini.
-
Motorul MapReduce: O implementare paralelă / distribuită de înaltă performanță a algoritmului MapReduce.
Hadoop este conceput pentru a procesa cantități uriașe de date structurate și nestructurate (terabytes la petabytes) și este implementat pe rack-uri de servere de mărfuri ca un cluster Hadoop. Serverele pot fi adăugate sau eliminate din cluster în mod dinamic, deoarece Hadoop este proiectat să fie "auto-vindecător. "Cu alte cuvinte, Hadoop este capabil să detecteze modificări, inclusiv eșecuri, să se adapteze la aceste schimbări și să continue să funcționeze fără întrerupere.