Video: Develop Your Embedded Applications Faster: Comparing C and Golang - Marcin Pasinski, Mender.io 2024
Veți descoperi că ecosistemul Hadoop are multe componente, toate acestea existând ca propriile proiecte Apache. Deoarece Hadoop a crescut considerabil și se confruntă cu unele schimbări semnificative ulterioare, diferite versiuni ale acestor componente ale comunității open source ar putea să nu fie pe deplin compatibile cu alte componente. Acest lucru reprezintă dificultăți considerabile pentru persoanele care doresc să obțină un început independent cu Hadoop prin descărcarea și compilarea de proiecte direct de la Apache.
Red Hat este, pentru mulți oameni, modelul de a câștiga cu succes bani pe piața de software open source. Ceea ce a făcut Red Hat este de a lua Linux (un sistem de operare open source), de a le uni toate componentele necesare, de a construi un instalator simplu și de a oferi suport plătit tuturor clienților.
În același mod în care Red Hat a furnizat un pachet la îndemână pentru Linux, o serie de companii au grupat Hadoop și unele tehnologii conexe în propriile distribuții Hadoop. Această listă descrie cele mai proeminente:
Cloudera Enterprise, un produs poziționat de Cloudera în centrul a ceea ce se numește Enterprise Data Hub, include Cloudera Distribution for Hadoop (CDH), o distribuție bazată pe open-source a Hadoop și a proiectelor sale asociate ca managerul său privat Cloudera. De asemenea, este inclus un abonament de suport tehnic pentru componentele principale ale CDH.
Modelul principal de afaceri al companiei Cloudera se bazează mult timp pe capacitatea sa de a mobiliza distribuția populară a CDH și de a oferi servicii și servicii plătite. În toamna anului 2013, Cloudera a anunțat în mod oficial că se concentrează pe adăugarea de componente proprietare cu valoare adăugată pe lângă Hadoop cu sursă deschisă, pentru a acționa ca un diferențiator.
De asemenea, Cloudera a făcut o practică obișnuită de a accelera adoptarea codului sursă open-source alfa și beta pentru noile versiuni Hadoop. Abordarea sa este de a lua componentele pe care le consideră mature și de a le moderniza în bibliotecile open source disponibile pentru producție, care sunt incluse în distribuția sa.EMC
: Pivotal HD, distribuția Apache Hadoop de la EMC, integrează nativ tehnologia bazei de date masiv paralel procesare (MPP) (cunoscută anterior ca Greenplum și acum cunoscută sub numele de HAWQ) cu Apache Hadoop.Rezultatul este o distribuție de înaltă performanță Hadoop cu procesare SQL adevărată pentru Hadoop. Întrebările bazate pe SQL și alte instrumente de inteligență de afaceri pot fi folosite pentru a analiza datele stocate în HDFS.
Hortonworks : Un alt jucător important pe piața Hadoop, Hortonworks are cel mai mare număr de comitete și contribuitori de cod pentru componentele ecosistemului Hadoop. (Committers sunt gatekeepers de proiecte Apache și au puterea de a aproba modificările de cod.)
Hortonworks este un spin-off de la Yahoo!, care a fost pilotul inițial al companiei Hadoop, deoarece avea nevoie de o platformă pe scară largă pentru a-și susține afacerile cu motoarele de căutare. Dintre toți vânzătorii de distribuție Hadoop, Hortonworks este cel mai angajat al mișcării open source, bazat pe volumul mare al activităților de dezvoltare pe care le aduce comunității și deoarece toate eforturile de dezvoltare sunt eventual pliate în baza de cod open source. Modelul de afaceri Hortonworks se bazează pe capacitatea sa de a-și mobiliza distribuția populară a HDP și de a oferi servicii și suport plătite. Cu toate acestea, nu vinde software proprietar. Mai degrabă, compania susține cu entuziasm ideea de a lucra în cadrul comunității open source pentru a dezvolta soluții care să răspundă cerințelor de caracteristică a întreprinderii (de exemplu, procesarea mai rapidă a interogărilor cu stupi).
Hortonworks a falsificat o serie de relații cu companii înființate în industria de gestionare a datelor: Teradata, Microsoft, Informatica și SAS, de exemplu. Deși aceste companii nu au propria lor ofertă Hadoop, ei colaborează cu Hortonworks pentru a oferi soluții integrate Hadoop cu seturi de produse proprii.
Oferta Hortonworks Hadoop este Hortonworks Data Platform (HDP), care include Hadoop, precum și instrumente și proiecte conexe. De asemenea, spre deosebire de Cloudera, Hortonworks lansează doar versiuni HDP cu cod la nivel de producție din comunitatea open source.
IBM
: Big Blue oferă o gamă largă de oferte Hadoop, cu accent pe valoarea adăugată pe partea superioară a stivei Hadoop cu sursă deschisă.
Intel: Distribuția Intel pentru Apache Hadoop (Intel Distribution) oferă procesare distribuită și gestionare a datelor pentru aplicații de întreprindere care analizează date mari.
Caracteristicile cheie includ performanțe excelente cu optimizări pentru procesoare Intel Xeon, stocare Intel SSD și rețele Intel 10GbE; securitatea datelor prin criptare și decriptare în HDFS și controlul accesului pe bază de roluri cu granularitatea la nivel de celule în HBase; o performanță îmbunătățită a interogării Hive; suport pentru analiza statistică cu un conector pentru R, pachetul statistic popular sursă; și grafică analitică prin Intel Graph Builder. MapR
: Pentru o distribuție completă pentru Apache Hadoop și proiectele aferente care sunt independente de Apache Software Foundation, nu căutați mai departe decât MapR. Nu are dependențe de Java sau se bazează pe sistemul de fișiere Linux, MapR este promovat ca singura distribuție Hadoop care oferă protecție completă a datelor, fără puncte de eșec și avantaje semnificative.
Sunt disponibile trei ediții MapR: M3, M5 și M7. Ediția M3 este gratuită și disponibilă pentru utilizare nelimitată în producție; MapR M5 este o ofertă de software de abonament la nivel intermediar; și MapR M7 este o distribuție completă pentru Apache Hadoop și HBase care include Pig, Hive, Sqoop și multe altele.