Alternativă Big Data Solutions - dummies

Privind trecutul Hadoop, puteți vedea soluții alternative de date mari orizontul. Aceste soluții permit lucrul cu date mari în timp real sau utilizarea tehnologiilor de baze de date alternative pentru a le gestiona și procesa. Aici veți fi prezentați cadrele de procesare în timp real, apoi platformele Massive Parallel Processing (MPP) și în cele din urmă bazele de date NoSQL care vă permit să lucrați cu date mari în afara mediului Hadoop.

Trebuie să fii conștient de ceea ce se numește complianță cu ACID, scurt pentru A tomicitate, C și D conformitatea cu urabilitatea. Conformitatea cu ACID este un standard prin care sunt garantate tranzacțiile corecte și fiabile ale bazei de date. În soluțiile mari de date, majoritatea sistemelor de baze de date nu sunt compatibile cu ACID, dar aceasta nu reprezintă în mod necesar o problemă majoră. Acest lucru se datorează faptului că majoritatea sistemelor de date mari utilizează sistemele de asistență decizională (DSS) care procesează date în șarjă înainte de citirea acestor date. DSS

sunt sisteme informatice care sunt utilizate pentru suport decizional organizațional. DSS non-tranzacționale nu demonstrează cerințe reale de conformitate cu ACID.

Cadre de procesare în timp real

Uneori este posibil să trebuiască să interogați fluxuri mari de date în timp real … și pur și simplu nu puteți face acest lucru folosind Hadoop. În aceste cazuri, utilizați în schimb un cadru de procesare în timp real. Un cadru de procesare în timp real

este - așa cum sugerează și numele său - un cadru care poate procesa date în timp real (sau aproape în timp real) ca acele fluxuri de date și fluxuri în sistem. În esență, cadrele de procesare în timp real sunt antiteza cadrelor de procesare pe loturi pe care le vedeți implementate în Hadoop.

Cadrele de procesare în timp real pot fi clasificate în următoarele două categorii: Cadre care reduc cheltuielile generale ale sarcinilor MapReduce pentru a crește eficiența totală a sistemului:

Soluții în această categorie include Apache Storm și Apache Spark pentru procesarea în flux în timp real.

Cadre care implementează metode inovatoare de interogare pentru a facilita interogarea în timp real a datelor importante:

Unele soluții din această categorie includ Dremel Google, Apache Drill, Shark pentru Apache Hive și Impala Cloudera.
Cadrele de procesare în flux în timp real sunt destul de utile într-o multitudine de industrii - de la analiza piețelor financiare și la optimizarea comerțului electronic și de la detectarea fraudelor în timp real la logistica optimizată a comenzilor. Indiferent de industria în care lucrați, dacă afacerea dvs. este afectată de fluxurile de date în timp real generate de oameni, mașini sau senzori, atunci un cadru de procesare în timp real vă va fi de ajutor în optimizarea și generarea de valori pentru dvs. organizare.

Platforme de procesare masivă paralelă (MPP)

Platformele de procesare masivă paralelă (MPP) pot fi utilizate în locul MapReduce ca o abordare alternativă pentru prelucrarea datelor distribuite. Dacă obiectivul dvs. este de a implementa procesarea paralelă într-un depozit de date tradițional, atunci un MPP poate fi soluția perfectă.

Pentru a înțelege modul în care MPP se compară cu un cadru standard de procesare Paralelă MapReduce, ia în considerare următoarele. MPP execută sarcini paralele de calcul pe hardware costisitor, personalizat, în timp ce MapReduce le execută pe servere de mărfuri ieftine. În consecință, capacitățile de procesare MPP sunt restrictive la costuri. Acest lucru a spus, MPP este mai rapid și mai ușor de utilizat decât de locuri de muncă standard MapReduce. Acest lucru se datorează faptului că MPP poate fi interogat utilizând limbajul structurat de interogare (SQL), dar lucrările native MapReduce sunt controlate de limbajul de programare Java mai complicat.

Vânzătorii și produsele MPP cunoscute includ platforma Teradata de vârstă școlară, precum și soluții mai noi, cum ar fi Greenplum DCA EMC

2, Vertica HP, Netezza IBM și Exadata Oracle.

Introducerea bazelor de date NoSQL ^{Tradiționale} sistemele de gestionare a bazelor de date relaționale

(RDBMS) nu sunt echipate pentru a face față cererilor mari de date. Acest lucru se datorează faptului că bazele de date relaționale tradiționale sunt concepute să gestioneze numai seturi de date relaționale care sunt construite din date stocate în rânduri și coloane curate și astfel sunt capabile să fie interogate prin SQL (Structured Query Language).

sistemele RDBM nu sunt capabile să manipuleze date nestructurate și semistructurate. Mai mult decât atât, sistemele RDBM pur și simplu nu dispun de capacitățile de procesare și manipulare necesare pentru satisfacerea cerințelor de volum și viteză mari ale datelor. Aici intră NoSQL. Bazele de date NoSQL, cum ar fi MongoDB, sunt sisteme de baze de date distribuite nerelaționiste, care au fost concepute pentru a se ridica la provocarea mare de date. Bazele de date NoSQL ieșesc dincolo de arhitectura tradițională a bazei de date relaționale și oferă o soluție mult mai scalabilă și mai eficientă. Sistemele NoSQL facilitează interogarea de date non-SQL a datelor non-relaționale sau schematice, semi-structurate și nestructurate. În acest fel, bazele de date NoSQL sunt capabile să gestioneze sursele de date structurate, semi-structurate și nestructurate, care sunt comune în sistemele mari de date.

NoSQL oferă patru categorii de baze de date non-relaționale - baze de date grafice, baze de date de documente, magazine de chei-valori și magazine de familii de coloane. Deoarece NoSQL oferă funcționalități native pentru fiecare dintre aceste tipuri separate de structuri de date, acesta oferă o funcționalitate foarte eficientă de stocare și recuperare pentru majoritatea tipurilor de date non-relaționale. Această adaptabilitate și eficiență fac NoSQL o alegere din ce în ce mai populară pentru manipularea datelor importante și pentru depășirea provocărilor de procesare care vin împreună cu aceasta.

Există o dezbatere despre semnificația numelui NoSQL. Unii susțin că NoSQL reprezintă

Nu numai SQL, în timp ce alții susțin că acronimul reprezintă

Baze de date non-SQL . Argumentul este destul de complex și nu există nici un răspuns real tăiat și uscat.Pentru a păstra lucrurile simple, gândiți-vă la NoSQL ca o clasă de sisteme non-relaționale de gestionare a bazelor de date care nu se încadrează în spectrul sistemelor RDBM care sunt interogate folosind SQL.