Acasă Finanțe personale Alternativă Big Data Solutions - dummies

Alternativă Big Data Solutions - dummies

Cuprins:

Video: Beth Noveck: Demand a more open-source government 2024

Video: Beth Noveck: Demand a more open-source government 2024
Anonim

Privind trecutul Hadoop, puteți vedea soluții alternative de date mari orizontul. Aceste soluții permit lucrul cu date mari în timp real sau utilizarea tehnologiilor de baze de date alternative pentru a le gestiona și procesa. Aici veți fi prezentați cadrele de procesare în timp real, apoi platformele Massive Parallel Processing (MPP) și în cele din urmă bazele de date NoSQL care vă permit să lucrați cu date mari în afara mediului Hadoop.

->

Trebuie să fii conștient de ceea ce se numește complianță cu ACID, scurt pentru A tomicitate, C și D conformitatea cu urabilitatea. Conformitatea cu ACID este un standard prin care sunt garantate tranzacțiile corecte și fiabile ale bazei de date. În soluțiile mari de date, majoritatea sistemelor de baze de date nu sunt compatibile cu ACID, dar aceasta nu reprezintă în mod necesar o problemă majoră. Acest lucru se datorează faptului că majoritatea sistemelor de date mari utilizează sistemele de asistență decizională (DSS) care procesează date în șarjă înainte de citirea acestor date. DSS

sunt sisteme informatice care sunt utilizate pentru suport decizional organizațional. DSS non-tranzacționale nu demonstrează cerințe reale de conformitate cu ACID.

Cadre de procesare în timp real

Uneori este posibil să trebuiască să interogați fluxuri mari de date în timp real … și pur și simplu nu puteți face acest lucru folosind Hadoop. În aceste cazuri, utilizați în schimb un cadru de procesare în timp real. Un cadru de procesare în timp real

este - așa cum sugerează și numele său - un cadru care poate procesa date în timp real (sau aproape în timp real) ca acele fluxuri de date și fluxuri în sistem. În esență, cadrele de procesare în timp real sunt antiteza cadrelor de procesare pe loturi pe care le vedeți implementate în Hadoop.

Cadrele de procesare în timp real pot fi clasificate în următoarele două categorii: Cadre care reduc cheltuielile generale ale sarcinilor MapReduce pentru a crește eficiența totală a sistemului:

Soluții în această categorie include Apache Storm și Apache Spark pentru procesarea în flux în timp real.

Cadre care implementează metode inovatoare de interogare pentru a facilita interogarea în timp real a datelor importante:

  • Unele soluții din această categorie includ Dremel Google, Apache Drill, Shark pentru Apache Hive și Impala Cloudera.

  • Cadrele de procesare în flux în timp real sunt destul de utile într-o multitudine de industrii - de la analiza piețelor financiare și la optimizarea comerțului electronic și de la detectarea fraudelor în timp real la logistica optimizată a comenzilor. Indiferent de industria în care lucrați, dacă afacerea dvs. este afectată de fluxurile de date în timp real generate de oameni, mașini sau senzori, atunci un cadru de procesare în timp real vă va fi de ajutor în optimizarea și generarea de valori pentru dvs. organizare.

    Platforme de procesare masivă paralelă (MPP)

Platformele de procesare masivă paralelă (MPP) pot fi utilizate în locul MapReduce ca o abordare alternativă pentru prelucrarea datelor distribuite. Dacă obiectivul dvs. este de a implementa procesarea paralelă într-un depozit de date tradițional, atunci un MPP poate fi soluția perfectă.

Pentru a înțelege modul în care MPP se compară cu un cadru standard de procesare Paralelă MapReduce, ia în considerare următoarele. MPP execută sarcini paralele de calcul pe hardware costisitor, personalizat, în timp ce MapReduce le execută pe servere de mărfuri ieftine. În consecință, capacitățile de procesare MPP sunt restrictive la costuri. Acest lucru a spus, MPP este mai rapid și mai ușor de utilizat decât de locuri de muncă standard MapReduce. Acest lucru se datorează faptului că MPP poate fi interogat utilizând limbajul structurat de interogare (SQL), dar lucrările native MapReduce sunt controlate de limbajul de programare Java mai complicat.

Vânzătorii și produsele MPP cunoscute includ platforma Teradata de vârstă școlară, precum și soluții mai noi, cum ar fi Greenplum DCA EMC

2, Vertica HP, Netezza IBM și Exadata Oracle.

Introducerea bazelor de date NoSQL Tradiționale sistemele de gestionare a bazelor de date relaționale

(RDBMS) nu sunt echipate pentru a face față cererilor mari de date. Acest lucru se datorează faptului că bazele de date relaționale tradiționale sunt concepute să gestioneze numai seturi de date relaționale care sunt construite din date stocate în rânduri și coloane curate și astfel sunt capabile să fie interogate prin SQL (Structured Query Language).

sistemele RDBM nu sunt capabile să manipuleze date nestructurate și semistructurate. Mai mult decât atât, sistemele RDBM pur și simplu nu dispun de capacitățile de procesare și manipulare necesare pentru satisfacerea cerințelor de volum și viteză mari ale datelor. Aici intră NoSQL. Bazele de date NoSQL, cum ar fi MongoDB, sunt sisteme de baze de date distribuite nerelaționiste, care au fost concepute pentru a se ridica la provocarea mare de date. Bazele de date NoSQL ieșesc dincolo de arhitectura tradițională a bazei de date relaționale și oferă o soluție mult mai scalabilă și mai eficientă. Sistemele NoSQL facilitează interogarea de date non-SQL a datelor non-relaționale sau schematice, semi-structurate și nestructurate. În acest fel, bazele de date NoSQL sunt capabile să gestioneze sursele de date structurate, semi-structurate și nestructurate, care sunt comune în sistemele mari de date.

NoSQL oferă patru categorii de baze de date non-relaționale - baze de date grafice, baze de date de documente, magazine de chei-valori și magazine de familii de coloane. Deoarece NoSQL oferă funcționalități native pentru fiecare dintre aceste tipuri separate de structuri de date, acesta oferă o funcționalitate foarte eficientă de stocare și recuperare pentru majoritatea tipurilor de date non-relaționale. Această adaptabilitate și eficiență fac NoSQL o alegere din ce în ce mai populară pentru manipularea datelor importante și pentru depășirea provocărilor de procesare care vin împreună cu aceasta.

Există o dezbatere despre semnificația numelui NoSQL. Unii susțin că NoSQL reprezintă

Nu numai SQL, în timp ce alții susțin că acronimul reprezintă

Baze de date non-SQL . Argumentul este destul de complex și nu există nici un răspuns real tăiat și uscat.Pentru a păstra lucrurile simple, gândiți-vă la NoSQL ca o clasă de sisteme non-relaționale de gestionare a bazelor de date care nu se încadrează în spectrul sistemelor RDBM care sunt interogate folosind SQL.

Alternativă Big Data Solutions - dummies

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...