Cuprins:
- Hbase este rar
- În hârtia BigTable, Google a descris sistemul de fișiere distribuit cunoscut sub numele de Google File System sau GFS. Se pare că, așa cum HBase este o implementare open source a BigTable, HDFS este o implementare open source a GFS.
- HBase este, în partea de jos, un magazin de date cu valoare cheie în care fiecare cheie este unică - ceea ce înseamnă că apare cel mult o dată în depozitul de date HBase. În plus, harta este sortată și multidimensională. Cheile sunt stocate în HBase și sortate în ordine octet-lexicografică. Fiecare valoare poate avea mai multe versiuni, ceea ce face modelul de date multidimensional. Implicit, versiunile de date sunt implementate cu un marcaj de timp.
Video: Dumnezeu este sfânt - Atributele lui Dumnezeu - Mesaj Marius Ștefănescu 2024
HBase (baza de date Hadoop) este o implementare Java a lui BigTable. Google definește BigTable ca o "hartă tridimensională, distribuită, persistentă, multidimensională. "Este o definiție destul de concisă, dar veți fi, de asemenea, de acord că este puțin pe partea complexă. Pentru a distruge complexitatea lui BigTable un pic, în urma este o discuție a fiecărui atribut.
Hbase este rar
După cum probabil ați ghicit, sistemul de stocare a datelor distribuit de BigTable a fost conceput pentru a răspunde cerințelor unor date mari. Acum, aplicațiile mari de date stochează o mulțime de date, dar conținutul mare de date este, de asemenea, adesea variabil. Imaginați-vă o masă tradițională într-o bază de date a companiei care stochează informațiile de contact ale clienților, așa cum se arată:
Numele de mijloc
Metadatele pot include adresa stradală a imaginii sau numai latitudinea și longitudinea în cazul în care imaginea este capturată din sălbăticie. Metadatele sunt variabile în conținut, astfel că unele câmpuri vor fi NULL - și este OK.
În ambele exemple, seturile de date colectate pot fi extrem de mari - în special în al doilea exemplu.Imaginile bazelor de date sunt aproape întotdeauna măsurate în terabytes sau uneori în petabytes. HBase este proiectat pentru stocarea de date mari, dar este, de asemenea, proiectat pentru stocarea înregistrărilor rare de date fără costuri. Această preocupare este crucială atunci când utilizați aplicații de date mari! Stocarea câtorva înregistrări NULL peste un milion de rânduri este risipă, dar încercați să vă imaginați deșeurile pe o rată de patru miliarde! Din fericire, acesta a fost un aspect important pentru designerii Google și comunitatea HBase. Datele rare sunt suportate fără pierderi de spațiu de stocare costisitor.
Și nu se oprește acolo. Luați în considerare puterea unui depozit de date fără schemă. Tabelul vă prezintă o tabel clasic de contact pentru clienți. Când companiile proiectează aceste mese, știu în față ceea ce vor să stocheze. Cu alte cuvinte, schema estefixată
; este definit chiar înainte ca primul octet de informații să fie stocat în tabel.
Ce se întâmplă dacă, în timp, este nevoie de un nou domeniu pentru un client? Ce zici de un mâner Twitter sau de un nou număr de telefon mobil? Sunteți aparent blocați de o schemă care nu mai funcționează pentru dvs.
Ei bine, HBase rezolvă și această provocare - nu poți doar să ignori câmpurile fără costuri atunci când nu ai date, ci și să adaugi dinamic câmpuri (sau
coloane
în limbajul HBase) fără a trebui să reproiectați schema sau să întrerupeți operațiile. Deci, vă puteți gândi la HBase ca la un magazin de date fără schemă; adică este fluid - puteți adăuga, scădea sau modifica schema pe măsură ce mergeți. HBase este distribuit și persistent
BigTable este un magazin de date distribuit și persistent.
Permanent pur și simplu înseamnă că datele stocate în BigTable (și HBase, de pildă) vor persista sau vor rămâne după terminarea programului sau a sesiunii. Este destul de simplu - persistent înseamnă că persistă - dar ar trebui să vă petreceți mai mult timp gândindu-vă la cum
datele persistă.
În hârtia BigTable, Google a descris sistemul de fișiere distribuit cunoscut sub numele de Google File System sau GFS. Se pare că, așa cum HBase este o implementare open source a BigTable, HDFS este o implementare open source a GFS.
În mod implicit, HBase utilizează HDFS pentru a-și persista datele pe spațiul de stocare pe disc. Cu toate că alte distribuții de date distribuite pot fi utilizate cu HBase, marea majoritate a instalațiilor HBase utilizează HDFS. Acest lucru are sens, având în vedere faptul că HBase este "Baza de date Hadoop" - hei, este construită în nume, pentru bunăvoință. HDFS este o tehnologie de bază care permite nu numai Hadoop, ci și HBase. Prin stocarea datelor în HDFS, HBase oferă fiabilitate, disponibilitate, scalabilitate fără probleme, performanță ridicată și multe altele - toate pe servere distribuite rentabile! HBase are o hartă clasificată multidimensională Pornind de la elementele de bază, o hartă
(cunoscută și ca
matrice asociativă) este o colecție abstractă de perechi cheie-valoare cheia este unică. Această definiție este crucială pentru înțelegerea dvs. de HBase, deoarece modelul de date HBase este deseori descris în moduri diferite - adesea incomplet ca un magazin orientat pe coloane.