Program de < < ca o destinație de date arhivă - dummies

Costul ieftin al stocării pentru Hadoop plus capacitatea de a interoga datele Hadoop cu SQL face Hadoop destinația principală pentru datele de arhivă. Acest caz de utilizare are un impact redus asupra organizației dvs., deoarece puteți începe să construiți setul de calificări Hadoop pe date care nu sunt stocate pe sistemele critice de performanță.

Mai mult, nu trebuie să muncești din greu pentru a ajunge la date. (Deoarece datele arhivate sunt stocate în mod normal pe sisteme care au o utilizare redusă, este mai ușor să obțineți decât date care sunt în "lumina reflectoarelor" pe sistemele critice de performanță, cum ar fi depozitele de date.) Dacă deja utilizați Hadoop ca aterizare zone, ai baza pentru arhiva ta! Pur și simplu păstrați ceea ce doriți să arhivați și ștergeți ceea ce nu faceți.

Aici, componenta arhivă conectează zona de aterizare și depozitul de date. Datele arhivate provin de la depozit și sunt apoi stocate în grupul Hadoop, care asigură și zona de aterizare. Pe scurt, puteți utiliza același cluster Hadoop pentru arhivarea datelor și pentru a acționa ca zonă de aterizare.

Tehnologia cheie Hadoop pe care o folosești pentru a efectua arhivarea este Sqoop, care poate muta datele de arhivat din depozitul de date în Hadoop. Va trebui să țineți cont de forma pe care doriți să o faceți în clusterul dvs. Hadoop. În general, fișierele Hive comprimate sunt o alegere bună.

Puteți, desigur, transforma datele din structurile depozitului într-o altă formă (de exemplu, o formă normalizată pentru a reduce redundanța), dar în general aceasta nu este o idee bună. Păstrarea datelor în aceeași structură cu cea din depozit va face mult mai ușor să efectuați o interogare completă a datelor între datele arhivate din Hadoop și datele active din depozit.

Conceptul de interogare atât a seturilor de date active, cât și a celor arhivate aduce un alt aspect: cât de mult ar trebui să arhivați datele? Există într-adevăr două opțiuni comune: arhivați totul ca datele adăugate și modificate în depozitul de date sau arhivați doar datele pe care le considerați reci.

Arhivarea a tot ceea ce are avantajul de a vă permite să difuzați cu ușurință interogări dintr-o singură interfață în întregul set de date - fără o arhivă completă, va trebui să găsiți o soluție de interogare federalizată în care ar trebui să uniți rezultatele arhiva și depozitul de date activ.

Dar dezavantajul este că actualizările regulate ale datelor fierbinți ale depozitului de date ar provoca dureri de cap pentru arhiva bazată pe Hadoop. Acest lucru se datorează faptului că orice modificare a datelor în rânduri și coloane individuale ar necesita ștergerea en gros și re-catalogarea seturilor de date existente.

Acum, datele de arhivare sunt stocate în zona dvs. de aterizare bazată pe Hadoop (presupunând că utilizați o opțiune precum fișierele comprimate Hive menționate anterior), puteți să o interogați. Acesta este locul unde soluțiile SQL pe Hadoop pot deveni interesante.

Un excelent exemplu de posibilitate este pentru instrumentele de analiză (în partea dreaptă a figurii) de a rula direct rapoarte sau analize asupra datelor arhivate stocate în Hadoop. Acest lucru nu înseamnă înlocuirea depozitului de date - la urma urmei, Hadoop nu ar fi capabil să se potrivească cu caracteristicile de performanță ale depozitului pentru a susține sute sau mai mulți utilizatori concurenți care pun întrebări complexe.

Punctul aici este că puteți folosi instrumentele de raportare împotriva lui Hadoop pentru a experimenta și a veni cu noi întrebări pentru a răspunde într-un depozit dedicat sau mart.

Când începeți primul proiect bazat pe Hadoop pentru arhivarea datelor din depozit, nu întrerupeți procesele curente până când nu le-ați testat complet pe noua soluție Hadoop. Cu alte cuvinte, dacă strategia dvs. actuală de depozitare este de a arhiva pe bandă, păstrați acest proces în loc și arhivați dublu datele în Hadoop și pe bandă până când ați testat complet scenariul (care ar include de obicei restaurarea datelor din depozit în cazul a unui eșec al depozitului).

Deși mențineți (pe termen scurt) două depozite de arhive, veți avea o infrastructură solidă și veți fi testată înainte de a vă dezafecta un proces încercat și adevărat. Acest proces vă poate asigura că rămâneți angajat - cu angajatorul dvs. actual.

Acest caz de utilizare este simplu deoarece nu există nicio schimbare în depozitul existent. Scopul afacerii este în continuare același: costurile de stocare și de licențiere mai ieftine prin migrarea datelor rare utilizate către o arhivă. Diferența în acest caz este că tehnologia din spatele arhivei este Hadoop, mai degrabă decât stocarea offline, cum ar fi banda.

În plus, diferiți furnizori de arhive au început să încorporeze Hadoop în soluțiile lor (de exemplu, permitandu-le fișierelor de arhivă proprietare să locuiască pe HDFS), așa că așteptați ca capabilitățile din acest domeniu să se extindă în curând.

Pe măsură ce dezvoltați abilitățile Hadoop (cum ar fi schimbul de date între Hadoop și bazele de date relaționale și interogarea datelor în HDFS), le puteți folosi pentru a aborda probleme mai mari, cum ar fi proiectele de analiză, care ar putea oferi o valoare adăugată pentru investiția Hadoop a organizației dvs.