Opțiunea de preprocesare a datelor hibride în Hadoop <[SET:descriptionro]îN plus față de necesitatea stocării unor volume mai mari de date frigorifice

Video: Opțiunea Car-Net 2024

Pe lângă faptul că trebuie să stocați date mai mari de date la rece, o presiune pe care o vedeți antrepozitele tradiționale de date sunt că cantități tot mai mari de resurse de procesare sunt utilizate pentru încărcarea de transformare (ELT).

Ideea din spatele utilizării Hadoop ca motor de preprocesare pentru a face față transformării datelor înseamnă că ciclurile prețioase de procesare sunt eliberate, permițând depozitului de date să adere la scopul său inițial: Răspundeți întrebărilor repetate de afaceri pentru a sprijini aplicațiile analitice. Din nou, vedeți cum poate Hadoop să completeze implementările tradiționale ale depozitului de date și să-și sporească productivitatea.

Poate că un bec mic și imaginar a aprins peste cap și te gândești: "Hei, poate că sunt unele sarcini de transformare perfect potrivite pentru capacitatea de procesare a datelor Hadoop, dar știu că există și o mulțime de lucrări de transformare în sarcinile algebrice, pas-cu-pas în care executarea SQL pe un motor baze de date relaționale ar fi cea mai bună alegere. Nu ar fi bine dacă aș putea rula SQL pe Hadoop? „

SQL pe Hadoop este deja aici. Cu abilitatea de a emite interogări SQL împotriva datelor din Hadoop, nu sunteți blocat doar cu o abordare ETL pentru fluxurile de date - puteți implementa, de asemenea, aplicații asemănătoare ELT.

O altă abordare hibridă care trebuie luată în considerare este locul în care să conduceți logica transformării: în Hadoop sau în depozitul de date? Deși unele organizații sunt preocupate de a rula orice altceva decât de analiști în depozitele lor, rămâne faptul că bazele de date relaționale sunt excelente la rularea SQL și ar putea fi un loc mai practic pentru a face o transformare decât Hadoop.