Acasă Finanțe personale Hadoop ca motor de prelucrare a datelor - manechine

Hadoop ca motor de prelucrare a datelor - manechine

Video: Fontes de dados 2024

Video: Fontes de dados 2024
Anonim

Unul dintre primele cazuri de utilizare pentru Hadoop în cadrul întreprinderii a fost ca un motor de transformare programabil folosit pentru a preprocesa datele legate de un depozit de date. În esență, acest caz de utilizare utilizează puterea ecosistemului Hadoop pentru a manipula și aplica transformările la datele înainte de încărcat într-un depozit de date.

Deși motorul de transformare real este nou (este Hadoop, transformările și fluxurile de date sunt codificate în Pig sau MapReduce, printre alte limbi), abordarea însăși a fost folosită pentru o perioadă de timp cu procesele Extract, Transform, Load (ETL).

Gândiți-vă la evoluția bazelor de date OLTP și ROLAP. Multe organizații cu baze de date operaționale au desfășurat și antrepozite de date. Deci, cum departamentele IT primesc date din bazele lor de date operaționale în depozitele de date? (Amintiți-vă că datele operaționale nu sunt de obicei într-o formă care să se poată analiza.)

Răspunsul este ETL și, pe măsură ce depozitele de date au crescut în utilizare și importanță, etapele procesului au devenit bine înțelese și cele mai bune practici dezvoltat. De asemenea, o serie de companii de software au început să ofere soluții ETL interesante, astfel încât departamentele IT să-și poată minimiza dezvoltarea personalizată a codului.

Procesul ETL de bază este destul de simplu: E extrageți datele dintr-o bază de date operațională, T transformați-l în forma de care aveți nevoie pentru analiză instrumentele de raportare, iar apoi L omiteți aceste date în depozitul de date.

O variație obișnuită a ETL este ELT - Extract, Încărcare și Transformare. În procesul ELT, efectuați transformări (spre deosebire de ETL) după încărcarea datelor în repozitoriul țintă. Această abordare este adesea folosită atunci când transformarea se bucură în mare măsură de un motor de procesare SQL foarte rapid pe date structurate. (Bazele de date relaționale nu pot excela la prelucrarea datelor nestructurate, dar fac o prelucrare foarte rapidă a datelor - structurate).

Dacă datele pe care le transformați este destinată unui depozit de date și multe dintre aceste transformări pot fi realizate în SQL, puteți alege să rulați transformările din depozitul de date în sine. ELT este deosebit de atrăgătoare în cazul în care cea mai mare parte a setului dvs. de competențe constă în unelte bazate pe SQL.

Cu Hadoop acum capabil de a procesa interogări SQL, atat volumul de lucru ETL cât și ELT pot fi găzduiți pe Hadoop. Figura arată serviciile ETL adăugate la arhitectura de referință.

Dacă ați desfășurat o zonă de aterizare bazată pe Hadoop, aveți aproape tot ce aveți nevoie pentru a utiliza Hadoop ca motor de transformare.Atașați deja date din sistemele dvs. operaționale în Hadoop utilizând Sqoop, care acoperă etapa de extracție. În acest moment, va trebui să implementați logica transformării în aplicații MapReduce sau Pig. După transformarea datelor, puteți încărca datele în depozitul de date utilizând Sqoop.

Utilizarea Hadoop ca motor de transformare a datelor ridică și alte posibilități. Dacă depozitul de date nu își modifică datele (este doar pentru raportare), puteți păstra pur și simplu datele pe care le generați cu procesul de transformare. În acest model, datele se transmit numai de la stânga la dreapta în figură, unde datele sunt extrase din baze de date operaționale, transformate în zona de aterizare și apoi încărcate în depozitul de date.

Cu toate datele transformate deja în zona de aterizare, nu este nevoie să o copiați înapoi la Hadoop - cu excepția cazului în care, desigur, datele vor fi modificate în depozit.

Hadoop ca motor de prelucrare a datelor - manechine

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...