Acasă Finanțe personale Zona de aterizare bazată pe Hadoop - dummy

Zona de aterizare bazată pe Hadoop - dummy

Video: Introduction to Amazon Web Services by Leo Zhadanovsky 2024

Video: Introduction to Amazon Web Services by Leo Zhadanovsky 2024
Anonim

Când încerci să plictisești ceea ce înseamnă un mediu de analiză ar putea să arate ca și în viitor, vă împiedicăți din nou în timp modelul zonei de aterizare Hadoop. De fapt, nu mai este nici o discuție orientată spre viitor, deoarece zona de aterizare a devenit calea pe care companiile cu perspectivă încearcă acum să economisească costurile IT și oferă o platformă pentru analiza inovativă a datelor.

Deci ce anume este zona de aterizare? La cel mai înalt nivel, zona de aterizare este doar locul central în care datele vor ateriza în întreprindere - extragerile săptămânale ale datelor din bazele de date operaționale, de exemplu sau din sistemele care generează fișiere log. Hadoop este un depozit util în care să aterizeze date, din aceste motive:

  • Se poate ocupa de toate tipurile de date.

  • Este ușor de scalabil.

  • Este ieftin.

  • Odată ce aterizați datele în Hadoop, aveți flexibilitatea de a interoga, analiza sau procesa datele într-o varietate de moduri.

Această diagramă arată doar o parte a povestirii și nu este completă. La urma urmei, trebuie să știți cum se deplasează datele de la zona de aterizare la depozitul de date și așa mai departe.

Punctul de plecare pentru discuția privind modernizarea unui depozit de date trebuie să fie modul în care organizațiile folosesc depozitele de date și provocările cu care se confruntă departamentele IT.

În anii 1980, odată ce organizațiile au devenit bune pentru a-și păstra informațiile operaționale în bazele de date relaționale (tranzacții de vânzări, de exemplu, sau statutul lanțului de aprovizionare), liderii de afaceri au început să dorească rapoartele generate de aceste date relaționale. Cele mai vechi magazine de relații erau baze de date operaționale și au fost concepute pentru procesarea online a tranzacțiilor (OLTP), astfel încât înregistrările să poată fi inserate, actualizate sau șterse cât mai repede posibil.

Aceasta este o arhitectură impracticabilă pentru raportarea și analiza la scară largă, astfel încât bazele de date Relational Online Analytical Processing (ROLAP) au fost dezvoltate pentru a răspunde acestei nevoi. Acest lucru a condus la evoluția unui nou tip de RDBMS: un depozit de date , care este o entitate separată și trăiește alături de magazinele de date operaționale ale unei organizații.

Acest lucru se bazează pe utilizarea instrumentelor construite în scopuri pentru o mai mare eficiență: aveți magazine de date operaționale, care sunt proiectate să proceseze eficient tranzacțiile și depozite de date, care sunt proiectate să susțină analize și rapoarte repetate.

Depozitele de date se află sub stres sporit, din următoarele motive:

  • Creșterea cererii de a păstra perioade mai lungi de date online.

  • Creșterea cererii de prelucrare a resurselor pentru transformarea datelor pentru utilizarea în alte depozite și martor de date.

  • Creșterea cererii de analize inovatoare, care impune ca analiștii să pună întrebări cu privire la datele depozitului, în plus față de rapoartele periodice care se fac deja. Acest lucru poate duce la o prelucrare suplimentară semnificativă.

În figură, puteți vedea depozitul de date prezentat ca resursă principală pentru diferitele tipuri de analize listate în partea dreaptă a figurinei. Aici veți vedea și conceptul de zonă de debarcare reprezentată, unde Hadoop va stoca date dintr-o varietate de surse de date primite.

Pentru a activa o zonă de aterizare Hadoop, va trebui să vă asigurați că puteți scrie date din diferite surse de date în HDFS. Pentru bazele de date relaționale, o soluție bună ar fi să utilizați Sqoop.

Dar aterizarea datelor este doar începutul.

Când transferați date din mai multe surse în zona dvs. de aterizare, o problemă cu care veți întâlni în mod inevitabil este calitatea datelor. Este obișnuit ca firmele să aibă mai multe baze de date operaționale, unde detaliile cheie sunt diferite, de exemplu, faptul că un client ar putea fi cunoscut sub numele de "D. deRoos "într-o singură bază de date și" Dirk deRoos "într-o altă bază de date.

O altă problemă de calitate constă în sisteme în care există o dependență puternică de introducerea manuală a datelor, fie de la clienți, fie de la personal - aici nu este neobișnuit să găsim în câmpurile de date numele de familie și alte denumiri.

Problemele legate de calitatea datelor sunt o afacere importantă pentru mediile de depozitare a datelor și de aceea efortul depinde foarte mult de etapele de curățare și de validare, deoarece datele din alte sisteme sunt procesate în timp ce sunt încărcate în depozit. Totul se reduce la încredere : dacă datele pe care le adresați întrebări sunt murdare, nu puteți avea încredere în răspunsurile din rapoartele dvs.

Deși există un potențial uriaș de a avea acces la numeroase seturi de date din diferite surse din zona de aterizare Hadoop, trebuie să luați în calcul calitatea datelor și cât de mult puteți avea încredere în date.

Zona de aterizare bazată pe Hadoop - dummy

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...