Video: Introduction to Amazon Web Services by Leo Zhadanovsky 2024
Când încerci să plictisești ceea ce înseamnă un mediu de analiză ar putea să arate ca și în viitor, vă împiedicăți din nou în timp modelul zonei de aterizare Hadoop. De fapt, nu mai este nici o discuție orientată spre viitor, deoarece zona de aterizare a devenit calea pe care companiile cu perspectivă încearcă acum să economisească costurile IT și oferă o platformă pentru analiza inovativă a datelor.
Deci ce anume este zona de aterizare? La cel mai înalt nivel, zona de aterizare este doar locul central în care datele vor ateriza în întreprindere - extragerile săptămânale ale datelor din bazele de date operaționale, de exemplu sau din sistemele care generează fișiere log. Hadoop este un depozit util în care să aterizeze date, din aceste motive:
-
Se poate ocupa de toate tipurile de date.
-
Este ușor de scalabil.
-
Este ieftin.
-
Odată ce aterizați datele în Hadoop, aveți flexibilitatea de a interoga, analiza sau procesa datele într-o varietate de moduri.
Această diagramă arată doar o parte a povestirii și nu este completă. La urma urmei, trebuie să știți cum se deplasează datele de la zona de aterizare la depozitul de date și așa mai departe.
Punctul de plecare pentru discuția privind modernizarea unui depozit de date trebuie să fie modul în care organizațiile folosesc depozitele de date și provocările cu care se confruntă departamentele IT.
În anii 1980, odată ce organizațiile au devenit bune pentru a-și păstra informațiile operaționale în bazele de date relaționale (tranzacții de vânzări, de exemplu, sau statutul lanțului de aprovizionare), liderii de afaceri au început să dorească rapoartele generate de aceste date relaționale. Cele mai vechi magazine de relații erau baze de date operaționale și au fost concepute pentru procesarea online a tranzacțiilor (OLTP), astfel încât înregistrările să poată fi inserate, actualizate sau șterse cât mai repede posibil.
Aceasta este o arhitectură impracticabilă pentru raportarea și analiza la scară largă, astfel încât bazele de date Relational Online Analytical Processing (ROLAP) au fost dezvoltate pentru a răspunde acestei nevoi. Acest lucru a condus la evoluția unui nou tip de RDBMS: un depozit de date , care este o entitate separată și trăiește alături de magazinele de date operaționale ale unei organizații.
Acest lucru se bazează pe utilizarea instrumentelor construite în scopuri pentru o mai mare eficiență: aveți magazine de date operaționale, care sunt proiectate să proceseze eficient tranzacțiile și depozite de date, care sunt proiectate să susțină analize și rapoarte repetate.
Depozitele de date se află sub stres sporit, din următoarele motive:
-
Creșterea cererii de a păstra perioade mai lungi de date online.
-
Creșterea cererii de prelucrare a resurselor pentru transformarea datelor pentru utilizarea în alte depozite și martor de date.
-
Creșterea cererii de analize inovatoare, care impune ca analiștii să pună întrebări cu privire la datele depozitului, în plus față de rapoartele periodice care se fac deja. Acest lucru poate duce la o prelucrare suplimentară semnificativă.
În figură, puteți vedea depozitul de date prezentat ca resursă principală pentru diferitele tipuri de analize listate în partea dreaptă a figurinei. Aici veți vedea și conceptul de zonă de debarcare reprezentată, unde Hadoop va stoca date dintr-o varietate de surse de date primite.
Pentru a activa o zonă de aterizare Hadoop, va trebui să vă asigurați că puteți scrie date din diferite surse de date în HDFS. Pentru bazele de date relaționale, o soluție bună ar fi să utilizați Sqoop.
Dar aterizarea datelor este doar începutul.
Când transferați date din mai multe surse în zona dvs. de aterizare, o problemă cu care veți întâlni în mod inevitabil este calitatea datelor. Este obișnuit ca firmele să aibă mai multe baze de date operaționale, unde detaliile cheie sunt diferite, de exemplu, faptul că un client ar putea fi cunoscut sub numele de "D. deRoos "într-o singură bază de date și" Dirk deRoos "într-o altă bază de date.
O altă problemă de calitate constă în sisteme în care există o dependență puternică de introducerea manuală a datelor, fie de la clienți, fie de la personal - aici nu este neobișnuit să găsim în câmpurile de date numele de familie și alte denumiri.
Problemele legate de calitatea datelor sunt o afacere importantă pentru mediile de depozitare a datelor și de aceea efortul depinde foarte mult de etapele de curățare și de validare, deoarece datele din alte sisteme sunt procesate în timp ce sunt încărcate în depozit. Totul se reduce la încredere : dacă datele pe care le adresați întrebări sunt murdare, nu puteți avea încredere în răspunsurile din rapoartele dvs.
Deși există un potențial uriaș de a avea acces la numeroase seturi de date din diferite surse din zona de aterizare Hadoop, trebuie să luați în calcul calitatea datelor și cât de mult puteți avea încredere în date.