Acasă Finanțe personale Descoperirea datelor și nisipurile în Hadoop - manechine

Descoperirea datelor și nisipurile în Hadoop - manechine

Video: 7 CELE MAI CALDE LOCURI DIN LUME 2024

Video: 7 CELE MAI CALDE LOCURI DIN LUME 2024
Anonim

Descoperirea datelor devine o activitate din ce în ce mai importantă pentru organizațiile care se bazează pe datele lor ca fiind un diferențiator. Astăzi, care descrie majoritatea afacerilor, abilitatea de a vedea tendințele și de a extrage semnificația din seturile de date disponibile se aplică în aproape orice domeniu.

Ceea ce impune acest lucru sunt două componente critice: analiștii cu creativitatea să se gândească la noi metode de analiză a seturilor de date pentru a pune întrebări noi (deseori acești analiști sunt numiți cercetători de date ); și să ofere acestor analiști accesul la cât mai multe date posibil.

Luați în considerare abordarea tradițională a analizei în actualul IT peisaj: Comunitatea utilizatorilor de afaceri determină de obicei întrebările de afaceri pe care trebuie să le adreseze - ei depun o cerere și echipa IT construiește un sistem care răspunde la întrebări specifice. Din punct de vedere tehnic, deoarece această activitate a fost făcută în mod tradițional într-o bază de date relațională, responsabilitatea IT a fost aceea de a construi scheme, de a elimina duplicarea datelor și așa mai departe.

Ei investesc mult timp în a face aceste date interogabile și de a răspunde rapid la întrebările pre-planificate pe care unitatea de afaceri dorește să le răspundă. Acesta este motivul pentru care bazele de date relaționale sunt de obicei considerate schema-pe-write, deoarece trebuie să faceți o mulțime de lucru pentru a scrie în baza de date.

(În multe cazuri, suma de lucru merită investiția, însă într-o lume cu date mari, valoarea și calitatea multor tipuri de date noi cu care lucrați sunt necunoscute.)

Această abordare bazată pe baze de date relaționale este bine adaptată la multe procese comune ale afacerii, cum ar fi monitorizarea vânzărilor prin geografie, produs sau canal; extragerea cunoștințelor din sondajele clienților, analiza costurilor și profitabilității și mai mult - în esență, întrebările sunt solicitate din când în când.

Datele sunt, de regulă, foarte structurate și, cel mai probabil, sunt foarte sigure în acest mediu în acest mediu; această activitate este analiză ghidată .

Ca o analogie, e ca și cum copilul tău de 8 ani face o pauză pentru vacanță la școală. În cea mai mare parte, ea poate face tot ce vrea în cadrul școlii - atâta timp cât rămâne în perimetrul împrejmuit; cu toate acestea, ea nu poate sari gardul pentru a descoperi ceea ce este în exterior. În mod specific, copilul dvs. poate explora o zonă cunoscută, protejată (în schemă) și poate analiza orice poate fi găsit în acea zonă.

Acum, imaginați-vă că mediul dvs. de analiză are o zonă de descoperire. În acest scenariu, IT furnizează date (este posibil să nu fie pe deplin de încredere și este probabil "murdar") pe o platformă flexibilă de descoperire pentru utilizatorii de afaceri pentru a cere practic orice întrebare doresc.

Prin analogie, copilului tău i se permite să urce gardul șantierului (această zonă este fără schemă), să se aventureze în pădure și să se întoarcă cu tot ce descoperă. (Desigur, în lumea IT, nu trebuie să vă faceți griji că utilizatorii de afaceri se vor pierde sau vor obține iedera otrăvită.)

Dacă vă gândiți la asta, descoperirea datelor oglindește în unele privințe evoluția extracției de aur. În timpul anilor de aglomerare de aur vechi, loviturile de aur ar provoca investiții în resurse deoarece cineva a descoperit aur - era vizibil cu ochiul liber, avea o valoare clară și, prin urmare, garanta investiția.

Acum cincizeci de ani, nimeni nu și-a putut permite mine de minereu de calitate inferioară pentru aur, deoarece nu exista o tehnologie rentabilă sau capabilă (echipamentele de mutare și de manipulare a cantităților mari de minereu nu erau disponibile) și minereuri bogate era încă disponibil (comparativ cu ziua de azi, aurul a fost relativ mai ușor de găsit). Destul de simplu, nu a fost eficient (sau chiar posibil) să lucrați prin zgomot (minereu de calitate inferioară) pentru a găsi semnalele (aurul).

Cu Hadoop, magazinele IT au acum echipamentul capital pentru a procesa milioane de tone de minereu (date cu o valoare scăzută pe octet) pentru a găsi aurul aproape invizibil cu ochiul liber (date cu valoare ridicată pe octet). Și exact despre asta este descoperirea.

Este vorba de a avea un depozit flexibil, cu costuri reduse, unde se realizează investiții de la zero la zero pentru a îmbogăți datele până la descoperirea lor. După o descoperire, s-ar putea să aibă sens să cerem mai multe resurse (pentru a descoperi descoperirea de aur) și să o formalizăm într-un proces de analiză care poate fi implementat într-un depozit de date sau într-un centru de date specializat.

Atunci când se face o analiză în zona de descoperire, probabil că este un moment bun să se angajeze departamentul IT și să se formalizeze un proces sau să li se ofere acelor oameni asistență pentru o descoperire mai aprofundată. De fapt, acest nou tipar ar putea chiar să se mute în zona de analiză ghidată.

Ideea este că IT a furnizat zonei de descoperire pentru utilizatorii de afaceri să ceară și să inventeze întrebări pe care nu le-au gândit înainte. Deoarece această zonă se află în Hadoop, este agilă și permite utilizatorilor să se aventureze într-un mod sălbatic sălbatic.

Observați că figura are o zonă cu nisip. În unele arhitecturi de referință, această zonă este combinată cu zona de descoperire. Păstrați aceste zone separate deoarece această zonă este utilizată de dezvoltatorii de aplicații și de magazinele IT pentru a-și face propriile cercetări, aplicații de testare și poate formaliza concluzii și descoperiri în zona Discovery atunci când este necesară asistența IT după o posibilă descoperire.

Arhitectura de referință este flexibilă și poate fi ușor modificată. Nimic nu este aruncat în piatră: puteți să luați ceea ce aveți nevoie, să lăsați ceea ce nu faceți și să adăugați nuanțele voastre.

De exemplu, unele organizații pot alege să co-localizeze toate zonele într-un singur cluster Hadoop; unii pot alege să folosească un singur cluster conceput pentru mai multe scopuri; iar alții le pot separa fizic.

Descoperirea datelor și nisipurile în Hadoop - manechine

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...