Acasă Finanțe personale Log Analiza datelor cu Hadoop - dummies

Log Analiza datelor cu Hadoop - dummies

Video: Joel Selanikio: The surprising seeds of a big-data revolution in healthcare 2024

Video: Joel Selanikio: The surprising seeds of a big-data revolution in healthcare 2024
Anonim

Analiza jurnalului este un caz comun de utilizare pentru un proiect inaugural Hadoop. Într-adevăr, cele mai recente utilizări ale lui Hadoop au fost pentru analiza pe scară largă a jurnalelor clickstream - jurnale care înregistrează date despre paginile web pe care oamenii le vizitează și în ce ordine le vizitează.

Toate jurnalele de date generate de infrastructura dvs. IT sunt deseori denumite evacuare de date . Un jurnal este un produs secundar al unui server de funcționare, la fel ca fumul provenit de la o conductă de eșapament a motorului de lucru. Evacuarea datelor are conotația de poluare sau deșeuri și multe întreprinderi se confruntă, fără îndoială, cu acest tip de date, cu gândul în cauză.

Datele din jurnal provin adesea rapid, iar din cauza volumelor mari produse, poate fi dificil de analizat. Valoarea potențială a acestor date este adesea neclară. Așadar, ispita în departamentele IT este de a stoca aceste date din jurnal pentru cât mai puțin timp posibil. (La urma urmei, costă bani pentru a păstra datele și dacă nu există nicio valoare comercială percepută, de ce să o păstrăm?)

Dar Hadoop schimbă matematica: Costul stocării datelor este relativ ieftin, iar Hadoop a fost inițial dezvoltat special pentru prelucrarea pe scară largă a datelor jurnalului.

Cazul de analiză a datelor din jurnal este un loc util pentru a porni călătoria dvs. Hadoop, deoarece sunt șanse bune ca datele pe care le lucrați să fie șterse sau "aruncate la podea. "Unele companii care înregistrează consistent un terabaj (TB) sau mai mult de activitate pe site-ul web pe săptămână aruncă datele fără analiză (ceea ce te face să te întrebi de ce au deranjat să o colecteze).

Pentru a începe rapid, datele din acest caz de utilizare sunt probabil ușor de obținut și, în general, nu acoperă aceleași probleme pe care le veți întâlni dacă începeți călătoria Hadoop cu alte date (guvernate).

Majoritatea gospodăriilor au acum contoare inteligente care le înregistrează consumul de energie electrică. Vehiculele mai noi au mii de senzori care înregistrează aspecte ale stării și utilizării lor. Fiecare mișcare a clicurilor și mouse-ului pe care o faceți în timpul navigării pe Internet determină generarea unei cascade de intrări în jurnal.

De fiecare dată când cumpărați ceva - chiar fără să utilizați un card de credit sau card de debit - sistemele înregistrează activitatea în baze de date - și în bușteni.Puteți vedea unele dintre cele mai frecvente surse de date din jurnale: servere IT, fluxuri de clicuri web, senzori și sisteme de tranzacții.

Fiecare industrie (precum și toate tipurile de jurnal descrise mai sus) au un imens potențial de analiză valoroasă - mai ales atunci când puteți renunța la un anumit tip de activitate și apoi corelați constatările cu un alt set de date pentru a oferi context.

Luați în considerare, de exemplu, această experiență tipică de navigare pe internet și de cumpărare:

Navigați pe site, căutând elemente de cumpărare.

  1. Faceți clic pentru a citi descrierile unui produs care vă atrage atenția.

  2. În cele din urmă, adăugați un element în coșul dvs. de cumpărături și continuați cu checkout-ul (acțiunea de cumpărare).

  3. După ce ați văzut costul transportului, totuși, decideți că elementul nu merită prețul și închideți fereastra browserului. Fiecare clic pe care l-ați făcut - și apoi ați încetat să faceți - are potențialul de a oferi informații valoroase societății din spatele acestui site de comerț electronic.

În acest exemplu, presupuneți că această afacere colectează date clickstream (date despre fiecare clic al mouse-ului și vizualizarea paginii pe care un vizitator "atinge") cu scopul de a înțelege cum să-i servească mai bine clienților. O provocare comună în rândul companiilor de comerț electronic este recunoașterea factorilor cheie care stau în spatele căruțelor de cumpărături abandonate. Atunci când efectuați o analiză mai aprofundată a datelor referitoare la clickstream și examinați comportamentul utilizatorilor pe site, modelele sunt obligate să apară.

Știe compania dvs. răspunsul la întrebarea aparent simplă: "Sunt anumite produse abandonate mai mult decât altele? "Sau răspunsul la întrebarea" Câte venituri pot fi recuperate dacă reduceți abandonarea căruciorului cu 10%? " "Următoarele dau un exemplu de tip de rapoarte pe care le puteți arăta liderilor dvs. de afaceri pentru a căuta investiția în cauza dvs. Hadoop.

Pentru a ajunge la punctul în care puteți genera datele pentru a construi graficele afișate, izolați sesiunile de navigare web ale utilizatorilor individuali (un proces cunoscut sub numele de

sessionisation) , identificați conținutul coșurilor lor de cumpărături, apoi stabiliți starea tranzacției la sfârșitul sesiunii - toate examinând datele din fluxul de click. În continuare este prezentat un exemplu de asamblare a sesiunilor de navigare web ale utilizatorilor prin gruparea tuturor clicurilor și adreselor URL pe adresa IP.

Într-un context Hadoop, lucrați întotdeauna cu chei și valori - fiecare fază a intrărilor MapReduce și ieșirea datelor în seturi de chei și valori. Cheia este adresa IP, iar valoarea constă din marcajul de timp și adresa URL. În timpul fazei hărții, sesiunile utilizatorilor sunt asamblate în paralel pentru toate blocurile de fișiere din setul de date clickstream stocate în clusterul Hadoop.

Faza hărții returnează aceste elemente:

Pagina finală vizitată

  • O listă de articole din coșul de cumpărături

  • Starea tranzacției pentru fiecare sesiune de utilizator (indexată de cheia adresei IP) Reducătorul preia aceste înregistrări și efectuează agregări în totalitatea numărului și valorii cărucioarelor abandonate pe lună și pentru a furniza totalurile celor mai uzuale pagini finale pe care cineva le-au văzut înainte de a încheia sesiunea de utilizator.

Log Analiza datelor cu Hadoop - dummies

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...