Video: Joel Selanikio: The surprising seeds of a big-data revolution in healthcare 2024
Analiza jurnalului este un caz comun de utilizare pentru un proiect inaugural Hadoop. Într-adevăr, cele mai recente utilizări ale lui Hadoop au fost pentru analiza pe scară largă a jurnalelor clickstream - jurnale care înregistrează date despre paginile web pe care oamenii le vizitează și în ce ordine le vizitează.
Toate jurnalele de date generate de infrastructura dvs. IT sunt deseori denumite evacuare de date . Un jurnal este un produs secundar al unui server de funcționare, la fel ca fumul provenit de la o conductă de eșapament a motorului de lucru. Evacuarea datelor are conotația de poluare sau deșeuri și multe întreprinderi se confruntă, fără îndoială, cu acest tip de date, cu gândul în cauză.
Datele din jurnal provin adesea rapid, iar din cauza volumelor mari produse, poate fi dificil de analizat. Valoarea potențială a acestor date este adesea neclară. Așadar, ispita în departamentele IT este de a stoca aceste date din jurnal pentru cât mai puțin timp posibil. (La urma urmei, costă bani pentru a păstra datele și dacă nu există nicio valoare comercială percepută, de ce să o păstrăm?)
Dar Hadoop schimbă matematica: Costul stocării datelor este relativ ieftin, iar Hadoop a fost inițial dezvoltat special pentru prelucrarea pe scară largă a datelor jurnalului.
Cazul de analiză a datelor din jurnal este un loc util pentru a porni călătoria dvs. Hadoop, deoarece sunt șanse bune ca datele pe care le lucrați să fie șterse sau "aruncate la podea. "Unele companii care înregistrează consistent un terabaj (TB) sau mai mult de activitate pe site-ul web pe săptămână aruncă datele fără analiză (ceea ce te face să te întrebi de ce au deranjat să o colecteze).
Pentru a începe rapid, datele din acest caz de utilizare sunt probabil ușor de obținut și, în general, nu acoperă aceleași probleme pe care le veți întâlni dacă începeți călătoria Hadoop cu alte date (guvernate).
Majoritatea gospodăriilor au acum contoare inteligente care le înregistrează consumul de energie electrică. Vehiculele mai noi au mii de senzori care înregistrează aspecte ale stării și utilizării lor. Fiecare mișcare a clicurilor și mouse-ului pe care o faceți în timpul navigării pe Internet determină generarea unei cascade de intrări în jurnal.De fiecare dată când cumpărați ceva - chiar fără să utilizați un card de credit sau card de debit - sistemele înregistrează activitatea în baze de date - și în bușteni.Puteți vedea unele dintre cele mai frecvente surse de date din jurnale: servere IT, fluxuri de clicuri web, senzori și sisteme de tranzacții.
Fiecare industrie (precum și toate tipurile de jurnal descrise mai sus) au un imens potențial de analiză valoroasă - mai ales atunci când puteți renunța la un anumit tip de activitate și apoi corelați constatările cu un alt set de date pentru a oferi context.
Luați în considerare, de exemplu, această experiență tipică de navigare pe internet și de cumpărare:
Navigați pe site, căutând elemente de cumpărare.
-
Faceți clic pentru a citi descrierile unui produs care vă atrage atenția.
-
În cele din urmă, adăugați un element în coșul dvs. de cumpărături și continuați cu checkout-ul (acțiunea de cumpărare).
-
După ce ați văzut costul transportului, totuși, decideți că elementul nu merită prețul și închideți fereastra browserului. Fiecare clic pe care l-ați făcut - și apoi ați încetat să faceți - are potențialul de a oferi informații valoroase societății din spatele acestui site de comerț electronic.
În acest exemplu, presupuneți că această afacere colectează date clickstream (date despre fiecare clic al mouse-ului și vizualizarea paginii pe care un vizitator "atinge") cu scopul de a înțelege cum să-i servească mai bine clienților. O provocare comună în rândul companiilor de comerț electronic este recunoașterea factorilor cheie care stau în spatele căruțelor de cumpărături abandonate. Atunci când efectuați o analiză mai aprofundată a datelor referitoare la clickstream și examinați comportamentul utilizatorilor pe site, modelele sunt obligate să apară.
Știe compania dvs. răspunsul la întrebarea aparent simplă: "Sunt anumite produse abandonate mai mult decât altele? "Sau răspunsul la întrebarea" Câte venituri pot fi recuperate dacă reduceți abandonarea căruciorului cu 10%? " "Următoarele dau un exemplu de tip de rapoarte pe care le puteți arăta liderilor dvs. de afaceri pentru a căuta investiția în cauza dvs. Hadoop.
Pentru a ajunge la punctul în care puteți genera datele pentru a construi graficele afișate, izolați sesiunile de navigare web ale utilizatorilor individuali (un proces cunoscut sub numele de
sessionisation) , identificați conținutul coșurilor lor de cumpărături, apoi stabiliți starea tranzacției la sfârșitul sesiunii - toate examinând datele din fluxul de click. În continuare este prezentat un exemplu de asamblare a sesiunilor de navigare web ale utilizatorilor prin gruparea tuturor clicurilor și adreselor URL pe adresa IP.
Într-un context Hadoop, lucrați întotdeauna cu chei și valori - fiecare fază a intrărilor MapReduce și ieșirea datelor în seturi de chei și valori. Cheia este adresa IP, iar valoarea constă din marcajul de timp și adresa URL. În timpul fazei hărții, sesiunile utilizatorilor sunt asamblate în paralel pentru toate blocurile de fișiere din setul de date clickstream stocate în clusterul Hadoop.
Faza hărții returnează aceste elemente:
Pagina finală vizitată
-
O listă de articole din coșul de cumpărături
-
Starea tranzacției pentru fiecare sesiune de utilizator (indexată de cheia adresei IP) Reducătorul preia aceste înregistrări și efectuează agregări în totalitatea numărului și valorii cărucioarelor abandonate pe lună și pentru a furniza totalurile celor mai uzuale pagini finale pe care cineva le-au văzut înainte de a încheia sesiunea de utilizator.