Video: CUPA MEA MENSTRUALĂ + DEMO - SEXUL vs BARZA 2024
Uneori, când se apropie date mari, companiile se confruntă cu o cantitate imensă de date și puține idei despre unde să meargă în continuare. Introduceți streaming de date. Atunci când o cantitate semnificativă de date trebuie procesată rapid în timp aproape real pentru a obține informații, datele în mișcare sub forma datelor streaming reprezintă cel mai bun răspuns.
Care sunt datele care sunt nu în repaus? Acestea ar fi sisteme care gestionează tranzacții active și, prin urmare, trebuie să aibă persistență. În aceste cazuri, datele vor fi stocate într-un magazin de date operațional. Cu toate acestea, în alte situații, acele tranzacții au fost executate și este timpul să analizăm acele date de obicei într-un depozit de date sau într-un depozit de date.
Aceasta înseamnă că informațiile sunt procesate în lot și nu în timp real. Când organizațiile își planifică viitorul, trebuie să fie capabili să analizeze o mulțime de date, de la informații despre ce cumpără clienții și de ce. Este important să înțelegeți indicatorii principali ai schimbării. Cu alte cuvinte, cum vor afecta schimbările ce produse și servicii va oferi o organizație în viitor?
Multe organizații de cercetare folosesc acest tip de analize de date pentru a descoperi noi medicamente. O societate de asigurări ar putea dori să compare modelele accidentelor rutiere dintr-o zonă geografică largă cu statisticile meteorologice. În aceste cazuri, nu există niciun beneficiu pentru a gestiona aceste informații în timp real. În mod clar, analiza trebuie să fie rapidă și practică. În plus, organizațiile vor analiza datele pentru a vedea dacă apar noi modele.
Datele de streaming sunt o platformă analitică de calcul care se axează pe viteză. Acest lucru se datorează faptului că aceste aplicații necesită un flux continuu de date adesea nestructurate care urmează să fie procesate. Prin urmare, datele sunt analizate continuu și transformate în memorie înainte de a fi stocate pe un disc. Procesarea fluxurilor de date prin prelucrarea "ferestrelor de timp" ale datelor din memorie într-un grup de servere.
Acest lucru este similar cu abordarea gestionării datelor în repaus folosind Hadoop. Diferența principală este problema vitezei. În grupul Hadoop, datele sunt colectate în modul lot și apoi procesate. Viteza contează mai puțin în Hadoop decât în fluxul de date. Unele principii cheie definesc atunci când se utilizează fluxuri este cel mai adecvat:
-
Atunci când este necesar să se determine o oportunitate de cumpărare cu amănuntul la momentul implicării, fie prin intermediul mass-media sociale, fie prin mesaje bazate pe permisiune
-
Colectarea informațiilor despre mișcarea site securizat
-
Pentru a putea reacționa la un eveniment care necesită un răspuns imediat, cum ar fi o întrerupere a serviciului sau o modificare a stării medicale a unui pacient
-
Calculul în timp real a costurilor care depind de variabile cum ar fi utilizarea și resurse disponibile
Datele de streaming sunt utile atunci când analiza trebuie făcută în timp real, în timp ce datele sunt în mișcare.De fapt, valoarea analizei (și adesea a datelor) scade cu timpul. De exemplu, dacă nu puteți analiza și acționa imediat, o oportunitate de vânzare ar putea fi pierdută sau o amenințare ar putea fi nedetectată.
Următoarele sunt câteva exemple care vă pot explica modul în care acest lucru este util.
O centrală electrică trebuie să fie un mediu foarte sigur, astfel încât indivizii neautorizați să nu interfereze cu furnizarea energiei către clienți. Companiile adesea plasează senzori în jurul perimetrului unui site pentru a detecta mișcarea. Dar ar putea exista o problemă. Există o diferență enormă între un iepure care râde în jurul locului și o mașină care conduce rapid și deliberat. Prin urmare, cantitatea vastă de date provenite de la acești senzori trebuie analizată în timp real, astfel încât să se audă o alarmă numai atunci când există o amenințare reală.
O companie de telecomunicații pe o piață extrem de competitivă dorește să se asigure că întreruperile sunt atent monitorizate, astfel încât o scădere detectată a nivelurilor de servicii poate fi escaladată la grupul adecvat. Sistemele de comunicații generează volume imense de date care trebuie analizate în timp real pentru a lua măsurile corespunzătoare. O întârziere în detectarea unei erori poate avea un impact semnificativ asupra satisfacției clientului.
Este inutil să spunem că întreprinderile se confruntă cu o mulțime de date care trebuie procesate și analizate în timp real. Prin urmare, mediul fizic care susține acest nivel de reacție este esențial. Mediile de streaming de date necesită în mod obișnuit o soluție hardware clusteră și, uneori, va fi necesară o abordare masivă de procesare paralelă pentru a face față analizei.
Un factor important pentru analiza datelor în flux este faptul că este o analiză cu o singură trecere. Cu alte cuvinte, analistul nu poate reanaliza datele după ce este transmis în flux. Acest lucru este frecvent în aplicațiile în care căutați absența datelor.
Dacă sunt necesare mai multe treceri, datele vor trebui să fie introduse într-un fel de depozit unde pot fi efectuate analize suplimentare. De exemplu, este adesea necesar să se stabilească contextul. Cum se compară aceste date de streaming cu datele istorice? Această corelație vă poate spune multe despre ce sa schimbat și ce ar putea însemna această schimbare pentru afacerea dvs.