Cuprins:
Video: Arhiva Cezara Mucenic_intro 2024
Termenul date structurate se referă, în general, la date care au o lungime și un format definit pentru date mari. Exemple de date structurate includ numere, date și grupuri de cuvinte și numere numite șiruri de caractere . Majoritatea experților sunt de acord că acest tip de date reprezintă aproximativ 20% din datele existente. Datele structurate sunt datele pe care probabil că le folosiți. Este de obicei stocat într-o bază de date.
Surse de date structurate de mari dimensiuni
Deși acest lucru poate părea o afacere obișnuită, în realitate, datele structurate iau un nou rol în lumea datelor mari. Evoluția tehnologiei oferă surse noi de date structurate care sunt produse - adesea în timp real și în volume mari. Sursele de date sunt împărțite în două categorii:
-
Generate de calculator sau mașină: Datele generate de mașină se referă în general la date care sunt create de o mașină fără intervenția omului.
-
Generat de om: Acestea sunt date pe care oamenii le furnizează în interacțiune cu calculatoarele.
Unii experți susțin că există oa treia categorie care este un hibrid între mașină și om. Aici, totuși, suntem preocupați de primele două categorii.
Datele structurate generate de mașină pot include următoarele:
-
Datele senzorilor: Exemplele includ etichetele de identificare a frecvențelor radio, contoarele inteligente, dispozitivele medicale și datele sistemului Global Positioning System. Companiile sunt interesate de acest lucru pentru managementul lanțului de aprovizionare și controlul inventarului.
-
date din istoricul web: Atunci când serverele, aplicațiile, rețelele și așa mai departe funcționează, captează toate tipurile de date despre activitatea lor. Acest lucru poate însemna volum mare de date care pot fi utile, de exemplu, pentru a trata acordurile la nivel de serviciu sau a prezice încălcările securității.
-
Date la punctul de vânzare: Când casierul introduce codul de bare al oricărui produs pe care îl achiziționați, toate datele asociate cu produsul sunt generate.
-
Date financiare: Multe sisteme financiare sunt acum programatice; ele sunt operate pe baza unor reguli predefinite care automatizează procesele. Datele privind tranzacționarea stocurilor reprezintă un bun exemplu în acest sens. Acesta conține date structurate, cum ar fi simbolul companiei și valoarea în dolari. Unele dintre aceste date sunt generate automat, iar altele sunt generate de oameni.
Exemple de date generate generat de oameni ar putea include următoarele:
-
Date de intrare: Aceasta este orice informație pe care un om o poate introduce într-un calculator, cum ar fi numele, vârsta, venitul, - răspunsuri de sondaj în formă și așa mai departe. Aceste date pot fi utile pentru a înțelege comportamentul clientului.
-
Date despre fluxul prin clicuri: Datele sunt generate de fiecare dată când faceți clic pe un link de pe un site Web. Aceste date pot fi analizate pentru a determina comportamentul clienților și modelele de cumpărare.
-
Date referitoare la jocuri: Fiecare mișcare pe care o faceți într-un joc poate fi înregistrată. Acest lucru poate fi util în înțelegerea modului în care utilizatorii finali se deplasează printr-un portofoliu de jocuri.
Când este luată împreună cu milioane de alți utilizatori care prezintă aceleași informații, dimensiunea este astronomică. În plus, o mare parte din aceste date au o componentă în timp real pentru aceasta, care poate fi utilă pentru înțelegerea modelelor care au potențialul de a prezice rezultatele.
Linia de jos este că acest tip de informații pot fi puternice și pot fi utilizate în multe scopuri.
Rolul bazelor de date relaționale în datele mari
Persistența datelor se referă la modul în care o bază de date își păstrează versiunile de sine atunci când este modificată. Marele bunic al stocurilor de date persistente este sistemul de gestionare a bazelor de date relaționale . În perioada de început, industria de calcul a folosit ceea ce sunt acum considerate tehnici primitive pentru persistența datelor.
Modelul relațional a fost inventat de Edgar Codd, om de știință IBM, în anii 1970 și a fost folosit de IBM, Oracle, Microsoft și alții. Acesta este încă în uz larg și joacă un rol important în evoluția datelor importante. Înțelegerea bazei de date relaționale este importantă deoarece alte tipuri de baze de date sunt utilizate cu date mari.
Într-un model relațional, datele sunt stocate într-un tabel. Această bază de date ar conține o schemă - adică o reprezentare structurală a ceea ce este în baza de date. De exemplu, într-o bază de date relațională, schema definește tabelele, câmpurile din tabele și relațiile dintre cele două.
Datele sunt stocate în coloane, câte unul pentru fiecare atribut specific. Datele sunt de asemenea stocate pe rând. Primul tabel stochează informații despre produs; al doilea magazin de informații demografice. Fiecare are atribute diferite. Fiecare tabel poate fi actualizat cu date noi, iar datele pot fi șterse, citite și actualizate. Acest lucru este adesea realizat într-un model relațional care utilizează un limbaj de interogare structurat (SQL).
Un alt aspect al modelului relațional care utilizează SQL este că tabelele pot fi interogate utilizând o cheie comună. Cheia comună în tabele este CustomerID.
Puteți trimite o interogare, de exemplu, pentru a determina sexul clienților care au achiziționat un anumit produs. Ar putea să arate ceva de genul:
Selectați ID-ul de client, statul, genul, produsul din "tabel demografic", "tabel de produse" unde Product = XXYY