Acasă Finanțe personale Date structurate într-un mediu mare de date

Date structurate într-un mediu mare de date

Cuprins:

Video: Arhiva Cezara Mucenic_intro 2024

Video: Arhiva Cezara Mucenic_intro 2024
Anonim

Termenul date structurate se referă, în general, la date care au o lungime și un format definit pentru date mari. Exemple de date structurate includ numere, date și grupuri de cuvinte și numere numite șiruri de caractere . Majoritatea experților sunt de acord că acest tip de date reprezintă aproximativ 20% din datele existente. Datele structurate sunt datele pe care probabil că le folosiți. Este de obicei stocat într-o bază de date.

Surse de date structurate de mari dimensiuni

Deși acest lucru poate părea o afacere obișnuită, în realitate, datele structurate iau un nou rol în lumea datelor mari. Evoluția tehnologiei oferă surse noi de date structurate care sunt produse - adesea în timp real și în volume mari. Sursele de date sunt împărțite în două categorii:

  • Generate de calculator sau mașină: Datele generate de mașină se referă în general la date care sunt create de o mașină fără intervenția omului.

  • Generat de om: Acestea sunt date pe care oamenii le furnizează în interacțiune cu calculatoarele.

Unii experți susțin că există oa treia categorie care este un hibrid între mașină și om. Aici, totuși, suntem preocupați de primele două categorii.

Datele structurate generate de mașină pot include următoarele:

  • Datele senzorilor: Exemplele includ etichetele de identificare a frecvențelor radio, contoarele inteligente, dispozitivele medicale și datele sistemului Global Positioning System. Companiile sunt interesate de acest lucru pentru managementul lanțului de aprovizionare și controlul inventarului.

  • date din istoricul web: Atunci când serverele, aplicațiile, rețelele și așa mai departe funcționează, captează toate tipurile de date despre activitatea lor. Acest lucru poate însemna volum mare de date care pot fi utile, de exemplu, pentru a trata acordurile la nivel de serviciu sau a prezice încălcările securității.

  • Date la punctul de vânzare: Când casierul introduce codul de bare al oricărui produs pe care îl achiziționați, toate datele asociate cu produsul sunt generate.

  • Date financiare: Multe sisteme financiare sunt acum programatice; ele sunt operate pe baza unor reguli predefinite care automatizează procesele. Datele privind tranzacționarea stocurilor reprezintă un bun exemplu în acest sens. Acesta conține date structurate, cum ar fi simbolul companiei și valoarea în dolari. Unele dintre aceste date sunt generate automat, iar altele sunt generate de oameni.

Exemple de date generate generat de oameni ar putea include următoarele:

  • Date de intrare: Aceasta este orice informație pe care un om o poate introduce într-un calculator, cum ar fi numele, vârsta, venitul, - răspunsuri de sondaj în formă și așa mai departe. Aceste date pot fi utile pentru a înțelege comportamentul clientului.

  • Date despre fluxul prin clicuri: Datele sunt generate de fiecare dată când faceți clic pe un link de pe un site Web. Aceste date pot fi analizate pentru a determina comportamentul clienților și modelele de cumpărare.

  • Date referitoare la jocuri: Fiecare mișcare pe care o faceți într-un joc poate fi înregistrată. Acest lucru poate fi util în înțelegerea modului în care utilizatorii finali se deplasează printr-un portofoliu de jocuri.

Când este luată împreună cu milioane de alți utilizatori care prezintă aceleași informații, dimensiunea este astronomică. În plus, o mare parte din aceste date au o componentă în timp real pentru aceasta, care poate fi utilă pentru înțelegerea modelelor care au potențialul de a prezice rezultatele.

Linia de jos este că acest tip de informații pot fi puternice și pot fi utilizate în multe scopuri.

Rolul bazelor de date relaționale în datele mari

Persistența datelor se referă la modul în care o bază de date își păstrează versiunile de sine atunci când este modificată. Marele bunic al stocurilor de date persistente este sistemul de gestionare a bazelor de date relaționale . În perioada de început, industria de calcul a folosit ceea ce sunt acum considerate tehnici primitive pentru persistența datelor.

Modelul relațional a fost inventat de Edgar Codd, om de știință IBM, în anii 1970 și a fost folosit de IBM, Oracle, Microsoft și alții. Acesta este încă în uz larg și joacă un rol important în evoluția datelor importante. Înțelegerea bazei de date relaționale este importantă deoarece alte tipuri de baze de date sunt utilizate cu date mari.

Într-un model relațional, datele sunt stocate într-un tabel. Această bază de date ar conține o schemă - adică o reprezentare structurală a ceea ce este în baza de date. De exemplu, într-o bază de date relațională, schema definește tabelele, câmpurile din tabele și relațiile dintre cele două.

Datele sunt stocate în coloane, câte unul pentru fiecare atribut specific. Datele sunt de asemenea stocate pe rând. Primul tabel stochează informații despre produs; al doilea magazin de informații demografice. Fiecare are atribute diferite. Fiecare tabel poate fi actualizat cu date noi, iar datele pot fi șterse, citite și actualizate. Acest lucru este adesea realizat într-un model relațional care utilizează un limbaj de interogare structurat (SQL).

Un alt aspect al modelului relațional care utilizează SQL este că tabelele pot fi interogate utilizând o cheie comună. Cheia comună în tabele este CustomerID.

Puteți trimite o interogare, de exemplu, pentru a determina sexul clienților care au achiziționat un anumit produs. Ar putea să arate ceva de genul:

Selectați ID-ul de client, statul, genul, produsul din "tabel demografic", "tabel de produse" unde Product = XXYY
Date structurate într-un mediu mare de date

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...