Acasă Finanțe personale Date nestructurate într-un mediu mare de date - dummies

Date nestructurate într-un mediu mare de date - dummies

Cuprins:

Video: Cancer The Forbidden Cures 2024

Video: Cancer The Forbidden Cures 2024
Anonim

Datele nestructurate sunt date care nu respectă un format specificat pentru date mari. Dacă 20% din datele disponibile întreprinderilor sunt date structurate, celelalte 80% sunt nestructurate. Datele nestructurate sunt într-adevăr cele mai multe dintre datele pe care le veți întâlni. Pana de curand, cu toate acestea, tehnologia nu sustine cu adevarat sa faca mult cu ea, cu exceptia stocarii sau analizarea manuala.

Surse de date nestructurate de mare

Datele nestructurate sunt peste tot. De fapt, majoritatea persoanelor și organizațiilor își desfășoară viața în jurul datelor nestructurate. La fel ca în cazul datelor structurate, datele nestructurate sunt fie generate automat, fie generate de oameni.

Iată câteva exemple de date nestructurate generate de mașină:

  • Imagini prin satelit: Acestea includ date meteorologice sau date pe care guvernul le capturează în imaginile lor de supraveghere prin satelit. Gândește-te doar la Google Earth și primești fotografia.

  • Date științifice: Aceasta include imaginile seismice, datele atmosferice și fizica energiei înalte.

  • Fotografii și video: Acestea includ securizarea, supravegherea și traficul video.

  • Date radar sau sonar: Acestea includ profilurile seismice pentru vehicule, meteorologice și oceanografice.

Următoarea listă prezintă câteva exemple de date nestructurate generate de om:

  • Text intern pentru compania dvs.: Gândiți-vă la tot textul din documente, jurnale, rezultate ale sondajului și e-mailuri. Informațiile despre întreprinderi reprezintă de fapt un procent mare din informațiile de text din lumea de astăzi.

  • Date sociale: Aceste date sunt generate de platformele media sociale cum ar fi YouTube, Facebook, Twitter, LinkedIn și Flickr.

  • Date mobile: Acestea includ date cum ar fi mesaje text și informații despre locație.

  • conținutul site-ului: Acesta provine de pe orice site care furnizează conținut nestructurat, cum ar fi YouTube, Flickr sau Instagram.

Și lista continuă.

Unii cred că termenul date nestructurate este înșelător, deoarece fiecare document poate conține o structură specifică sau formatare proprie bazată pe software-ul care la creat. Totuși, ceea ce este intern al documentului este cu adevărat nestructurat.

Din păcate, datele nestructurate reprezintă cea mai mare parte a ecuației de date, iar cazurile de utilizare a datelor nestructurate se extind rapid. Numai pe partea de text, analiza textului poate fi utilizată pentru a analiza textul nestructurat și pentru a extrage date relevante și pentru a transforma aceste date în informații structurate care pot fi utilizate în diverse moduri.

De exemplu, un caz popular popular de date este analiza social media pentru a fi utilizată în conversațiile de mare volum ale clienților. În plus, sunt analizate datele nestructurate din notele de call center, e-mailurile, comentariile scrise într-un sondaj și alte documente pentru a înțelege comportamentul clienților. Aceasta poate fi combinată cu mediile sociale din zeci de milioane de surse pentru a înțelege experiența clienților.

Rolul unui CMS în gestionarea datelor de mare valoare

Organizațiile stochează unele date nestructurate în baze de date. Cu toate acestea, ele utilizează, de asemenea, sisteme de management al conținutului întreprinderii (CMS) care pot gestiona întregul ciclu de viață al conținutului. Acestea pot include conținut web, conținutul de documente și alte suporturi media.

Conform Asociației pentru Managementul Informației și Imaginii (AIIM), o organizație nonprofit care oferă educație, cercetare și bune practici, Enterprise Content Management (ECM) cuprinde "strategiile, metodele și instrumentele utilizate pentru capturarea, să păstreze și să livreze conținut și documente legate de procesele organizaționale. "Tehnologiile incluse în ECM includ managementul documentelor, gestionarea înregistrărilor, imagistica, gestionarea fluxului de lucru, gestionarea conținutului web și colaborarea.

O întreagă industrie a crescut în jurul gestionării conținutului, iar mulți furnizori de gestionare a conținutului își dezvoltă soluțiile pentru a gestiona volume mari de date nestructurate. Cu toate acestea, noile tehnologii sunt, de asemenea, în evoluție pentru a ajuta la susținerea datelor nestructurate și la analiza datelor nestructurate. Unele dintre acestea suportă atât date structurate, cât și structurate. Unii susțin fluxuri în timp real. Acestea includ tehnologii precum Hadoop, MapReduce și streaming.

Sistemele care sunt proiectate să stocheze conținut sub formă de sisteme de management al conținutului nu mai sunt soluții independente. Mai degrabă, este posibil ca acestea să facă parte dintr-o soluție generală de gestionare a datelor. De exemplu, organizația dvs. poate monitoriza feedurile Twitter care pot declanșa o căutare CMS în mod programatic.

Acum, persoana care a declanșat tweet-ul primește un răspuns înapoi care oferă o locație în care individul poate găsi produsul pe care îl poate căuta. Cel mai mare beneficiu este atunci când acest tip de interacțiune se poate întâmpla în timp real. Acesta ilustrează, de asemenea, valoarea utilizării în timp real a datelor nestructurate, structurate (date despre clienți despre persoana care a scris pe tweeted) și a datelor semi-structurate (conținutul efectiv în CMS).

Realitatea este că probabil veți folosi o abordare hibridă pentru a vă rezolva problemele mari de date. De exemplu, nu are sens să vă mutați întregul conținut de știri, de exemplu, în Hadoop la sediul dvs., deoarece ar trebui să vă ajute să gestionați date nestructurate.

Date nestructurate într-un mediu mare de date - dummies

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...