Cuprins:
Video: Cancer The Forbidden Cures 2024
Datele nestructurate sunt date care nu respectă un format specificat pentru date mari. Dacă 20% din datele disponibile întreprinderilor sunt date structurate, celelalte 80% sunt nestructurate. Datele nestructurate sunt într-adevăr cele mai multe dintre datele pe care le veți întâlni. Pana de curand, cu toate acestea, tehnologia nu sustine cu adevarat sa faca mult cu ea, cu exceptia stocarii sau analizarea manuala.
Surse de date nestructurate de mare
Datele nestructurate sunt peste tot. De fapt, majoritatea persoanelor și organizațiilor își desfășoară viața în jurul datelor nestructurate. La fel ca în cazul datelor structurate, datele nestructurate sunt fie generate automat, fie generate de oameni.
Iată câteva exemple de date nestructurate generate de mașină:
-
Imagini prin satelit: Acestea includ date meteorologice sau date pe care guvernul le capturează în imaginile lor de supraveghere prin satelit. Gândește-te doar la Google Earth și primești fotografia.
-
Date științifice: Aceasta include imaginile seismice, datele atmosferice și fizica energiei înalte.
-
Fotografii și video: Acestea includ securizarea, supravegherea și traficul video.
-
Date radar sau sonar: Acestea includ profilurile seismice pentru vehicule, meteorologice și oceanografice.
Următoarea listă prezintă câteva exemple de date nestructurate generate de om:
-
Text intern pentru compania dvs.: Gândiți-vă la tot textul din documente, jurnale, rezultate ale sondajului și e-mailuri. Informațiile despre întreprinderi reprezintă de fapt un procent mare din informațiile de text din lumea de astăzi.
-
Date sociale: Aceste date sunt generate de platformele media sociale cum ar fi YouTube, Facebook, Twitter, LinkedIn și Flickr.
-
Date mobile: Acestea includ date cum ar fi mesaje text și informații despre locație.
-
conținutul site-ului: Acesta provine de pe orice site care furnizează conținut nestructurat, cum ar fi YouTube, Flickr sau Instagram.
Și lista continuă.
Unii cred că termenul date nestructurate este înșelător, deoarece fiecare document poate conține o structură specifică sau formatare proprie bazată pe software-ul care la creat. Totuși, ceea ce este intern al documentului este cu adevărat nestructurat.
Din păcate, datele nestructurate reprezintă cea mai mare parte a ecuației de date, iar cazurile de utilizare a datelor nestructurate se extind rapid. Numai pe partea de text, analiza textului poate fi utilizată pentru a analiza textul nestructurat și pentru a extrage date relevante și pentru a transforma aceste date în informații structurate care pot fi utilizate în diverse moduri.
De exemplu, un caz popular popular de date este analiza social media pentru a fi utilizată în conversațiile de mare volum ale clienților. În plus, sunt analizate datele nestructurate din notele de call center, e-mailurile, comentariile scrise într-un sondaj și alte documente pentru a înțelege comportamentul clienților. Aceasta poate fi combinată cu mediile sociale din zeci de milioane de surse pentru a înțelege experiența clienților.
Rolul unui CMS în gestionarea datelor de mare valoare
Organizațiile stochează unele date nestructurate în baze de date. Cu toate acestea, ele utilizează, de asemenea, sisteme de management al conținutului întreprinderii (CMS) care pot gestiona întregul ciclu de viață al conținutului. Acestea pot include conținut web, conținutul de documente și alte suporturi media.
Conform Asociației pentru Managementul Informației și Imaginii (AIIM), o organizație nonprofit care oferă educație, cercetare și bune practici, Enterprise Content Management (ECM) cuprinde "strategiile, metodele și instrumentele utilizate pentru capturarea, să păstreze și să livreze conținut și documente legate de procesele organizaționale. "Tehnologiile incluse în ECM includ managementul documentelor, gestionarea înregistrărilor, imagistica, gestionarea fluxului de lucru, gestionarea conținutului web și colaborarea.
O întreagă industrie a crescut în jurul gestionării conținutului, iar mulți furnizori de gestionare a conținutului își dezvoltă soluțiile pentru a gestiona volume mari de date nestructurate. Cu toate acestea, noile tehnologii sunt, de asemenea, în evoluție pentru a ajuta la susținerea datelor nestructurate și la analiza datelor nestructurate. Unele dintre acestea suportă atât date structurate, cât și structurate. Unii susțin fluxuri în timp real. Acestea includ tehnologii precum Hadoop, MapReduce și streaming.
Sistemele care sunt proiectate să stocheze conținut sub formă de sisteme de management al conținutului nu mai sunt soluții independente. Mai degrabă, este posibil ca acestea să facă parte dintr-o soluție generală de gestionare a datelor. De exemplu, organizația dvs. poate monitoriza feedurile Twitter care pot declanșa o căutare CMS în mod programatic.
Acum, persoana care a declanșat tweet-ul primește un răspuns înapoi care oferă o locație în care individul poate găsi produsul pe care îl poate căuta. Cel mai mare beneficiu este atunci când acest tip de interacțiune se poate întâmpla în timp real. Acesta ilustrează, de asemenea, valoarea utilizării în timp real a datelor nestructurate, structurate (date despre clienți despre persoana care a scris pe tweeted) și a datelor semi-structurate (conținutul efectiv în CMS).
Realitatea este că probabil veți folosi o abordare hibridă pentru a vă rezolva problemele mari de date. De exemplu, nu are sens să vă mutați întregul conținut de știri, de exemplu, în Hadoop la sediul dvs., deoarece ar trebui să vă ajute să gestionați date nestructurate.