Acasă Finanțe personale Elementele de bază ale datelor structurate și nestructurate în analiza predictivă - dummy

Elementele de bază ale datelor structurate și nestructurate în analiza predictivă - dummy

Video: Word, sortare scrisori, ascendentă și descendentă 2024

Video: Word, sortare scrisori, ascendentă și descendentă 2024
Anonim

Datele conținute în baze de date, documente, e-mailuri și alte fișiere de date pentru analiza predictivă pot fi clasificate fie ca date structurate, fie nestructurate. Datele structurate sunt bine organizate, urmează o ordine consecventă, sunt relativ ușor de căutat și de interogat și pot fi ușor accesate și înțelese de o persoană sau de un program de calculator.

Un exemplu clasic de date structurate este o foaie de calcul Excel cu coloane etichetate. Astfel de date structurate sunt coerente; anteturile coloanelor - de obicei, scurte și precise descrieri ale conținutului din fiecare coloană - vă spun exact ce fel de conținut să vă așteptați.

Datele structurate sunt de obicei stocate în scheme bine definite, cum ar fi bazele de date. Este de obicei tabular, cu coloane și rânduri care definesc clar atributele sale.

Datele nestructurate , pe de altă parte, tinde să fie libere, non-tabulare, dispersate și nu ușor de recuperat; aceste date necesită o intervenție deliberată pentru a le face sens. Diverse e-mailuri, documente, pagini web și fișiere (text, audio și / sau video) în locații împrăștiate sunt exemple de date nestructurate.

Este greu să clasificați conținutul datelor nestructurate. Acesta tinde să fie în mare parte text, este de obicei creat într-un amestec de stiluri de formă liberă și găsirea oricăror atribute pe care le puteți utiliza pentru a descrie sau a grupa nu este o sarcină mică.

Conținutul datelor nestructurate este greu de utilizat sau de programat. Programele de calculator nu pot analiza sau genera rapoarte referitoare la astfel de date, pur și simplu pentru că nu au o structură, nu au o caracteristică dominantă, iar elementele individuale de date nu au niciun motiv comun.

În general, există un procent mai mare de date nestructurate decât datele structurate din lume. Datele nestructurate necesită mai multă muncă pentru a le face utile, astfel că acestea primesc mai multă atenție - astfel, tinde să consume mai mult timp.

Nu subestimați importanța datelor structurate și puterea pe care o aduce analiza dvs. Este mult mai eficient să analizăm datele structurate decât să analizăm date nestructurate. Datele nestructurate pot fi, de asemenea, costisitoare pentru preprocesarea pentru analiză pe măsură ce construiți un proiect de analiză predictivă. Selectarea datelor relevante, curățarea și transformările ulterioare pot fi lungi și plictisitoare.

Datele rezultate recent organizate din acei pași necesari de preprocesare pot fi apoi folosiți într-un model de analiză predictivă. Transformarea cu amănuntul a datelor nestructurate ar putea fi însă necesară pentru a aștepta până când veți avea un model de analiză predictivă.

Explorarea datelor și analiza textului sunt două abordări pentru structurarea documentelor text, legarea conținutului lor, gruparea și rezumarea datelor acestora și descoperirea tiparelor în aceste date. Ambele discipline oferă un cadru bogat de algoritmi și tehnici pentru a mina textul împrăștiat într-o mare de documente.

De asemenea, merită remarcat faptul că platformele pentru motoare de căutare oferă instrumente ușor accesibile pentru indexarea datelor și pentru a le face să poată fi căutate.

Să comparăm datele structurate și nestructurate.

Caracteristici Structurat Asociere nestructată
Organizată Aspect
acces și interogare Greu accesibil și interogare Disponibilitate
Procentaj mai mic Procent mai mare Analiză
Eficient pentru analiză lipsa structurii - pur și simplu trebuie să-l poftești. Chiar și textul din fișierele digitale are în continuare o structură asociată cu ea, adesea apărând în metadate - de exemplu, titlurile documentelor, data la care fișierele au fost modificate ultima dată și numele autorilor. Același lucru se aplică și în cazul mesajelor e-mail: conținutul poate fi nestructurat, dar datele structurate sunt asociate cu acestea - de exemplu, data și ora la care au fost trimise, numele expeditorilor și destinatarilor, indiferent dacă conțin atașamente.
Linia de separare dintre cele două tipuri de date nu este întotdeauna clară. În general, puteți găsi întotdeauna anumite atribute ale datelor nestructurate care pot fi considerate date structurate. Indiferent dacă structura reflectă conținutul acestor date - sau utilă în analiza datelor - nu este clar în cel mai bun caz. De exemplu, datele structurate pot conține date nestructurate în cadrul acesteia. Într-un formular web, de exemplu, utilizatorii pot fi rugați să dea un feedback despre un produs, alegând un răspuns din mai multe opțiuni - dar prezintă, de asemenea, o casetă de comentarii unde pot oferi feedback suplimentar. Răspunsurile din mai multe opțiuni sunt structurate; câmpul de comentarii este nestructurat din cauza naturii sale libere. Aceste cazuri sunt cel mai bine înțelese ca o combinație de date structurate și nestructurate. Cele mai multe date sunt compuse din ambele.

Pentru un proiect de analiză predictivă de succes, atât datele structurate, cât și cele nestructurate trebuie combinate într-un format logic care poate fi analizat.

Elementele de bază ale datelor structurate și nestructurate în analiza predictivă - dummy

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...