Video: Philip Evans: How data will transform business 2025
Ca și în multe aspecte ale oricărui sistem de afaceri, datele sunt o creație umană - deci este posibil să existe anumite limite asupra utilizabilității sale obțineți-l. Iată o prezentare generală a anumitor limitări cu care vă veți confrunta:
-
Datele ar putea fi incomplete. Valorile lipsă, chiar și lipsa unei secțiuni sau a unei părți substanțiale a datelor, ar putea limita utilitatea acesteia.
De exemplu, datele dvs. ar putea să acopere doar una sau două condiții dintr-un set mai mare pe care încercați să îl modelați - ca atunci când un model construit pentru a analiza performanța pieței de acțiuni are doar date disponibile din ultimii 5 ani, datele și modelul spre asumarea unei piețe de tauri.
Momentul în care piața suferă o corecție care duce la o piață de urși, modelul nu se adaptează - pur și simplu pentru că nu a fost instruit și testat cu date care reprezintă o piață a ursilor.
Asigurați-vă că vă uitați la un interval de timp care vă oferă o imagine completă a fluctuațiilor naturale ale datelor dvs.; datele dvs. nu trebuie să fie limitate de sezonalitate .
-
Dacă utilizați date din anchete, rețineți că oamenii nu oferă întotdeauna informații exacte. Nu toată lumea va răspunde cu adevărat despre (de exemplu) de câte ori își exercită - sau câte băuturi alcoolice consumă - pe săptămână. Oamenii nu pot fi necinstiți atât de conștienți de sine, dar datele sunt încă înclinate.
-
Datele colectate din diferite surse pot varia în funcție de calitate și format. Datele colectate din diverse surse, cum ar fi anchetele, e-mailurile, formularele de intrare a datelor și site-ul web al companiei vor avea diferite atribute și structuri. Este posibil ca datele din diverse surse să nu aibă o mare compatibilitate între câmpurile de date. Aceste date necesită o preprocesare majoră înainte de a fi gata de analiză. Bara laterală însoțitoare oferă un exemplu.
Datele colectate din mai multe surse pot avea diferențe de formatare, înregistrări duplicate și neconcordanțe între câmpurile de date îmbinate. Așteptați să vă petreceți mult timp curățarea unor astfel de date - și chiar mai mult validarea fiabilității acestuia.
Pentru a determina limitele datelor, asigurați-vă că:
-
Verificați toate variabilele pe care le veți utiliza în modelul dvs.
-
Evaluați amploarea datelor, mai ales în timp, astfel încât modelul dvs. să evite capcana sezonieră.
-
Verificați valorile lipsă, identificați-le și evaluați impactul acestora asupra analizei globale.
-
Aveți grijă de valori extreme (valori extreme) și decideți dacă să le includeți în analiză.
-
Confirmați că grupul de date de antrenament și de testare este suficient de mare.
-
Asigurați-vă că tipul de date (întregi, valori zecimale sau caractere și așa mai departe) este corect și setați limitele superioare și inferioare ale posibilelor valori.
-
Acordați o atenție deosebită integrării datelor atunci când datele dvs. provin din mai multe surse.
Asigurați-vă că înțelegeți sursele de date și impactul acestora asupra calității globale a datelor.
-
Alegeți un set de date relevant care să fie reprezentativ pentru întreaga populație.
-
Alegeți parametrii potriviți pentru analiză.
Chiar și după toate aceste grijă și atenție, nu fi surprins dacă datele dvs. încă mai are nevoie de preprocessing înainte de a putea analiza cu acuratețe. Prelucrarea durează adesea mult timp și efort semnificativ, deoarece trebuie să abordeze mai multe probleme legate de datele originale - aceste aspecte includ:
-
Orice valori lipsesc din date.
-
Orice neconcordanță și / sau erori existente în date.
-
Orice duplicate sau valori depășite în date.
-
Orice normalizare sau altă transformare a datelor.
-
Orice date derivate necesare pentru analiză.
