Cuprins:
- Verificați formatele de date
- Verificați tipurile de date
- Grăbește-ți datele
- Verificați acuratețea datelor
- Identificați valori extreme
- Afacerea cu valori lipsă
- Verificați presupunerile cu privire la distribuirea datelor
- Faceți copii de rezervă și documentați tot ce faceți
Video: O metoda in care sa iei permisul in mod sigur 2024
Pachetele software statistice sunt extrem de puternice în aceste zile, dar nu pot depăși datele de calitate slabă. În continuare este o listă de verificare a lucrurilor pe care trebuie să le faceți înainte de a vă dezactiva construirea modelelor statistice.
Verificați formatele de date
Analiza dvs. începe întotdeauna cu un fișier de date brute. Fișierele cu date brute se găsesc în diferite forme și dimensiuni. Datele principale sunt diferite de datele PC-urilor, datele din foile de calcul sunt formatate diferit decât datele web și așa mai departe. Și în epoca datelor mari, cu siguranță veți fi confruntate cu date dintr-o varietate de surse. Primul pas în analizarea datelor dvs. este să vă asigurați că puteți citi fișierele pe care le primiți.
Trebuie să te uiți la ceea ce conține fiecare câmp. De exemplu, nu este înțelept să avem încredere că doar pentru că un câmp este listat ca câmp de caractere, acesta conține de fapt date despre caractere.
Verificați tipurile de date
Toate datele se încadrează în una din cele patru categorii care afectează ce tip de statistici se pot aplica în mod corespunzător:
-
Datele nominale sunt în esență doar un nume sau un identificator.
-
Datele ordonale pun ordine în ordine de la cel mai mic la cel mai înalt.
-
Datele intermediare reprezintă valori în care diferențele dintre ele sunt comparabile.
-
Datele raportului sunt asemănătoare cu datele intervalului, cu excepția faptului că permite și o valoare de 0.
Este important să înțelegeți care sunt categoriile în care se află datele dvs. înainte de al alimenta în software-ul statistic. În caz contrar, riscați să se termine cu un gabberish perfect rezonabil.
Grăbește-ți datele
Obținerea unui sentiment de distribuire a datelor este importantă. Puteți rula proceduri statistice până când veți fi albastru în față, dar niciunul dintre ele nu vă va oferi o perspectivă cât mai largă în ceea ce arată datele dvs. ca un simplu grafic.
Verificați acuratețea datelor
După ce vă convine că datele sunt formatate așa cum doriți, trebuie să vă asigurați că sunt exacte și că are sens. Acest pas presupune cunoașterea domeniului în care lucrați.
Nu există într-adevăr o abordare tăiată și uscată pentru a verifica acuratețea datelor. Ideea de bază este să formulezi câteva proprietăți pe care credeți că datele ar trebui să le prezinte și să testeze datele pentru a vedea dacă aceste proprietăți se mențin. Prețurile acțiunilor sunt întotdeauna pozitive? Pot codifica toate codurile produselor lista celor valide? În esență, încercați să vă dați seama dacă datele sunt într-adevăr ceea ce vi sa spus că este.
Identificați valori extreme
Outliers sunt puncte de date care nu sunt în regulă cu restul datelor. Ele sunt fie valori foarte mari, fie foarte mici comparativ cu restul setului de date.
Exigențele sunt problematice, deoarece pot compromite serios statisticile și procedurile statistice. Un singur excedent poate avea un impact imens asupra valorii mediei. Deoarece media ar trebui să reprezinte centrul datelor, într-un anumit sens, acest outlier face ca media să fie inutilă.
În cazul în care se confruntă cu valori extreme, strategia cea mai comună este de a le șterge. În unele cazuri, totuși, poate doriți să le luați în considerare. În aceste cazuri, de obicei, este de dorit să faceți analiza de două ori - o dată cu valori excepționale incluse și odată cu excluse. Aceasta vă permite să evaluați ce metodă oferă rezultate mai utile.
Afacerea cu valori lipsă
Valorile lipsă sunt una dintre cele mai frecvente (și enervante) probleme cu datele pe care le veți întâlni. Primul dvs. impuls ar fi să renunți la înregistrări cu valori lipsă din analiza dvs. Problema cu aceasta este că valorile lipsă sunt adesea nu doar gloanțe aleatoare de date aleatorii.
Verificați presupunerile cu privire la distribuirea datelor
Multe proceduri statistice depind de presupunerea că datele sunt distribuite într-un anumit mod. Dacă această ipoteză nu este cazul, precizia predicțiilor dvs. suferă.
Cea mai comună ipoteză pentru tehnicile de modelare discutate în această carte este că datele sunt în mod normal distribuite.
Sau nu. În cazurile în care datele nu sunt distribuite așa cum trebuie, toate nu sunt neapărat pierdute. Există o varietate de moduri de transformare a datelor pentru a obține distribuția în forma de care aveți nevoie.
Una dintre cele mai bune modalități de a verifica exactitatea unui model statistic este să îl testezi efectiv împotriva datelor după ce a fost construit. O modalitate de a face acest lucru este împărțirea întâmplătoare a setului de date în două fișiere. S-ar putea să numiți aceste fișiere Analiză și Test, respectiv.
Trebuie să împărțiți datele aleatoriu pentru a fi eficiente. Nu puteți împărți setul de date în jumătatea superioară și în jumătatea de jos, de exemplu. Aproape toate fișierele de date sunt sortate cumva - după dată dacă nu altceva. Aceasta introduce modele sistematice care vor da diferite porțiuni ale fișierului proprietăți statistice diferite. Atunci când împărțiți fișierul la întâmplare, dați fiecărei înregistrări o șansă egală de a fi în oricare dintre fișiere. În mod figurat, veți răsturna o monedă pentru fiecare înregistrare pentru a decide în ce dosar intră. Randomitatea dă ambelor fișiere aceleași proprietăți statistice ca și datele originale.
Odată ce ați divizat setul de date, puneți deoparte fișierul Test. Apoi continuați să vă construiți modelul de predicție utilizând fișierul Analiză. Odată ce modelul este construit, aplicați-l în fișierul Test și vedeți cum se întâmplă.
Modelele de testare în acest fel ajută la protejarea împotriva unui fenomen cunoscut sub numele de de suprapunere . În esență, este posibil ca procedurile statistice să memoreze fișierul de date mai degrabă decât să descopere relații semnificative între variabile. Dacă se produce o suprasolicitare, modelul va testa destul de prost față de fișierul Test.
Faceți copii de rezervă și documentați tot ce faceți
Deoarece software-ul statistic devine atât de simplu de folosit, este o bucată de tort pentru a începe să generați rapoarte și grafice, ca să nu mai vorbim de fișierele de date.Puteți proceda literalmente la atingerea unui buton. Puteți genera mai multe duzini de grafice bazate pe diferite transformări de date într-o chestiune de câteva minute. Asta face destul de ușor să pierzi evidența a ceea ce ai făcut și de ce.
Este important să vă asigurați că păstrați o evidență scrisă a ceea ce faceți. Graficele ar trebui să fie etichetate cu numele (și versiunea) datelor folosite pentru a le crea. Procedurile statistice pe care le construiți trebuie să fie salvate și documentate.
De asemenea, este important să creați copii de siguranță ale fișierelor de date. În cursul analizei dvs., veți crea probabil mai multe versiuni ale datelor dvs. care reflectă diferite corecții și transformări ale variabilelor. Ar trebui să salvați procedurile care au creat aceste versiuni. Acestea ar trebui, de asemenea, să fie documentate într-un mod care să descrie transformările pe care le-ați făcut și de ce.
Documentația nu este o sarcină preferată de nimeni, dar vorbim de experiență atunci când vă încurajăm ferm să nu vă bazați pe memorie atunci când vine vorba de proiectele dvs. de analiză.
Lucrând prin pașii descrisi mai sus, maximizați fiabilitatea modelelor statistice. În multe cazuri, pregătirea este de fapt mai mult consumatoare de timp decât clădirea reală a modelului. Dar este necesar. Și vă veți mulțumi, în cele din urmă, că ați lucrat metodic.