Acasă Finanțe personale 8 Cele mai bune practici în pregătirea datelor - pachete de software statistice

8 Cele mai bune practici în pregătirea datelor - pachete de software statistice

Cuprins:

Video: O metoda in care sa iei permisul in mod sigur 2024

Video: O metoda in care sa iei permisul in mod sigur 2024
Anonim

Pachetele software statistice sunt extrem de puternice în aceste zile, dar nu pot depăși datele de calitate slabă. În continuare este o listă de verificare a lucrurilor pe care trebuie să le faceți înainte de a vă dezactiva construirea modelelor statistice.

Verificați formatele de date

Analiza dvs. începe întotdeauna cu un fișier de date brute. Fișierele cu date brute se găsesc în diferite forme și dimensiuni. Datele principale sunt diferite de datele PC-urilor, datele din foile de calcul sunt formatate diferit decât datele web și așa mai departe. Și în epoca datelor mari, cu siguranță veți fi confruntate cu date dintr-o varietate de surse. Primul pas în analizarea datelor dvs. este să vă asigurați că puteți citi fișierele pe care le primiți.

Trebuie să te uiți la ceea ce conține fiecare câmp. De exemplu, nu este înțelept să avem încredere că doar pentru că un câmp este listat ca câmp de caractere, acesta conține de fapt date despre caractere.

Verificați tipurile de date

Toate datele se încadrează în una din cele patru categorii care afectează ce tip de statistici se pot aplica în mod corespunzător:

  • Datele nominale sunt în esență doar un nume sau un identificator.

  • Datele ordonale pun ordine în ordine de la cel mai mic la cel mai înalt.

  • Datele intermediare reprezintă valori în care diferențele dintre ele sunt comparabile.

  • Datele raportului sunt asemănătoare cu datele intervalului, cu excepția faptului că permite și o valoare de 0.

Este important să înțelegeți care sunt categoriile în care se află datele dvs. înainte de al alimenta în software-ul statistic. În caz contrar, riscați să se termine cu un gabberish perfect rezonabil.

Grăbește-ți datele

Obținerea unui sentiment de distribuire a datelor este importantă. Puteți rula proceduri statistice până când veți fi albastru în față, dar niciunul dintre ele nu vă va oferi o perspectivă cât mai largă în ceea ce arată datele dvs. ca un simplu grafic.

Verificați acuratețea datelor

După ce vă convine că datele sunt formatate așa cum doriți, trebuie să vă asigurați că sunt exacte și că are sens. Acest pas presupune cunoașterea domeniului în care lucrați.

Nu există într-adevăr o abordare tăiată și uscată pentru a verifica acuratețea datelor. Ideea de bază este să formulezi câteva proprietăți pe care credeți că datele ar trebui să le prezinte și să testeze datele pentru a vedea dacă aceste proprietăți se mențin. Prețurile acțiunilor sunt întotdeauna pozitive? Pot codifica toate codurile produselor lista celor valide? În esență, încercați să vă dați seama dacă datele sunt într-adevăr ceea ce vi sa spus că este.

Identificați valori extreme

Outliers sunt puncte de date care nu sunt în regulă cu restul datelor. Ele sunt fie valori foarte mari, fie foarte mici comparativ cu restul setului de date.

Exigențele sunt problematice, deoarece pot compromite serios statisticile și procedurile statistice. Un singur excedent poate avea un impact imens asupra valorii mediei. Deoarece media ar trebui să reprezinte centrul datelor, într-un anumit sens, acest outlier face ca media să fie inutilă.

În cazul în care se confruntă cu valori extreme, strategia cea mai comună este de a le șterge. În unele cazuri, totuși, poate doriți să le luați în considerare. În aceste cazuri, de obicei, este de dorit să faceți analiza de două ori - o dată cu valori excepționale incluse și odată cu excluse. Aceasta vă permite să evaluați ce metodă oferă rezultate mai utile.

Afacerea cu valori lipsă

Valorile lipsă sunt una dintre cele mai frecvente (și enervante) probleme cu datele pe care le veți întâlni. Primul dvs. impuls ar fi să renunți la înregistrări cu valori lipsă din analiza dvs. Problema cu aceasta este că valorile lipsă sunt adesea nu doar gloanțe aleatoare de date aleatorii.

Verificați presupunerile cu privire la distribuirea datelor

Multe proceduri statistice depind de presupunerea că datele sunt distribuite într-un anumit mod. Dacă această ipoteză nu este cazul, precizia predicțiilor dvs. suferă.

Cea mai comună ipoteză pentru tehnicile de modelare discutate în această carte este că datele sunt în mod normal distribuite.

Sau nu. În cazurile în care datele nu sunt distribuite așa cum trebuie, toate nu sunt neapărat pierdute. Există o varietate de moduri de transformare a datelor pentru a obține distribuția în forma de care aveți nevoie.

Una dintre cele mai bune modalități de a verifica exactitatea unui model statistic este să îl testezi efectiv împotriva datelor după ce a fost construit. O modalitate de a face acest lucru este împărțirea întâmplătoare a setului de date în două fișiere. S-ar putea să numiți aceste fișiere Analiză și Test, respectiv.

Trebuie să împărțiți datele aleatoriu pentru a fi eficiente. Nu puteți împărți setul de date în jumătatea superioară și în jumătatea de jos, de exemplu. Aproape toate fișierele de date sunt sortate cumva - după dată dacă nu altceva. Aceasta introduce modele sistematice care vor da diferite porțiuni ale fișierului proprietăți statistice diferite. Atunci când împărțiți fișierul la întâmplare, dați fiecărei înregistrări o șansă egală de a fi în oricare dintre fișiere. În mod figurat, veți răsturna o monedă pentru fiecare înregistrare pentru a decide în ce dosar intră. Randomitatea dă ambelor fișiere aceleași proprietăți statistice ca și datele originale.

Odată ce ați divizat setul de date, puneți deoparte fișierul Test. Apoi continuați să vă construiți modelul de predicție utilizând fișierul Analiză. Odată ce modelul este construit, aplicați-l în fișierul Test și vedeți cum se întâmplă.

Modelele de testare în acest fel ajută la protejarea împotriva unui fenomen cunoscut sub numele de de suprapunere . În esență, este posibil ca procedurile statistice să memoreze fișierul de date mai degrabă decât să descopere relații semnificative între variabile. Dacă se produce o suprasolicitare, modelul va testa destul de prost față de fișierul Test.

Faceți copii de rezervă și documentați tot ce faceți

Deoarece software-ul statistic devine atât de simplu de folosit, este o bucată de tort pentru a începe să generați rapoarte și grafice, ca să nu mai vorbim de fișierele de date.Puteți proceda literalmente la atingerea unui buton. Puteți genera mai multe duzini de grafice bazate pe diferite transformări de date într-o chestiune de câteva minute. Asta face destul de ușor să pierzi evidența a ceea ce ai făcut și de ce.

Este important să vă asigurați că păstrați o evidență scrisă a ceea ce faceți. Graficele ar trebui să fie etichetate cu numele (și versiunea) datelor folosite pentru a le crea. Procedurile statistice pe care le construiți trebuie să fie salvate și documentate.

De asemenea, este important să creați copii de siguranță ale fișierelor de date. În cursul analizei dvs., veți crea probabil mai multe versiuni ale datelor dvs. care reflectă diferite corecții și transformări ale variabilelor. Ar trebui să salvați procedurile care au creat aceste versiuni. Acestea ar trebui, de asemenea, să fie documentate într-un mod care să descrie transformările pe care le-ați făcut și de ce.

Documentația nu este o sarcină preferată de nimeni, dar vorbim de experiență atunci când vă încurajăm ferm să nu vă bazați pe memorie atunci când vine vorba de proiectele dvs. de analiză.

Lucrând prin pașii descrisi mai sus, maximizați fiabilitatea modelelor statistice. În multe cazuri, pregătirea este de fapt mai mult consumatoare de timp decât clădirea reală a modelului. Dar este necesar. Și vă veți mulțumi, în cele din urmă, că ați lucrat metodic.

8 Cele mai bune practici în pregătirea datelor - pachete de software statistice

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...