Cuprins:
Video: Garmin Forerunner 935 | Training Status 2024
Una dintre cele mai frecvente și mai dificile probleme de date cu care se confruntă lipsesc date. Fișierele pot fi incomplete, deoarece au fost pierdute înregistrările sau un dispozitiv de stocare umplut. Sau anumite câmpuri de date nu pot conține date pentru unele înregistrări. Prima dintre aceste probleme poate fi diagnosticată prin simpla verificare a numărului de înregistrări pentru fișiere. A doua problemă este mai dificil de rezolvat.
Pentru a pune în termeni simpli, când găsiți un câmp care conține valori lipsă, aveți două opțiuni:
-
Ignorați-o.
-
Stick ceva în câmp.
Ignorarea problemei
În unele cazuri, puteți găsi pur și simplu un singur câmp cu un număr mare de valori lipsă. Dacă da, cel mai simplu lucru pe care trebuie să-l faceți este să ignorați câmpul. Nu includeți-o în analiza dvs.
O altă modalitate de a ignora problema este ignorarea înregistrării. Ștergeți pur și simplu înregistrarea care conține datele lipsă. Acest lucru poate avea sens dacă există doar câteva înregistrări necinstite. Dar, dacă există mai multe câmpuri de date care conțin un număr semnificativ de valori lipsă, această abordare vă poate reduce numărul de înregistrări la un nivel inacceptabil.
Un alt lucru pe care să-l privești înainte de a șterge pur și simplu înregistrările este orice semn al unui model. De exemplu, să presupunem că analizați un set de date referitoare la balanțele de cărți de credit la nivel național. Este posibil să găsiți o grămadă de înregistrări care să arate 0 $. 00 (probabil în jur de jumătate din înregistrări). Acest lucru nu indică, în sine, lipsa datelor. Cu toate acestea, dacă toate înregistrările de la California, de exemplu, arată 0 $. 00, care indică o posibilă problemă de valori lipsă. Și nu este una care ar fi rezolvată în mod util prin ștergerea tuturor înregistrărilor din cel mai mare stat din țară. În acest caz, este probabil o problemă de sistem și indică crearea unui nou fișier.
În general, ștergerea înregistrărilor este o soluție ușoară, dar nu ideală, la problemele cu valoare lipsă. Dacă problema este relativ mică și nu există un model perceptibil pentru omisiuni, atunci ar putea fi bine să jettisonați înregistrările ofensatoare și să treceți mai departe. Dar frecvent este nevoie de o abordare mai puternică.
Completarea datelor lipsă
Completarea datelor lipsă duce la o estimare educată despre ceea ce ar fi fost în acest domeniu. Există modalități bune și rele pentru a face acest lucru. O abordare simplă (dar rea) este înlocuirea valorilor lipsă cu media celor care nu lipsesc. În câmpurile non-numerice, este posibil să fiți tentat să introduceți înregistrările care lipsesc cu cea mai comună valoare în celelalte înregistrări (modul).
Din păcate, aceste abordări sunt utilizate frecvent în anumite aplicații de afaceri.Dar ele sunt privite pe scară largă de către statisticieni ca idei proaste. Pentru un singur lucru, întregul punct al analizei statistice este de a găsi date care diferențiază un rezultat de altul. Prin înlocuirea tuturor înregistrărilor lipsă cu aceeași valoare, nu ați diferențiat nimic.
Abordarea mai intensă este de a încerca să găsească o modalitate de a prezice într-un mod semnificativ ce valoare ar trebui să fie completate în fiecare înregistrare care lipsește o valoare. Acest lucru implică căutarea la înregistrările complete și încercarea de a găsi indicii cu privire la ce valoare lipsă ar putea fi.
Să presupunem că analizați un fișier demografic pentru a prezice cumpărătorii potențiali ai unuia dintre produsele dvs. În acest dosar aveți, printre alte domenii, informații despre starea civilă, numărul de copii și numărul de automobile. Din anumite motive, numărul de câmpuri auto lipsește într-o treime din înregistrări.
Analizând celelalte două câmpuri - starea civilă și numărul de copii - puteți descoperi anumite modele. Singurele persoane au tendința de a avea o mașină. Căsătorii fără copii au tendința de a avea două mașini. Persoanele căsătorite cu mai mult de un copil ar putea avea mai multe șase mașini. În acest fel, puteți ghici valorile lipsă într-un mod care diferențiază efectiv înregistrările. Mai multe despre această abordare.
Există un termen general în statistici și prelucrarea datelor care se referă la date discutabile. Termenul zgomotos este folosit pentru a descrie date care nu sunt fiabile, corupte sau altfel mai puțin decât cele originale. Datele lipsă nu sunt decât un exemplu în acest sens. O descriere detaliată a tehnicilor de curățare a datelor zgomotoase în general depășește sfera acestei cărți. De fapt, acesta este un domeniu activ de cercetare în teoria statistică. Faptul că tot zgomotul nu este la fel de ușor de observat ca valorile lipsă face dificilă rezolvarea.