Acasă Finanțe personale Lipsesc valori în datele dvs. - dummies

Lipsesc valori în datele dvs. - dummies

Cuprins:

Video: Garmin Forerunner 935 | Training Status 2024

Video: Garmin Forerunner 935 | Training Status 2024
Anonim

Una dintre cele mai frecvente și mai dificile probleme de date cu care se confruntă lipsesc date. Fișierele pot fi incomplete, deoarece au fost pierdute înregistrările sau un dispozitiv de stocare umplut. Sau anumite câmpuri de date nu pot conține date pentru unele înregistrări. Prima dintre aceste probleme poate fi diagnosticată prin simpla verificare a numărului de înregistrări pentru fișiere. A doua problemă este mai dificil de rezolvat.

Pentru a pune în termeni simpli, când găsiți un câmp care conține valori lipsă, aveți două opțiuni:

  • Ignorați-o.

  • Stick ceva în câmp.

Ignorarea problemei

În unele cazuri, puteți găsi pur și simplu un singur câmp cu un număr mare de valori lipsă. Dacă da, cel mai simplu lucru pe care trebuie să-l faceți este să ignorați câmpul. Nu includeți-o în analiza dvs.

O altă modalitate de a ignora problema este ignorarea înregistrării. Ștergeți pur și simplu înregistrarea care conține datele lipsă. Acest lucru poate avea sens dacă există doar câteva înregistrări necinstite. Dar, dacă există mai multe câmpuri de date care conțin un număr semnificativ de valori lipsă, această abordare vă poate reduce numărul de înregistrări la un nivel inacceptabil.

Un alt lucru pe care să-l privești înainte de a șterge pur și simplu înregistrările este orice semn al unui model. De exemplu, să presupunem că analizați un set de date referitoare la balanțele de cărți de credit la nivel național. Este posibil să găsiți o grămadă de înregistrări care să arate 0 $. 00 (probabil în jur de jumătate din înregistrări). Acest lucru nu indică, în sine, lipsa datelor. Cu toate acestea, dacă toate înregistrările de la California, de exemplu, arată 0 $. 00, care indică o posibilă problemă de valori lipsă. Și nu este una care ar fi rezolvată în mod util prin ștergerea tuturor înregistrărilor din cel mai mare stat din țară. În acest caz, este probabil o problemă de sistem și indică crearea unui nou fișier.

În general, ștergerea înregistrărilor este o soluție ușoară, dar nu ideală, la problemele cu valoare lipsă. Dacă problema este relativ mică și nu există un model perceptibil pentru omisiuni, atunci ar putea fi bine să jettisonați înregistrările ofensatoare și să treceți mai departe. Dar frecvent este nevoie de o abordare mai puternică.

Completarea datelor lipsă

Completarea datelor lipsă duce la o estimare educată despre ceea ce ar fi fost în acest domeniu. Există modalități bune și rele pentru a face acest lucru. O abordare simplă (dar rea) este înlocuirea valorilor lipsă cu media celor care nu lipsesc. În câmpurile non-numerice, este posibil să fiți tentat să introduceți înregistrările care lipsesc cu cea mai comună valoare în celelalte înregistrări (modul).

Din păcate, aceste abordări sunt utilizate frecvent în anumite aplicații de afaceri.Dar ele sunt privite pe scară largă de către statisticieni ca idei proaste. Pentru un singur lucru, întregul punct al analizei statistice este de a găsi date care diferențiază un rezultat de altul. Prin înlocuirea tuturor înregistrărilor lipsă cu aceeași valoare, nu ați diferențiat nimic.

Abordarea mai intensă este de a încerca să găsească o modalitate de a prezice într-un mod semnificativ ce valoare ar trebui să fie completate în fiecare înregistrare care lipsește o valoare. Acest lucru implică căutarea la înregistrările complete și încercarea de a găsi indicii cu privire la ce valoare lipsă ar putea fi.

Să presupunem că analizați un fișier demografic pentru a prezice cumpărătorii potențiali ai unuia dintre produsele dvs. În acest dosar aveți, printre alte domenii, informații despre starea civilă, numărul de copii și numărul de automobile. Din anumite motive, numărul de câmpuri auto lipsește într-o treime din înregistrări.

Analizând celelalte două câmpuri - starea civilă și numărul de copii - puteți descoperi anumite modele. Singurele persoane au tendința de a avea o mașină. Căsătorii fără copii au tendința de a avea două mașini. Persoanele căsătorite cu mai mult de un copil ar putea avea mai multe șase mașini. În acest fel, puteți ghici valorile lipsă într-un mod care diferențiază efectiv înregistrările. Mai multe despre această abordare.

Există un termen general în statistici și prelucrarea datelor care se referă la date discutabile. Termenul zgomotos este folosit pentru a descrie date care nu sunt fiabile, corupte sau altfel mai puțin decât cele originale. Datele lipsă nu sunt decât un exemplu în acest sens. O descriere detaliată a tehnicilor de curățare a datelor zgomotoase în general depășește sfera acestei cărți. De fapt, acesta este un domeniu activ de cercetare în teoria statistică. Faptul că tot zgomotul nu este la fel de ușor de observat ca valorile lipsă face dificilă rezolvarea.

Lipsesc valori în datele dvs. - dummies

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...