Identificarea datelor lipsă pentru învățarea în mașină - dummies

Video: Universul ca oglindă și principiul rezonanței (cu subtitrare) 2024

Chiar dacă aveți suficiente exemple la îndemână pentru a învăța atât algoritmi simpli și complexi de învățare a mașinilor, acestea trebuie să prezinte valori complete în caracteristici, orice date lipsă. Având un exemplu incomplet, este imposibilă conectarea tuturor semnalelor între și între caracteristici. Valorile lipsă fac de asemenea dificilă învățarea algoritmului în timpul antrenamentului. Trebuie să faceți ceva despre datele lipsă.

Cel mai adesea, puteți ignora valorile lipsă sau le puteți repara ghiciind o valoare de înlocuire posibilă. Cu toate acestea, prea multe valori lipsă dau mai multe predicții incerte, deoarece informațiile lipsă ar putea ascunde orice cifră posibilă; în consecință, valorile mai lipsă din caracteristici, cu atât mai variabile și mai imprecise sunt predicțiile.

În primul rând, numărați numărul de cazuri care lipsesc în fiecare variabilă. Atunci când o variabilă are prea multe cazuri care lipsesc, este posibil să fie necesar să o abandonați din setul de date de antrenament și test. O regulă bună este de a renunța la o variabilă dacă mai mult de 90% din instanțele sale lipsesc.

Unii algoritmi de învățare nu știu cum să se ocupe cu valorile lipsă și să raporteze erorile atât în fazele de pregătire, cât și în fazele de testare, în timp ce alte modele le tratează ca valori zero, determinând o subestimare a valorii sau probabilității predicate este ca și cum o parte a formulei nu funcționează corect). În consecință, trebuie să înlocuiți toate valorile lipsă din matricea de date cu o valoare adecvată pentru ca învățarea mașinii să se întâmple corect.

Există multe motive pentru lipsa datelor, dar punctul esențial este dacă datele lipsesc aleatoriu sau într-o anumită ordine. Datele lipsă aleatorii sunt ideale, deoarece puteți ghici valoarea acestora utilizând un algoritm mediu simplu, mediu sau altul, fără prea multe preocupări. Unele cazuri conțin o tendință puternică față de anumite exemple.

De exemplu, gândiți-vă la cazul studierii veniturilor unei populații. Persoanele bogate (din motive de impozitare, probabil) tind să-și ascundă venitul real, informându-vă că nu știu. Oamenii săraci, pe de altă parte, pot spune că nu doresc să-și raporteze veniturile de teamă de judecată negativă. Dacă pierdeți informații de la anumite straturi ale populației, reparația datelor lipsă poate fi dificilă și înșelătoare deoarece ați putea crede că astfel de cazuri sunt la fel ca celelalte.

În schimb, ele sunt destul de diferite. Prin urmare, nu puteți pur și simplu utiliza valori medii pentru a înlocui valorile lipsă - trebuie să utilizați abordări complexe și să le acordați cu atenție.Mai mult decât atât, identificarea cazurilor care nu lipsesc date la întâmplare este dificilă deoarece necesită o inspecție mai atentă a modului în care valorile lipsă sunt asociate cu alte variabile din setul de date.

Atunci când datele lipsesc la întâmplare, puteți repara cu ușurință valorile goale deoarece obțineți sugestii la adevărata lor valoare din alte variabile. Atunci când datele nu lipsesc la întâmplare, nu puteți obține sugestii bune de la alte informații disponibile decât dacă înțelegeți asocierea datelor cu cazul lipsă.

Prin urmare, dacă trebuie să dați seama că lipsesc veniturile din datele dvs. și lipsesc deoarece persoana este bogată, nu puteți înlocui valoarea lipsă cu o medie simplă, deoarece o veți înlocui cu un venit mediu. În schimb, ar trebui să utilizați o medie a venitului oamenilor bogați ca înlocuitori.

Atunci când datele nu lipsesc la întâmplare, faptul că lipsește valoarea este informativă, deoarece ajută la urmărirea grupului lipsă. Puteți lăsa sarcina de a căuta motivul pentru care lipsește algoritmului de învățare al mașinii prin construirea unei noi caracteristici binare care raportează când lipsește valoarea unei variabile. În consecință, algoritmul de învățare a mașinilor va determina cea mai bună valoare de utilizat ca înlocuitor de la sine.