Acasă Finanțe personale Identificarea datelor lipsă pentru învățarea în mașină - dummies

Identificarea datelor lipsă pentru învățarea în mașină - dummies

Video: Universul ca oglindă și principiul rezonanței (cu subtitrare) 2024

Video: Universul ca oglindă și principiul rezonanței (cu subtitrare) 2024
Anonim

Chiar dacă aveți suficiente exemple la îndemână pentru a învăța atât algoritmi simpli și complexi de învățare a mașinilor, acestea trebuie să prezinte valori complete în caracteristici, orice date lipsă. Având un exemplu incomplet, este imposibilă conectarea tuturor semnalelor între și între caracteristici. Valorile lipsă fac de asemenea dificilă învățarea algoritmului în timpul antrenamentului. Trebuie să faceți ceva despre datele lipsă.

Cel mai adesea, puteți ignora valorile lipsă sau le puteți repara ghiciind o valoare de înlocuire posibilă. Cu toate acestea, prea multe valori lipsă dau mai multe predicții incerte, deoarece informațiile lipsă ar putea ascunde orice cifră posibilă; în consecință, valorile mai lipsă din caracteristici, cu atât mai variabile și mai imprecise sunt predicțiile.

În primul rând, numărați numărul de cazuri care lipsesc în fiecare variabilă. Atunci când o variabilă are prea multe cazuri care lipsesc, este posibil să fie necesar să o abandonați din setul de date de antrenament și test. O regulă bună este de a renunța la o variabilă dacă mai mult de 90% din instanțele sale lipsesc.

Unii algoritmi de învățare nu știu cum să se ocupe cu valorile lipsă și să raporteze erorile atât în ​​fazele de pregătire, cât și în fazele de testare, în timp ce alte modele le tratează ca valori zero, determinând o subestimare a valorii sau probabilității predicate este ca și cum o parte a formulei nu funcționează corect). În consecință, trebuie să înlocuiți toate valorile lipsă din matricea de date cu o valoare adecvată pentru ca învățarea mașinii să se întâmple corect.

Există multe motive pentru lipsa datelor, dar punctul esențial este dacă datele lipsesc aleatoriu sau într-o anumită ordine. Datele lipsă aleatorii sunt ideale, deoarece puteți ghici valoarea acestora utilizând un algoritm mediu simplu, mediu sau altul, fără prea multe preocupări. Unele cazuri conțin o tendință puternică față de anumite exemple.

De exemplu, gândiți-vă la cazul studierii veniturilor unei populații. Persoanele bogate (din motive de impozitare, probabil) tind să-și ascundă venitul real, informându-vă că nu știu. Oamenii săraci, pe de altă parte, pot spune că nu doresc să-și raporteze veniturile de teamă de judecată negativă. Dacă pierdeți informații de la anumite straturi ale populației, reparația datelor lipsă poate fi dificilă și înșelătoare deoarece ați putea crede că astfel de cazuri sunt la fel ca celelalte.

În schimb, ele sunt destul de diferite. Prin urmare, nu puteți pur și simplu utiliza valori medii pentru a înlocui valorile lipsă - trebuie să utilizați abordări complexe și să le acordați cu atenție.Mai mult decât atât, identificarea cazurilor care nu lipsesc date la întâmplare este dificilă deoarece necesită o inspecție mai atentă a modului în care valorile lipsă sunt asociate cu alte variabile din setul de date.

Atunci când datele lipsesc la întâmplare, puteți repara cu ușurință valorile goale deoarece obțineți sugestii la adevărata lor valoare din alte variabile. Atunci când datele nu lipsesc la întâmplare, nu puteți obține sugestii bune de la alte informații disponibile decât dacă înțelegeți asocierea datelor cu cazul lipsă.

Prin urmare, dacă trebuie să dați seama că lipsesc veniturile din datele dvs. și lipsesc deoarece persoana este bogată, nu puteți înlocui valoarea lipsă cu o medie simplă, deoarece o veți înlocui cu un venit mediu. În schimb, ar trebui să utilizați o medie a venitului oamenilor bogați ca înlocuitori.

Atunci când datele nu lipsesc la întâmplare, faptul că lipsește valoarea este informativă, deoarece ajută la urmărirea grupului lipsă. Puteți lăsa sarcina de a căuta motivul pentru care lipsește algoritmului de învățare al mașinii prin construirea unei noi caracteristici binare care raportează când lipsește valoarea unei variabile. În consecință, algoritmul de învățare a mașinilor va determina cea mai bună valoare de utilizat ca înlocuitor de la sine.

Identificarea datelor lipsă pentru învățarea în mașină - dummies

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...