Evitând eșecul de eșantionare și capcanele de scurgere în procesul de învățare în mașină

Abordarea de validare a procesului de învățare în mașină este o examinare a unei eventuale remedii pentru părtinirea în eșantionare. Încadrarea în eșantionare se poate întâmpla cu datele dvs. înainte de punerea în funcțiune a mașinii, ceea ce determină variații mari ale următoarelor estimări. În plus, trebuie să fiți conștienți de capcanele de scurgere care pot apărea atunci când anumite informații din exemplul extras trec la datele din eșantion. Această problemă poate apărea atunci când pregătiți datele sau după ce modelul dvs. de învățare a mașinii este gata și funcționează.

Remediul, care se numește asamblarea predictorilor, funcționează perfect atunci când eșantionul dvs. de antrenament nu este complet distorsionat și distribuția sa este diferită de cea extrasă, dar nu într-un mod iremediabil ca atunci când toate clasele sunt prezente, dar nu în proporția corectă (ca exemplu). În astfel de cazuri, rezultatele dvs. sunt afectate de o anumită variație a estimărilor pe care o puteți stabiliza, eventual, într-unul din mai multe moduri: prin reeșantionare, ca în bootstrapping; prin eșantionare (luând un eșantion din eșantion); sau prin utilizarea de eșantioane mai mici (care măresc biasul).

Pentru a înțelege modul în care asamblarea funcționează atât de eficient, vizualizați imaginea unui ochi de taur. Dacă eșantionul dvs. afectează predicțiile, unele predicții vor fi exacte, iar altele vor fi greșite în mod aleatoriu. Dacă vă schimbați eșantionul, predicțiile corecte vor continua să fie corecte, dar cele greșite vor începe să fie variații între diferite valori. Unele valori vor fi predicția exactă pe care o căutați; altele vor oscila în jurul valorii de dreapta.

Prin compararea rezultatelor, puteți ghici că ceea ce este recurent este răspunsul potrivit. De asemenea, puteți lua o medie a răspunsurilor și puteți ghici că răspunsul corect ar trebui să se afle în mijlocul valorilor. Cu ajutorul jocului cu ochi de taur puteți vizualiza fotografii superioare ale diferitelor jocuri: dacă problema este varianta, în cele din urmă veți ghici că ținta se află în zona cel mai frecvent lovită sau cel puțin în centrul tuturor loviturilor.

În majoritatea cazurilor, o astfel de abordare se dovedește a fi corectă și îmbunătățește foarte mult predicțiile dvs. privind învățarea mașinilor. Atunci când problema dvs. este părtinire și nu varianță, utilizarea ansamblării nu produce rău dacă nu submulți prea multe eșantioane. O regulă bună pentru subesambluri este de a lua o probă de la 70 la 90% comparativ cu datele originale din eșantion. Dacă doriți să efectuați lucrări de asamblare, trebuie să faceți următoarele:

Iterați de multe ori prin datele și modelele dvs. (de la doar trei iterații până la sute de ori).
De fiecare dată când iterați, subsample (sau bootstrap) datele din eșantion.
Utilizați învățarea în mașină pentru modelul din datele reamplasate și preziceți rezultatele din eșantion. Păstrați aceste rezultate pentru utilizare ulterioară.
La sfârșitul iterațiilor, pentru fiecare caz extras din eșantion pe care doriți să îl preziceți, luați-i toate previziunile și ratați-le medie dacă faceți o regresie. Luați cea mai frecventă clasă dacă faceți o clasificare.

Capcanele de scurgere vă pot surprinde, deoarece se pot dovedi a fi o sursă necunoscută și nedetectată de procese de învățare a mașinilor. Problema este snooping, sau altfel observarea prea mult de date din eșantion și adaptarea la ea prea des. Pe scurt, snooping-ul este un fel de suprapunere - și nu doar pe datele de antrenament, ci și pe date de testare, ceea ce face ca problema depășirii să fie mai greu de detectat până când veți obține date noi.

De obicei îți dai seama că problema apare atunci când deja ai aplicat algoritmul de învățare a mașinii pentru afacerea ta sau pentru un serviciu pentru public, făcând problema o problemă pe care toată lumea o poate vedea.

Puteți evita snooping în două moduri. În primul rând, atunci când operează cu datele, aveți grijă să efectuați o instruire separată de instruire, validare și date de testare. De asemenea, atunci când procesați, nu luați niciodată informații de la validare sau testare, chiar și cele mai simple și inocente exemple. Mai rău este de a aplica o transformare complexă folosind toate datele.

De exemplu, în domeniul finanțelor, este bine cunoscut faptul că calculul abaterii medii și standard (care vă poate spune foarte multe despre condițiile de piață și riscul) din toate datele de instruire și testare poate duce la scurgerea de informații prețioase despre modelele dvs. Când se întâmplă scurgerile, algoritmii de învățare a mașinilor efectuează predicții pe setul de test, mai degrabă decât datele de pe piață, ceea ce înseamnă că acestea nu au funcționat deloc, provocând astfel o pierdere de bani.

Verificați performanțele exemplelor extrase din eșantion. De fapt, puteți aduce câteva informații din snooping despre rezultatele testului pentru a vă ajuta să determinați faptul că anumiți parametri sunt mai buni decât alții sau vă va determina să alegeți un algoritm de învățare a mașinilor în loc de altul. Pentru fiecare model sau parametru, alegeți alegerea pe baza rezultatelor de validare încrucișată sau din eșantionul de validare. Nu cădeți niciodată pentru a obține informații de la datele din extras din eșantion sau veți regreta mai târziu.