Acasă Finanțe personale Evitând eșecul de eșantionare și capcanele de scurgere în procesul de învățare în mașină

Evitând eșecul de eșantionare și capcanele de scurgere în procesul de învățare în mașină

Video: Bran Ferren: To create for the ages, let's combine art and engineering 2024

Video: Bran Ferren: To create for the ages, let's combine art and engineering 2024
Anonim

Abordarea de validare a procesului de învățare în mașină este o examinare a unei eventuale remedii pentru părtinirea în eșantionare. Încadrarea în eșantionare se poate întâmpla cu datele dvs. înainte de punerea în funcțiune a mașinii, ceea ce determină variații mari ale următoarelor estimări. În plus, trebuie să fiți conștienți de capcanele de scurgere care pot apărea atunci când anumite informații din exemplul extras trec la datele din eșantion. Această problemă poate apărea atunci când pregătiți datele sau după ce modelul dvs. de învățare a mașinii este gata și funcționează.

Remediul, care se numește asamblarea predictorilor, funcționează perfect atunci când eșantionul dvs. de antrenament nu este complet distorsionat și distribuția sa este diferită de cea extrasă, dar nu într-un mod iremediabil ca atunci când toate clasele sunt prezente, dar nu în proporția corectă (ca exemplu). În astfel de cazuri, rezultatele dvs. sunt afectate de o anumită variație a estimărilor pe care o puteți stabiliza, eventual, într-unul din mai multe moduri: prin reeșantionare, ca în bootstrapping; prin eșantionare (luând un eșantion din eșantion); sau prin utilizarea de eșantioane mai mici (care măresc biasul).

Pentru a înțelege modul în care asamblarea funcționează atât de eficient, vizualizați imaginea unui ochi de taur. Dacă eșantionul dvs. afectează predicțiile, unele predicții vor fi exacte, iar altele vor fi greșite în mod aleatoriu. Dacă vă schimbați eșantionul, predicțiile corecte vor continua să fie corecte, dar cele greșite vor începe să fie variații între diferite valori. Unele valori vor fi predicția exactă pe care o căutați; altele vor oscila în jurul valorii de dreapta.

Prin compararea rezultatelor, puteți ghici că ceea ce este recurent este răspunsul potrivit. De asemenea, puteți lua o medie a răspunsurilor și puteți ghici că răspunsul corect ar trebui să se afle în mijlocul valorilor. Cu ajutorul jocului cu ochi de taur puteți vizualiza fotografii superioare ale diferitelor jocuri: dacă problema este varianta, în cele din urmă veți ghici că ținta se află în zona cel mai frecvent lovită sau cel puțin în centrul tuturor loviturilor.

În majoritatea cazurilor, o astfel de abordare se dovedește a fi corectă și îmbunătățește foarte mult predicțiile dvs. privind învățarea mașinilor. Atunci când problema dvs. este părtinire și nu varianță, utilizarea ansamblării nu produce rău dacă nu submulți prea multe eșantioane. O regulă bună pentru subesambluri este de a lua o probă de la 70 la 90% comparativ cu datele originale din eșantion. Dacă doriți să efectuați lucrări de asamblare, trebuie să faceți următoarele:

  • Iterați de multe ori prin datele și modelele dvs. (de la doar trei iterații până la sute de ori).
  • De fiecare dată când iterați, subsample (sau bootstrap) datele din eșantion.
  • Utilizați învățarea în mașină pentru modelul din datele reamplasate și preziceți rezultatele din eșantion. Păstrați aceste rezultate pentru utilizare ulterioară.
  • La sfârșitul iterațiilor, pentru fiecare caz extras din eșantion pe care doriți să îl preziceți, luați-i toate previziunile și ratați-le medie dacă faceți o regresie. Luați cea mai frecventă clasă dacă faceți o clasificare.

Capcanele de scurgere vă pot surprinde, deoarece se pot dovedi a fi o sursă necunoscută și nedetectată de procese de învățare a mașinilor. Problema este snooping, sau altfel observarea prea mult de date din eșantion și adaptarea la ea prea des. Pe scurt, snooping-ul este un fel de suprapunere - și nu doar pe datele de antrenament, ci și pe date de testare, ceea ce face ca problema depășirii să fie mai greu de detectat până când veți obține date noi.

De obicei îți dai seama că problema apare atunci când deja ai aplicat algoritmul de învățare a mașinii pentru afacerea ta sau pentru un serviciu pentru public, făcând problema o problemă pe care toată lumea o poate vedea.

Puteți evita snooping în două moduri. În primul rând, atunci când operează cu datele, aveți grijă să efectuați o instruire separată de instruire, validare și date de testare. De asemenea, atunci când procesați, nu luați niciodată informații de la validare sau testare, chiar și cele mai simple și inocente exemple. Mai rău este de a aplica o transformare complexă folosind toate datele.

De exemplu, în domeniul finanțelor, este bine cunoscut faptul că calculul abaterii medii și standard (care vă poate spune foarte multe despre condițiile de piață și riscul) din toate datele de instruire și testare poate duce la scurgerea de informații prețioase despre modelele dvs. Când se întâmplă scurgerile, algoritmii de învățare a mașinilor efectuează predicții pe setul de test, mai degrabă decât datele de pe piață, ceea ce înseamnă că acestea nu au funcționat deloc, provocând astfel o pierdere de bani.

Verificați performanțele exemplelor extrase din eșantion. De fapt, puteți aduce câteva informații din snooping despre rezultatele testului pentru a vă ajuta să determinați faptul că anumiți parametri sunt mai buni decât alții sau vă va determina să alegeți un algoritm de învățare a mașinilor în loc de altul. Pentru fiecare model sau parametru, alegeți alegerea pe baza rezultatelor de validare încrucișată sau din eșantionul de validare. Nu cădeți niciodată pentru a obține informații de la datele din extras din eșantion sau veți regreta mai târziu.

Evitând eșecul de eșantionare și capcanele de scurgere în procesul de învățare în mașină

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...