Acasă Finanțe personale Cum să testezi modelul de analiză predictivă - dummy

Cum să testezi modelul de analiză predictivă - dummy

Cuprins:

Video: Predictably Irrational - basic human motivations: Dan Ariely at TEDxMidwest 2024

Video: Predictably Irrational - basic human motivations: Dan Ariely at TEDxMidwest 2024
Anonim

Pentru a putea testa modelul de analiză predictivă pe care l-ați construit, trebuie să vă împărțiți setul de date în două seturi: antrenament și seturi de date de testare. Aceste seturi de date ar trebui alese la întâmplare și ar trebui să reprezinte o bună reprezentare a populației actuale.

  • Datele similare ar trebui utilizate atât pentru ansamblul de antrenament, cât și pentru setul de date de testare.

  • În mod normal, setul de date de antrenament este semnificativ mai mare decât setul de date de testare.

  • Utilizarea setului de date de testare vă ajută să evitați erorile, cum ar fi suprasolicitarea.

  • Modelul antrenat se bazează pe datele testului pentru a vedea cât de bine va funcționa modelul.

Unii oameni de știință preferă să aibă un al treilea set de date care are caracteristici similare cu cele din primele două: un set de date de validare . Ideea este că, dacă utilizați în mod activ datele dvs. de testare pentru a vă perfecționa modelul, trebuie să utilizați un set separat (al treilea) pentru a verifica exactitatea modelului.

Având un set de date de validare, care nu a fost utilizat ca parte a procesului de dezvoltare al modelului dvs., vă ajută să asigurați o estimare neutră a preciziei și eficacității modelului.

Dacă ați construit mai multe modele folosind diferite algoritmi, eșantionul de validare vă poate ajuta să evaluați modelul care funcționează cel mai bine.

Asigurați-vă că vă verificați din nou activitatea în curs de dezvoltare și testarea modelului. În special, fiți sceptici dacă performanța sau precizia modelului pare prea bună pentru a fi adevărată. Erori se pot întâmpla acolo unde vă așteptați cel mai puțin. Calcularea incorectă a datelor pentru datele din serii de timp, de exemplu, poate duce la rezultate eronate.

Cum să folosiți validarea încrucișată

Validarea încrucișată

este o tehnică populară pe care o puteți utiliza pentru a vă evalua și valida modelul. Același principiu de utilizare a seturilor de date separate pentru testare și instruire se aplică aici: Datele de antrenament sunt folosite pentru a construi modelul; modelul se execută împotriva setării de testare pentru a prezice datele pe care nu le-a văzut înainte, ceea ce reprezintă o modalitate de a evalua acuratețea acestora. În validarea încrucișată, datele istorice sunt împărțite în numere X ale subseturilor. De fiecare dată când un subset este ales pentru a fi folosit ca date de testare, restul subseturilor sunt folosite ca date de antrenament. Apoi, în următoarea etapă, setul anterior de testare devine unul din seturile de antrenament și unul dintre seturile anterioare de antrenament devine setul de test.

Procesul continuă până când fiecare submulțime din numărul X de seturi a fost folosit ca set de test.

De exemplu, imaginați-vă că aveți un set de date pe care l-ați împărțit în 5 seturi numerotate de la 1 la 5. În prima rulare, utilizați setul 1 ca set de test și folosiți seturile 2, 3, 4 și 5 ca set de antrenament.Apoi, la a doua rulare, utilizați setul 2 ca set de test și setați 1, 3, 4 și 5 ca set de antrenament.

Continuați acest proces până când fiecare subset din cele 5 seturi a fost folosit ca set de test.

Validarea încrucișată vă permite să utilizați fiecare punct de date din datele dvs. istorice atât pentru instruire, cât și pentru testare. Această tehnică este mai eficientă decât împărțirea datelor dvs. istorice în două seturi, utilizând setul cu cele mai multe date pentru antrenament, utilizând celălalt set pentru testare și lăsându-l la același nivel.

Atunci când validați datele dvs., vă protejați împotriva selectării aleatoare a datelor de testare prea ușor de prevăzut - ceea ce ar da impresia falsă că modelul dvs. este corect. Sau, dacă se întâmplă să alegeți datele de testare prea greu de anticipat, ați putea concluziona în mod fals că modelul dvs. nu funcționează așa cum sperați.

Validarea încrucișată este folosită pe scară largă nu numai pentru a valida precizia modelelor, ci și pentru a compara performanța mai multor modele.

Cum de a echilibra părtinirea și varianța

Biasul și varianța sunt două surse de erori care pot avea loc pe măsură ce construiți modelul dvs. analitic.

Bias

este rezultatul construirii unui model care simplifică în mod semnificativ prezentarea relațiilor dintre punctele de date din datele istorice folosite pentru a construi modelul. Varianța

este rezultatul construirii unui model explicit specific datelor utilizate pentru construirea modelului. Obținerea unui echilibru între prejudecată și varianță - prin reducerea varianței și tolerarea unor prejudecăți - poate duce la un model predictiv mai bun. Acest compromis duce, de obicei, la construirea unor modele predictive mai puțin complexe.

Mulți algoritmi de extragere a datelor au fost creați pentru a ține cont de acest compromis între părtinire și varianță.

Cum să depanzi ideile

Când testezi modelul și nu te duci nicăieri, iată câteva idei pe care să le iei în considerare:

Verifică întotdeauna munca ta. S-ar putea să fi trecut cu vederea ceva ce ați presupus că este corect, dar nu este. Astfel de erori ar putea apărea (de exemplu) printre valorile unei variabile predictive din setul de date sau în procesul de preprocesare aplicat datelor.

  • Dacă algoritmul pe care l-ați ales nu dă rezultate, încercați un alt algoritm. De exemplu, încercați mai multe algoritmi de clasificare disponibile și, în funcție de datele dvs. și de obiectivele de afaceri ale modelului dvs., unul dintre aceștia poate funcționa mai bine decât ceilalți.

  • Încercați să selectați variabile diferite sau să creați noi variabile derivate. Fiți mereu în căutarea variabilelor care au puteri predictive.

  • Consultați frecvent experții în domeniul afacerilor care vă pot ajuta să înțelegeți datele, să selectați variabilele și să interpretați rezultatele modelului.

Cum să testezi modelul de analiză predictivă - dummy

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...