Video: The mathematician who cracked Wall Street | Jim Simons 2024
Testarea ar trebui să fie condusă de obiectivele de afaceri pe care le-ați adunat, documentat și ați colectat toate datele necesare pentru a vă ajuta să atingeți.
Chiar de pe liliac, ar trebui să dezvolți o metodă pentru a testa dacă un obiectiv de afaceri a fost atins cu succes. Din moment ce analizele predictive măsoară probabilitatea unui rezultat viitor - și singura modalitate de a fi gata să executați un astfel de test este prin formarea modelului dvs. pe datele anterioare, tot trebuie să vedeți ce poate face atunci când este împotriva datelor viitoare.
Desigur, nu puteți risca să rulați un model nevăzut pe date reale viitoare, deci va trebui să utilizați datele existente pentru a simula datele viitoare în mod realist. Pentru a face acest lucru, trebuie să împărțiți datele pe care lucrați la formarea și testarea seturilor de date.
Asigurați-vă că selectați aceste două seturi de date la întâmplare și că ambele seturi de date conțin și acoperă toți parametrii de date pe care le măsurați.
Atunci când împărțiți datele în seturi de date de testare și antrenament, evitați în mod eficient problemele legate de suprasolicitarea care ar putea apărea din cauza supraîncărcării modelului pe întregul set de date și luarea tuturor modelelor de zgomot sau a caracteristicilor specifice care aparțin doar setului de date de probă și nu se aplică altor seturi de date.
Separarea datelor dvs. în seturi de date de instruire și testare, aproximativ 70% și respectiv 30%, asigură o măsurare exactă a performanței modelului de analiză predictivă pe care îl construiți. Doriți să evaluați modelul dvs. în raport cu datele de testare, deoarece este un mod simplu de a măsura dacă predicțiile modelului sunt corecte.