Cuprins:
Video: The mathematician who cracked Wall Street | Jim Simons 2024
Când ați definit obiectivele modelului, următorul pas în analiza predictivă este identificarea și pregătirea datelor pe care le veți utiliza pentru a vă construi modelul. Următoarele informații se referă la cele mai importante activități. Secvența generală de pași arată astfel:
- Identificați sursele de date.
Datele pot fi în diferite formate sau pot locui în diferite locații.
- Identificați modul în care veți accesa aceste date.
Uneori, trebuie să achiziționați date terță parte sau date deținute de o divizie diferită în organizația dvs. etc.
- Luați în considerare variabilele care trebuie incluse în analiza dvs.
O abordare standard este de a începe cu o gamă largă de variabile și a elimina cele care nu oferă valoare predictivă pentru model.
- Determinați dacă utilizați variabile derivate.
În multe cazuri, o variabilă derivată (cum ar fi raportul preț-pe-câștig utilizat pentru a analiza prețurile acțiunilor) ar avea un impact direct mai mare asupra modelului decât ar fi variabila brută.
- Explorați calitatea datelor, căutând să înțelegeți atât starea, cât și limitele.
Precizia predicțiilor modelului este direct legată de variabilele selectate și de calitatea datelor. Ați dori să răspundeți la câteva întrebări specifice datei la acest punct:
- Sunt datele complete?
- Are vreo surpriză?
- Datele trebuie curățate?
- Trebuie să completați valorile lipsă, să le păstrați așa cum sunt sau să le eliminați cu totul?
Înțelegerea datelor și a proprietăților acestora vă poate ajuta să alegeți algoritmul care va fi cel mai util în construirea modelului. De exemplu:
- Algoritmii de regresie pot fi utilizați pentru a analiza date din serii de timp.
- Algoritmii de clasificare pot fi utilizați pentru a analiza date discrete.
- Algoritmii de asociere pot fi utilizați pentru date cu atribute corelate.
Algoritmii individuali și tehnicile de predicție au diferite puncte slabe și puncte forte. Cel mai important, precizia modelului se bazează atât pe o cantitate mare, cât și pe o calitate a datelor. Datele dvs. ar trebui să aibă un număr suficient de înregistrări pentru a furniza rezultate semnificative din punct de vedere statistic.
Colectarea datelor relevante (de preferință multe înregistrări pe o perioadă lungă de timp), preprocesarea și extragerea caracteristicilor cu cele mai multe valori predictive va fi locul unde petreceți majoritatea timpului. Dar trebuie să alegeți algoritmul cu înțelepciune, un algoritm care ar trebui să fie potrivit pentru problema afacerii.
Pregătirea datelor este specifică pentru proiectul pe care lucrați și pentru algoritmul pe care alegeți să îl angajați.În funcție de cerințele proiectului, veți pregăti datele în consecință și le veți alimenta algoritmului pe măsură ce vă construiți modelul pentru a răspunde nevoilor afacerii.
Setul de date folosit pentru a instrui și a testa modelul trebuie să conțină informații comerciale relevante pentru a răspunde la problema pe care încercați să o rezolvați. Dacă obiectivul dvs. este, de exemplu, de a determina care client este probabil să reia, atunci setul de date pe care îl alegeți trebuie să conțină informații despre clienții care au trecut în trecut în plus față de clienții care nu au.
Unele modele create pentru a mări datele și pentru a înțelege relațiile lor de bază - de exemplu, cele construite cu algoritmi de grupare - nu trebuie să aibă un anumit rezultat final.
Înclinarea sub
Încălțătura este atunci când modelul dvs. nu poate detecta nicio relație în datele dvs. Acesta este de obicei un indiciu că variabilele esențiale - cele cu putere de predicție - nu au fost incluse în analiza dvs.
Dacă variabilele utilizate în modelul dvs. nu au o putere predictivă mare, încercați să adăugați noi variabile specifice unui domeniu și să reluați modelul. Obiectivul final este îmbunătățirea performanței modelului pe datele de antrenament.
O altă problemă de urmărit este sezonalitatea (atunci când aveți un model sezonier, dacă nu reușiți să analizați mai multe sezoane pe care le puteți avea probleme). De exemplu, o analiză stoc care include numai date de la un taur (în cazul în care prețurile globale ale acțiunilor cresc) nu reflectă crizele sau bulele care pot aduce corecții majore asupra performanței globale a stocurilor. În cazul în care nu includeți date care acoperă atât bursele, cât și cele pe piețe (atunci când prețurile globale ale acțiunilor sunt în scădere), modelul este cel care oferă cea mai bună selecție posibilă a portofoliului.
Suprafata
Suprafata este atunci cand modelul dvs. include date care nu au putere predictiva, dar este specifica doar setului de date pe care il analizati. Variații aleatorii - variații aleatoare în setul de date - se pot găsi în model, astfel încât rularea modelului pe un set diferit de date generează o scădere importantă a performanței și preciziei predictive a modelului.