Acasă Finanțe personale Pregătirea datelor pentru predictiv Analytics - dummy

Pregătirea datelor pentru predictiv Analytics - dummy

Cuprins:

Video: The mathematician who cracked Wall Street | Jim Simons 2024

Video: The mathematician who cracked Wall Street | Jim Simons 2024
Anonim

Când ați definit obiectivele modelului, următorul pas în analiza predictivă este identificarea și pregătirea datelor pe care le veți utiliza pentru a vă construi modelul. Următoarele informații se referă la cele mai importante activități. Secvența generală de pași arată astfel:

  1. Identificați sursele de date.

    Datele pot fi în diferite formate sau pot locui în diferite locații.

  2. Identificați modul în care veți accesa aceste date.

    Uneori, trebuie să achiziționați date terță parte sau date deținute de o divizie diferită în organizația dvs. etc.

  3. Luați în considerare variabilele care trebuie incluse în analiza dvs.

    O abordare standard este de a începe cu o gamă largă de variabile și a elimina cele care nu oferă valoare predictivă pentru model.

  4. Determinați dacă utilizați variabile derivate.

    În multe cazuri, o variabilă derivată (cum ar fi raportul preț-pe-câștig utilizat pentru a analiza prețurile acțiunilor) ar avea un impact direct mai mare asupra modelului decât ar fi variabila brută.

  5. Explorați calitatea datelor, căutând să înțelegeți atât starea, cât și limitele.

    Precizia predicțiilor modelului este direct legată de variabilele selectate și de calitatea datelor. Ați dori să răspundeți la câteva întrebări specifice datei la acest punct:

    • Sunt datele complete?
    • Are vreo surpriză?
    • Datele trebuie curățate?
    • Trebuie să completați valorile lipsă, să le păstrați așa cum sunt sau să le eliminați cu totul?

Înțelegerea datelor și a proprietăților acestora vă poate ajuta să alegeți algoritmul care va fi cel mai util în construirea modelului. De exemplu:

  • Algoritmii de regresie pot fi utilizați pentru a analiza date din serii de timp.
  • Algoritmii de clasificare pot fi utilizați pentru a analiza date discrete.
  • Algoritmii de asociere pot fi utilizați pentru date cu atribute corelate.

Algoritmii individuali și tehnicile de predicție au diferite puncte slabe și puncte forte. Cel mai important, precizia modelului se bazează atât pe o cantitate mare, cât și pe o calitate a datelor. Datele dvs. ar trebui să aibă un număr suficient de înregistrări pentru a furniza rezultate semnificative din punct de vedere statistic.

Colectarea datelor relevante (de preferință multe înregistrări pe o perioadă lungă de timp), preprocesarea și extragerea caracteristicilor cu cele mai multe valori predictive va fi locul unde petreceți majoritatea timpului. Dar trebuie să alegeți algoritmul cu înțelepciune, un algoritm care ar trebui să fie potrivit pentru problema afacerii.

Pregătirea datelor este specifică pentru proiectul pe care lucrați și pentru algoritmul pe care alegeți să îl angajați.În funcție de cerințele proiectului, veți pregăti datele în consecință și le veți alimenta algoritmului pe măsură ce vă construiți modelul pentru a răspunde nevoilor afacerii.

Setul de date folosit pentru a instrui și a testa modelul trebuie să conțină informații comerciale relevante pentru a răspunde la problema pe care încercați să o rezolvați. Dacă obiectivul dvs. este, de exemplu, de a determina care client este probabil să reia, atunci setul de date pe care îl alegeți trebuie să conțină informații despre clienții care au trecut în trecut în plus față de clienții care nu au.

Unele modele create pentru a mări datele și pentru a înțelege relațiile lor de bază - de exemplu, cele construite cu algoritmi de grupare - nu trebuie să aibă un anumit rezultat final.

Înclinarea sub

Încălțătura este atunci când modelul dvs. nu poate detecta nicio relație în datele dvs. Acesta este de obicei un indiciu că variabilele esențiale - cele cu putere de predicție - nu au fost incluse în analiza dvs.

Dacă variabilele utilizate în modelul dvs. nu au o putere predictivă mare, încercați să adăugați noi variabile specifice unui domeniu și să reluați modelul. Obiectivul final este îmbunătățirea performanței modelului pe datele de antrenament.

O altă problemă de urmărit este sezonalitatea (atunci când aveți un model sezonier, dacă nu reușiți să analizați mai multe sezoane pe care le puteți avea probleme). De exemplu, o analiză stoc care include numai date de la un taur (în cazul în care prețurile globale ale acțiunilor cresc) nu reflectă crizele sau bulele care pot aduce corecții majore asupra performanței globale a stocurilor. În cazul în care nu includeți date care acoperă atât bursele, cât și cele pe piețe (atunci când prețurile globale ale acțiunilor sunt în scădere), modelul este cel care oferă cea mai bună selecție posibilă a portofoliului.

Suprafata

Suprafata este atunci cand modelul dvs. include date care nu au putere predictiva, dar este specifica doar setului de date pe care il analizati. Variații aleatorii - variații aleatoare în setul de date - se pot găsi în model, astfel încât rularea modelului pe un set diferit de date generează o scădere importantă a performanței și preciziei predictive a modelului.

Pregătirea datelor pentru predictiv Analytics - dummy

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...