Acasă Finanțe personale Cum să pregătești date pentru un model de analiză predictivă - dummies

Cum să pregătești date pentru un model de analiză predictivă - dummies

Cuprins:

Video: Cum sa memorezi mai simplu si rapid - Invata usor si rapid pentru Bacalaureat sau Admitere! 2024

Video: Cum sa memorezi mai simplu si rapid - Invata usor si rapid pentru Bacalaureat sau Admitere! 2024
Anonim

Când ați definit obiectivele modelului pentru analiza predictivă, următorul pas este identificarea și pregătirea datelor pe care le veți utiliza pentru a vă construi modelul. Secvența generală de pași arată astfel:

  1. Identificați sursele de date.

    Datele pot fi în diferite formate sau pot locui în diferite locații.

  2. Identificați modul în care veți accesa aceste date.

    Uneori, va trebui să achiziționați date terță parte sau date deținute de o divizie diferită în organizația dvs. etc.

  3. Luați în considerare variabilele care trebuie incluse în analiza dvs.

    O abordare standard este de a începe cu o gamă largă de variabile și de a elimina cele care nu oferă valori predictive pentru model.

  4. Determinați dacă utilizați variabile derivate.

    În multe cazuri, o variabilă derivată (cum ar fi raportul preț-pe-câștig utilizat pentru a analiza prețurile acțiunilor) ar avea un impact direct mai mare asupra modelului decât ar fi variabila brută.

  5. Explorați calitatea datelor, încercând să înțelegeți atât starea, cât și limitele.

    Precizia predicțiilor modelului este direct legată de variabilele selectate și de calitatea datelor. Ați dori să răspundeți la câteva întrebări specifice datei:

    • Sunt datele complete?

    • Are vreo surpriză?

    • Datele trebuie curățate?

    • Trebuie să completați valorile lipsă, să le păstrați așa cum sunt sau să le eliminați cu totul?

Înțelegerea datelor și a proprietăților acestora vă poate ajuta să alegeți algoritmul care va fi cel mai util în construirea modelului. De exemplu:

  • Algoritmii de regresie pot fi utilizați pentru a analiza date din serii de timp.

  • Algoritmii de clasificare pot fi utilizați pentru a analiza date discrete.

  • Algoritmii de asociere pot fi utilizați pentru date cu atribute corelate.

Setul de date folosit pentru a instrui și a testa modelul trebuie să conțină informații comerciale relevante pentru a răspunde la problema pe care încercați să o rezolvați. Dacă obiectivul dvs. este, de exemplu, de a determina care client este probabil să reia, atunci setul de date pe care îl alegeți trebuie să conțină informații despre clienții care au trecut în trecut în plus față de clienții care nu au.

Unele modele create pentru a mări datele și pentru a înțelege relațiile lor de bază - de exemplu, cele construite cu algoritmi de grupare - nu trebuie să aibă un rezultat final în minte.

Două probleme apar atunci când se ocupă de date pe măsură ce vă construiți modelul: asamblarea și echiparea excesivă.

Înclinarea sub

Încălțătura este atunci când modelul dvs. nu poate detecta nicio relație în datele dvs.Acesta este de obicei un indiciu că variabilele esențiale - cele cu putere de predicție - nu au fost incluse în analiza dvs. De exemplu, o analiză a stocurilor care include doar datele de pe o piață de tauri (în care prețurile globale ale acțiunilor cresc) nu reflectă crize sau bule care pot aduce corecții majore la performanța generală a stocurilor.

Fără să includă date care acoperă atât bursele , cât și cele pe piețe (când prețurile globale ale acțiunilor sunt în scădere), modelul este cel care oferă cea mai bună selecție posibilă a portofoliului.

Suprafata

Suprafata este atunci cand modelul dvs. include date care nu au putere predictiva, dar este specifica doar setului de date pe care il analizati. Variațiile aleatorii în setul de date - pot să ajungă în model, astfel încât executarea modelului într-un set diferit de date generează o scădere importantă a performanței și preciziei predictive a modelului. Bara laterală însoțitoare oferă un exemplu.

Dacă modelul dvs. funcționează foarte bine într-un anumit set de date și are performanțe reduse atunci când îl testați pe un alt set de date, bănuiți-vă că ați depășit echipamentul.

Cum să pregătești date pentru un model de analiză predictivă - dummies

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...