Acasă Finanțe personale Modul de utilizare a curbei de fixare în predictiv Analytics - manechine

Modul de utilizare a curbei de fixare în predictiv Analytics - manechine

Cuprins:

Video: The Internet of Things by James Whittaker of Microsoft 2024

Video: The Internet of Things by James Whittaker of Microsoft 2024
Anonim

Montarea curbei este un proces utilizat în analiza predictivă în care obiectivul este de a crea o curbă care descrie funcția matematică care se potrivește cel mai bine punctelor reale (originale) dintr-o serie de date.

Curba poate trece fie prin fiecare punct de date, fie rămâne în cea mai mare parte a datelor, ignorând unele puncte de date în speranța de a desena tendințe din date. În ambele cazuri, o singură funcție matematică este atribuită întregului corp de date, cu scopul de a monta toate punctele de date într-o curbă care delimitează tendințele și predicțiile ajutoarelor.

Montarea curbei poate fi realizată într-unul din trei moduri:

  • Prin găsirea unei potriviri precise pentru fiecare punct de date (un proces numit interpolare )

  • cea mai mare parte a datelor, în timp ce ignoră unele puncte de date în speranța de a extrage tendințele din date

  • Prin utilizarea netezirii datelor pentru a veni cu o funcție care să reprezinte graficul netezit

Montarea curbei poate fi utilizată pentru a umple eventualele puncte de date pentru a înlocui valorile lipsă sau a ajuta analiștii să vizualizeze datele.

Când lucrați pentru a genera un model de analiză predictivă, evitați adaptarea modelului dvs. astfel încât să se potrivească perfect eșantionului dvs. de date. Un astfel de model va eșua - mizerabil - de a prezice seturi de date similare și în același timp diferite în afara eșantionului de date. Montarea unui model prea strâns la o anumită eșantion de date este o greșeală clasică denumită suprapunere .

Woes of overfitting

În esență, suprasolicitarea unui model este ceea ce se întâmplă atunci când exagerați modelul pentru a reprezenta numai datele dvs. de eșantion - ceea ce nu reprezintă o bună reprezentare a datelor ca un întreg. Fără un set de date mai realist pentru a continua, modelul poate fi apoi afectat de erori și riscuri atunci când devine operațional - iar consecințele asupra afacerii dvs. pot fi grave.

Suprapunerea unui model este o capcană comună, deoarece oamenii doresc să creeze modele care funcționează - și astfel sunt tentați să păstreze variabilele și parametrii de tweaking până când modelul funcționează perfect - pe date prea puține. A greși este om. Din fericire, este, de asemenea, uman să creați soluții realiste.

Pentru a evita suprasolicitarea modelului la setul de date de probă, asigurați-vă că aveți la dispoziție un număr de date de testare care sunt separate de datele dvs. de probă. Apoi, puteți măsura independent performanța modelului înainte de a face modelul operațional.

Astfel, o protecție generală împotriva suprasarcinii este împărțirea datelor în două părți: datele de instruire și datele de testare. Performanța modelului față de datele testului vă va spune foarte multe despre dacă modelul este pregătit pentru lumea reală.

O altă bună practică este să vă asigurați că datele dvs. reprezintă o populație mai mare a domeniului pe care îl modelați. Toate modelele cunoscute sub numele de forta de tracțiune sunt caracteristicile specifice ale setului de date pentru care este instruit. Dacă antrenezi modelul doar pe vânzările de zăpadă (să zicem) în timpul iernii, nu fi surprins dacă nu reușește în mod neplăcut atunci când este rulat din nou pe date din orice alt sezon.

Cum să eviți suprapunerile

Merită repetat: Prea multă modificare a modelului este potrivită pentru a duce la suprasolicitare. O astfel de optimizare include prea multe variabile în analiză. Mențineți aceste variabile la un nivel minim. Numai includeți variabilele pe care le considerați absolut necesare - cele pe care le credeți că vor face o diferență semnificativă față de rezultat.

Această înțelegere provine doar din cunoașterea intimă a domeniului de afaceri în care vă aflați. Aici experții experților în domeniu vă pot ajuta să vă împiedicați să cădeți în capcana suprapunerii.

Iată o listă de verificare a celor mai bune practici pentru a vă ajuta să evitați supraîncărcarea modelului dvs.:

  • Alegeți un set de date pentru a lucra cu acesta, care este reprezentativ pentru populație în ansamblu.

  • Împărțiți setul de date în două părți: datele de antrenament și datele de testare.

  • Mențineți variabilele analizate la o valoare minimă sănătoasă pentru sarcina la îndemână.

  • Înscrieți-vă la ajutorul experților în domeniul cunoștințelor domeniului.

Pe piața de valori, de exemplu, o tehnică analitică clasică este back-testing - care rulează un model împotriva datelor istorice pentru a căuta cea mai bună strategie de tranzacționare.

Să presupunem că, după ce a executat noul său model împotriva datelor generate de o piață recenta a taurului și a modificat numărul de variabile utilizate în analiza sa, analistul creează ceea ce pare a fi o strategie optimă de tranzacționare - cea care ar da randamentele cele mai mari < dacă ar putea să se întoarcă și să facă schimburi doar în timpul anului care a produs datele de testare. Din păcate, nu poate. Dacă încearcă să aplice modelul pe o piață actuală a ursului, arăta mai jos: El va suferi pierderi prin aplicarea unui model prea optimizat pentru o perioadă restrânsă de timp și un set de condiții care nu se potrivesc cu realitățile actuale. (Atât de mult pentru profiturile ipotetice.)

Modelul a funcționat numai pentru acea piață de tauri dispărute, deoarece a fost supraîncărcată, purtând semnele din contextul care a furnizat datele eșantionului - complet cu specificul, valori și neajunsuri. Toate circumstantele care inconjoara acest set de date probabil ca nu vor mai fi repetate in viitor sau intr-o reprezentare adevarata a intregii populatii - dar toate au aparut in modelul suprasolicitat.

Dacă ieșirea modelului este prea precisă, luați în considerare faptul că o sugestie pentru a vă uita mai atent. Înscrieți-vă la ajutorul experților în domeniul cunoștințelor de domeniu pentru a vedea dacă rezultatele dvs. sunt într-adevăr prea bune pentru a fi adevărate și rulați acest model pe mai multe date de testare pentru comparații suplimentare.

Modul de utilizare a curbei de fixare în predictiv Analytics - manechine

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...