Acasă Finanțe personale Aplicarea Principalei Analiză a Componentelor la Analiza Predictivă - dummy

Aplicarea Principalei Analiză a Componentelor la Analiza Predictivă - dummy

Video: Danny Hillis: Understanding cancer through proteomics 2024

Video: Danny Hillis: Understanding cancer through proteomics 2024
Anonim

Analiza principală a componentelor (PCA) este o tehnică valoroasă care este utilizată pe scară largă în analiza predictivă și știința datelor. Studiază un set de date pentru a afla cele mai relevante variabile responsabile de cea mai mare variație în acel set de date. PCA este folosit în principal ca tehnică de reducere a datelor.

În timp ce construiți modele predictive, poate fi necesar să reduceți numărul de caracteristici care descriu setul de date. Este foarte util să reducem această dimensionalitate ridicată a datelor prin tehnici de aproximare, la care PCA excelează. Datele aproximative sintetizează toate variațiile importante ale datelor originale.

De exemplu, setul de caracteristici de date despre stocuri poate include prețurile acțiunilor, înălțimile și sumele zilnice, volumul tranzacțiilor, mediile mobile de 200 de zile, ratele de câștiguri, puterea relativă față de alte piețe, ratele dobânzilor și puterea monedelor.

Găsirea celor mai importante variabile predictive se află în centrul construirii unui model predictiv. Modul în care mulți au făcut-o este prin utilizarea unei abordări a forței brute. Ideea este să începeți cu cât mai multe variabile relevante, după cum puteți, și apoi să utilizați o abordare cu pâlnie pentru a elimina caracteristicile care nu au niciun impact sau nici o valoare predictivă.

Inteligența și cunoașterea sunt aduse la această metodă prin angajarea părților interesate din sectorul de afaceri, deoarece aceștia au unele plictisi cu privire la care variabile vor avea cel mai mare impact în analiză. Experiența oamenilor de știință implicați în proiect este, de asemenea, importantă în cunoașterea variabilelor cu care trebuie să lucrați și a algoritmilor care trebuie utilizați pentru un anumit tip de date sau pentru o problemă specifică domeniului.

Pentru a ajuta procesul, oamenii de știință folosesc multe instrumente de analiză predictivă care fac mai ușor și mai rapid executarea mai multor permutări și analize pe un set de date pentru a măsura impactul fiecărei variabile asupra acelui set de date.

Știind că există o cantitate mare de date cu care să lucrați, puteți folosi APC pentru ajutor.

Reducerea numărului de variabile pe care le priviți este un motiv suficient pentru a angaja PCA. În plus, prin utilizarea PCA vă protejați în mod automat de suprasolicitarea modelului.

Desigur, ați putea găsi o corelație între datele meteo dintr-o anumită țară și performanța pieței bursiere. Sau cu culoarea pantofilor persoanei și cu traseul pe care îl duce la birou și performanța portofoliului pentru acea zi. Totuși, includerea acestor variabile într-un model predictiv este mai mult decât o suprapunere, este înșelătoare și duce la predicții false.

PCA folosește o abordare valabilă matematic pentru a determina subsetul setului de date care include cele mai importante caracteristici; în construirea modelului dvs. pe acel set de date mai mic, veți avea un model care are o valoare predictivă pentru setul de date mai general, mai mare cu care lucrați. Pe scurt, PCA ar trebui să vă ajute să înțelegeți variabilele dvs. prin identificarea subsetului de variabile responsabile pentru cele mai multe variații cu setul de date original. Vă ajută să identificați redundanța. Vă ajută să aflați că două (sau mai multe variabile) vă spun același lucru.

Mai mult, analiza componentelor principale ia în considerare setul dvs. de date multidimensional și produce un nou set de date ale cărui variabile sunt reprezentative pentru liniaritatea variabilelor din setul de date originale. În plus, setul de date de ieșire are variabile individuale ne-corelate, iar varianța lor este ordonată de componentele lor principale, unde prima este cea mai mare și așa mai departe. În acest sens, PCA poate fi de asemenea considerată ca o tehnică pentru construirea de caracteristici.

În timp ce folosiți PCA sau alte tehnici similare care ajută la reducerea dimensionalității setului de date cu care aveți de-a face, trebuie să aveți întotdeauna precauție pentru a nu afecta negativ performanțele modelului. Reducerea mărimii datelor nu ar trebui să se facă pe seama impactului negativ asupra performanței (precizia modelului predictiv). Treceți în siguranță și gestionați cu grijă setul de date.

Complexitatea crescută a unui model nu se traduce într-o calitate superioară a rezultatului.

Pentru a păstra performanța modelului, poate fi necesar să evaluați cu atenție eficacitatea fiecărei variabile, măsurând utilitatea acesteia în modelarea modelului final.

Știind că PCA poate fi util în special atunci când variabilele sunt foarte corelate într-un set dat dat, atunci având un set de date cu variabile predictive ne-corelate poate complica doar sarcina reducerii dimensionalității datelor multivariate. Multe alte tehnici pot fi folosite aici în plus față de PCA, cum ar fi selecția caracteristicilor înainte și eliminarea caracteristicilor înapoi.

PCA nu este un glonț magic care va rezolva toate problemele cu date multidimensionale. Succesul său depinde în mare măsură de datele cu care lucrați. Varianța statistică poate să nu se alinieze la variabilele cu cele mai multe valori predictive, chiar dacă este sigur să se lucreze cu astfel de aproximări.

Aplicarea Principalei Analiză a Componentelor la Analiza Predictivă - dummy

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...