Video: Danny Hillis: Understanding cancer through proteomics 2024
Analiza principală a componentelor (PCA) este o tehnică valoroasă care este utilizată pe scară largă în analiza predictivă și știința datelor. Studiază un set de date pentru a afla cele mai relevante variabile responsabile de cea mai mare variație în acel set de date. PCA este folosit în principal ca tehnică de reducere a datelor.
În timp ce construiți modele predictive, poate fi necesar să reduceți numărul de caracteristici care descriu setul de date. Este foarte util să reducem această dimensionalitate ridicată a datelor prin tehnici de aproximare, la care PCA excelează. Datele aproximative sintetizează toate variațiile importante ale datelor originale.
De exemplu, setul de caracteristici de date despre stocuri poate include prețurile acțiunilor, înălțimile și sumele zilnice, volumul tranzacțiilor, mediile mobile de 200 de zile, ratele de câștiguri, puterea relativă față de alte piețe, ratele dobânzilor și puterea monedelor.
Găsirea celor mai importante variabile predictive se află în centrul construirii unui model predictiv. Modul în care mulți au făcut-o este prin utilizarea unei abordări a forței brute. Ideea este să începeți cu cât mai multe variabile relevante, după cum puteți, și apoi să utilizați o abordare cu pâlnie pentru a elimina caracteristicile care nu au niciun impact sau nici o valoare predictivă.
Inteligența și cunoașterea sunt aduse la această metodă prin angajarea părților interesate din sectorul de afaceri, deoarece aceștia au unele plictisi cu privire la care variabile vor avea cel mai mare impact în analiză. Experiența oamenilor de știință implicați în proiect este, de asemenea, importantă în cunoașterea variabilelor cu care trebuie să lucrați și a algoritmilor care trebuie utilizați pentru un anumit tip de date sau pentru o problemă specifică domeniului.
Pentru a ajuta procesul, oamenii de știință folosesc multe instrumente de analiză predictivă care fac mai ușor și mai rapid executarea mai multor permutări și analize pe un set de date pentru a măsura impactul fiecărei variabile asupra acelui set de date.
Știind că există o cantitate mare de date cu care să lucrați, puteți folosi APC pentru ajutor.
Reducerea numărului de variabile pe care le priviți este un motiv suficient pentru a angaja PCA. În plus, prin utilizarea PCA vă protejați în mod automat de suprasolicitarea modelului.
Desigur, ați putea găsi o corelație între datele meteo dintr-o anumită țară și performanța pieței bursiere. Sau cu culoarea pantofilor persoanei și cu traseul pe care îl duce la birou și performanța portofoliului pentru acea zi. Totuși, includerea acestor variabile într-un model predictiv este mai mult decât o suprapunere, este înșelătoare și duce la predicții false.
PCA folosește o abordare valabilă matematic pentru a determina subsetul setului de date care include cele mai importante caracteristici; în construirea modelului dvs. pe acel set de date mai mic, veți avea un model care are o valoare predictivă pentru setul de date mai general, mai mare cu care lucrați. Pe scurt, PCA ar trebui să vă ajute să înțelegeți variabilele dvs. prin identificarea subsetului de variabile responsabile pentru cele mai multe variații cu setul de date original. Vă ajută să identificați redundanța. Vă ajută să aflați că două (sau mai multe variabile) vă spun același lucru.
Mai mult, analiza componentelor principale ia în considerare setul dvs. de date multidimensional și produce un nou set de date ale cărui variabile sunt reprezentative pentru liniaritatea variabilelor din setul de date originale. În plus, setul de date de ieșire are variabile individuale ne-corelate, iar varianța lor este ordonată de componentele lor principale, unde prima este cea mai mare și așa mai departe. În acest sens, PCA poate fi de asemenea considerată ca o tehnică pentru construirea de caracteristici.
În timp ce folosiți PCA sau alte tehnici similare care ajută la reducerea dimensionalității setului de date cu care aveți de-a face, trebuie să aveți întotdeauna precauție pentru a nu afecta negativ performanțele modelului. Reducerea mărimii datelor nu ar trebui să se facă pe seama impactului negativ asupra performanței (precizia modelului predictiv). Treceți în siguranță și gestionați cu grijă setul de date.
Complexitatea crescută a unui model nu se traduce într-o calitate superioară a rezultatului.
Pentru a păstra performanța modelului, poate fi necesar să evaluați cu atenție eficacitatea fiecărei variabile, măsurând utilitatea acesteia în modelarea modelului final.
Știind că PCA poate fi util în special atunci când variabilele sunt foarte corelate într-un set dat dat, atunci având un set de date cu variabile predictive ne-corelate poate complica doar sarcina reducerii dimensionalității datelor multivariate. Multe alte tehnici pot fi folosite aici în plus față de PCA, cum ar fi selecția caracteristicilor înainte și eliminarea caracteristicilor înapoi.
PCA nu este un glonț magic care va rezolva toate problemele cu date multidimensionale. Succesul său depinde în mare măsură de datele cu care lucrați. Varianța statistică poate să nu se alinieze la variabilele cu cele mai multe valori predictive, chiar dacă este sigur să se lucreze cu astfel de aproximări.