Privind Bazele Statisticii, Învățarea în Mașini și Metodele Matematice în Știința Datelor - dummies

O parte din Data Science for Dummies Cheat Sheet > Dacă statisticile au fost descrise ca fiind știința obținerii de date statistice, atunci care este diferența dintre un statistician și un om de știință? Buna intrebare! În timp ce multe sarcini în domeniul științei datelor necesită un pic de cunoștințe statistice, domeniul de aplicare și lărgimea bazei de cunoștințe și abilități ale unui om de știință sunt distincte de cele ale unui statistician. Distincțiile de bază sunt prezentate mai jos.

Expertiza obiectului:

Una dintre trăsăturile principale ale cercetătorilor de date este aceea că oferă o experiență sofisticată în domeniul în care își aplică metodele analitice. Cercetătorii de date au nevoie de acest lucru, astfel încât să poată înțelege cu adevărat implicațiile și aplicațiile datelor despre ele generate. Un om de știință ar trebui să aibă suficientă expertiză în materie, pentru a putea identifica semnificația constatărilor lor și decide în mod independent cum să procedeze în analiză.

Abordări matematice și de învățare în mașină:
Statisticienii se bazează în cea mai mare parte pe metode și procese statistice pentru a obține date statistice. În schimb, oamenii de știință din domeniul datelor trebuie să tragă dintr-o mare varietate de tehnici pentru a obține date statistice. Acestea includ metode statistice, dar includ și abordări care nu se bazează pe statistici - cum ar fi cele găsite în abordările de învățare matematică, de grupare, de clasificare și non-statistică.
Văzând importanța cunoștințelor statistice Nu trebuie să ieșiți și să obțineți o diplomă în statistici pentru a practica știința datelor, dar ar trebui să vă familiarizați cel puțin cu unele dintre metodele mai fundamentale utilizate în analiza datelor statistice. Acestea includ:

Regresia liniară

: Regresia liniară este utilă pentru modelarea relațiilor dintre o variabilă dependentă și una sau mai multe variabile independente. Scopul regresiei liniare este de a descoperi (și cuantifica puterea) corelațiile importante între variabilele dependente și cele independente.

Analiza seriei de timp: Analiza seriilor de timp implică analiza unei colecții de date despre valorile atributelor în timp, pentru a anticipa instanțele viitoare ale măsurii bazate pe datele observaționale anterioare.
Simulări Monte Carlo: Metoda Monte Carlo este o tehnică de simulare pe care o puteți folosi pentru a testa ipoteze, a genera estimări ale parametrilor, a prezice rezultatele scenariului și a valida modele. Metoda este puternică deoarece poate fi utilizată pentru a simula foarte repede undeva de la 1 la 10 000 (sau mai multe) eșantioane de simulare pentru orice proces pe care încercați să-l evaluați.
Statistici pentru datele spațiale: O proprietate fundamentală și importantă a datelor spațiale este că nu este aleatoriu. Este dependentă spațial și autocorelat. Atunci când modelați date spațiale, evitați metodele statistice care presupun că datele dvs. sunt aleatorii. Kriging și krige sunt două metode statistice pe care le puteți utiliza pentru a modela date spațiale. Aceste metode vă permit să realizați suprafețe predictive pentru zone întregi de studiu bazate pe seturi de puncte cunoscute din spațiul geografic.
Lucrul cu metodele de clasificare, clasificare și de învățare în mașină Învățarea în mașină este aplicarea algoritmilor computaționali pentru a învăța din seturile de date brute (sau deduce modele).

Clustering

este un tip particular de învățare a mașinilor - nesupravegheată învățarea automată, de exactitate, ceea ce înseamnă că algoritmii trebuie să învețe din date neetichetate și, ca atare, trebuie să folosească metode inferențiale corelații. Clasificarea, pe de altă parte, se numește învățare automată supravegheată, ceea ce înseamnă că algoritmii învață din datele etichetate. Următoarele descrieri introduc unele dintre cele mai bazice abordări de grupare și clasificare:

k-mean clustering: În general, implementați algoritmi k-means pentru a subdiviza punctele de date dintr-un set de date în clustere bazate pe valori medii cele mai apropiate. Pentru a determina împărțirea optimă a punctelor de date în clustere, astfel încât distanța dintre punctele fiecărui cluster să fie redusă la minimum, puteți utiliza gruparea k-means.

Algoritmi celui mai apropiat vecin: Scopul analizei celui mai apropiat vecin este de a căuta și localiza fie cel mai apropiat punct din spațiu, fie cea mai apropiată valoare numerică, în funcție de atributul pe care îl utilizați pentru baza de comparație.
Estimarea densității kernelului: O modalitate alternativă de identificare a clusterelor în datele dvs. este utilizarea unei funcții de densificare a densității. Estimarea densității kernelului (KDE) funcționează prin plasarea unui kernel
o funcție de ponderare utilă pentru cuantificarea densității - la fiecare punct de date din setul de date și apoi însumarea kernelurilor pentru a genera o estimare a densității kernelului pentru ansamblul regiune. Păstrarea metodelor matematice în amestec Se vorbesc multe despre valoarea statisticilor în practica științei datelor, dar metodele matematice aplicate sunt rareori menționate. Pentru a fi sincer, matematica este baza tuturor analizelor cantitative. Importanța sa nu trebuie subestimată. Cele două metode matematice următoare sunt utile în special în domeniul științei datelor.

MCDM:

MCDM este o abordare de modelare a deciziilor matematice pe care o puteți utiliza atunci când aveți mai multe criterii sau alternative pe care trebuie să le evaluați simultan atunci când luați o decizie.

Lanțurile Markov : Lanțul Markov este o metodă matematică care lansează împreună o serie de variabile generate aleatoriu care reprezintă starea actuală pentru a modela modul în care modificările variabilelor de stare actuale afectează stările viitoare.