Acasă Finanțe personale Privind Bazele Statisticii, Învățarea în Mașini și Metodele Matematice în Știința Datelor - dummies

Privind Bazele Statisticii, Învățarea în Mașini și Metodele Matematice în Știința Datelor - dummies

Cuprins:

Video: Data Analysis in R by Dustin Tran 2024

Video: Data Analysis in R by Dustin Tran 2024
Anonim

O parte din Data Science for Dummies Cheat Sheet > Dacă statisticile au fost descrise ca fiind știința obținerii de date statistice, atunci care este diferența dintre un statistician și un om de știință? Buna intrebare! În timp ce multe sarcini în domeniul științei datelor necesită un pic de cunoștințe statistice, domeniul de aplicare și lărgimea bazei de cunoștințe și abilități ale unui om de știință sunt distincte de cele ale unui statistician. Distincțiile de bază sunt prezentate mai jos.

Expertiza obiectului:
  • Una dintre trăsăturile principale ale cercetătorilor de date este aceea că oferă o experiență sofisticată în domeniul în care își aplică metodele analitice. Cercetătorii de date au nevoie de acest lucru, astfel încât să poată înțelege cu adevărat implicațiile și aplicațiile datelor despre ele generate. Un om de știință ar trebui să aibă suficientă expertiză în materie, pentru a putea identifica semnificația constatărilor lor și decide în mod independent cum să procedeze în analiză.

    Abordări matematice și de învățare în mașină:

    Statisticienii se bazează în cea mai mare parte pe metode și procese statistice pentru a obține date statistice. În schimb, oamenii de știință din domeniul datelor trebuie să tragă dintr-o mare varietate de tehnici pentru a obține date statistice. Acestea includ metode statistice, dar includ și abordări care nu se bazează pe statistici - cum ar fi cele găsite în abordările de învățare matematică, de grupare, de clasificare și non-statistică.
  • Văzând importanța cunoștințelor statistice Nu trebuie să ieșiți și să obțineți o diplomă în statistici pentru a practica știința datelor, dar ar trebui să vă familiarizați cel puțin cu unele dintre metodele mai fundamentale utilizate în analiza datelor statistice. Acestea includ:

Regresia liniară

: Regresia liniară este utilă pentru modelarea relațiilor dintre o variabilă dependentă și una sau mai multe variabile independente. Scopul regresiei liniare este de a descoperi (și cuantifica puterea) corelațiile importante între variabilele dependente și cele independente.

  • Analiza seriei de timp: Analiza seriilor de timp implică analiza unei colecții de date despre valorile atributelor în timp, pentru a anticipa instanțele viitoare ale măsurii bazate pe datele observaționale anterioare.

  • Simulări Monte Carlo: Metoda Monte Carlo este o tehnică de simulare pe care o puteți folosi pentru a testa ipoteze, a genera estimări ale parametrilor, a prezice rezultatele scenariului și a valida modele. Metoda este puternică deoarece poate fi utilizată pentru a simula foarte repede undeva de la 1 la 10 000 (sau mai multe) eșantioane de simulare pentru orice proces pe care încercați să-l evaluați.

  • Statistici pentru datele spațiale: O proprietate fundamentală și importantă a datelor spațiale este că nu este aleatoriu. Este dependentă spațial și autocorelat. Atunci când modelați date spațiale, evitați metodele statistice care presupun că datele dvs. sunt aleatorii. Kriging și krige sunt două metode statistice pe care le puteți utiliza pentru a modela date spațiale. Aceste metode vă permit să realizați suprafețe predictive pentru zone întregi de studiu bazate pe seturi de puncte cunoscute din spațiul geografic.

  • Lucrul cu metodele de clasificare, clasificare și de învățare în mașină Învățarea în mașină este aplicarea algoritmilor computaționali pentru a învăța din seturile de date brute (sau deduce modele).

Clustering

este un tip particular de învățare a mașinilor - nesupravegheată învățarea automată, de exactitate, ceea ce înseamnă că algoritmii trebuie să învețe din date neetichetate și, ca atare, trebuie să folosească metode inferențiale corelații. Clasificarea, pe de altă parte, se numește învățare automată supravegheată, ceea ce înseamnă că algoritmii învață din datele etichetate. Următoarele descrieri introduc unele dintre cele mai bazice abordări de grupare și clasificare:

k-mean clustering: În general, implementați algoritmi k-means pentru a subdiviza punctele de date dintr-un set de date în clustere bazate pe valori medii cele mai apropiate. Pentru a determina împărțirea optimă a punctelor de date în clustere, astfel încât distanța dintre punctele fiecărui cluster să fie redusă la minimum, puteți utiliza gruparea k-means.

  • Algoritmi celui mai apropiat vecin: Scopul analizei celui mai apropiat vecin este de a căuta și localiza fie cel mai apropiat punct din spațiu, fie cea mai apropiată valoare numerică, în funcție de atributul pe care îl utilizați pentru baza de comparație.

  • Estimarea densității kernelului: O modalitate alternativă de identificare a clusterelor în datele dvs. este utilizarea unei funcții de densificare a densității. Estimarea densității kernelului (KDE) funcționează prin plasarea unui kernel

  • o funcție de ponderare utilă pentru cuantificarea densității - la fiecare punct de date din setul de date și apoi însumarea kernelurilor pentru a genera o estimare a densității kernelului pentru ansamblul regiune. Păstrarea metodelor matematice în amestec Se vorbesc multe despre valoarea statisticilor în practica științei datelor, dar metodele matematice aplicate sunt rareori menționate. Pentru a fi sincer, matematica este baza tuturor analizelor cantitative. Importanța sa nu trebuie subestimată. Cele două metode matematice următoare sunt utile în special în domeniul științei datelor.

MCDM:

MCDM este o abordare de modelare a deciziilor matematice pe care o puteți utiliza atunci când aveți mai multe criterii sau alternative pe care trebuie să le evaluați simultan atunci când luați o decizie.

  • Lanțurile Markov : Lanțul Markov este o metodă matematică care lansează împreună o serie de variabile generate aleatoriu care reprezintă starea actuală pentru a modela modul în care modificările variabilelor de stare actuale afectează stările viitoare.

Privind Bazele Statisticii, Învățarea în Mașini și Metodele Matematice în Știința Datelor - dummies

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...