Elementele de bază ale modulelor K-Means și DBSCAN pentru analiza predictivă - dummy

Video: Xiaomi Black Shark 2 | Încă un telefon de GAMING? | Unboxing & Review CEL.ro 2024

Învățarea neaservată are multe provocări în ceea ce privește analiza predictivă - inclusiv neștiind ce să ne așteptăm când executați un algoritm. Fiecare algoritm va produce rezultate diferite; nu vei fi niciodată sigur dacă un rezultat este mai bun decât celălalt - sau chiar dacă rezultatul are valoare.

Când știți ce ar trebui să fie rezultatele, puteți optimiza algoritmii pentru a obține rezultatele dorite. În seturile de date din lumea reală, nu veți avea acest lux. Va trebui să depindeți de cunoștințele anterioare ale datelor - sau de intuiție - pentru a decide care parametri și algoritmi de inițializare să le utilizați pe măsură ce creați modelul.

Cu toate acestea, în cadrul unor activități de învățare reale nesupravegheate, aceste cunoștințe anterioare nu sunt disponibile și rezultatul dorit este greu de găsit. Alegerea numărului corect de clustere este problema cheie. Dacă întâmpinați numărarea corectă a clusterelor, datele dvs. vor genera informații pe care le puteți face predicții foarte precise. Pe de altă parte, ghicitul numărului greșit de clustere poate genera rezultate parțiale.

Gândiți-vă la

date separabile liniar ca un grup de puncte într-un grafic care poate fi separat folosind o linie dreaptă. Dacă datele nu pot fi separate liniar, vor fi folosite mai multe versiuni avansate ale mijloacelor K - care vor deveni mai computerizate și ar putea să nu fie potrivite pentru seturi de date foarte mari. În implementarea sa standard, complexitatea de a calcula centrele de clustere și distanțele este redusă.

K-mijloacele sunt utilizate pe scară largă pentru a rezolva probleme mari de date, deoarece sunt simple de utilizat, eficiente și foarte scalabile. Nu e de mirare că majoritatea furnizorilor comerciali folosesc algoritmul K-means ca o componentă cheie a pachetelor lor de predicție analitică.

Implementarea aplicației DBSCAN (Density-Based Clustering of Applications with Noise) în scikit-learn nu necesită parametri de inițializare definiți de utilizator pentru a crea o instanță. Aveți posibilitatea să înlocuiți parametrii impliciți în timpul inițializării, dacă doriți. Din păcate, dacă utilizați parametrii impliciți, algoritmul nu poate oferi o potrivire apropiată cu rezultatul dorit.

DBSCAN este mai potrivit pentru seturile de date care au dimensiuni disproporționate de cluster și ale căror date pot fi separate într-un mod neliniar.Ca și în cazul mijloacelor K, DBSCAN este scalabil, dar utilizarea acestuia pe seturi de date foarte mari necesită mai multă memorie și putere de calcul.