Video: Kent Hovind - Seminar 4 - Lies in the textbooks [MULTISUBS] 2024
Ambele grupări și clasificări se bazează pe calcularea asemănării sau a diferenței dintre două puncte de date. Dacă setul de date este numeric - conține doar câmpuri și valori - și poate fi reprezentat pe un grafic n -dimensional, atunci există diferite metrici geometrice pe care le puteți utiliza pentru a vă scala multidimensional date.
Un grafic n-dimensional este o diagramă grafică multidimensională împrăștiată pe care o puteți utiliza pentru a afișa n numărul de dimensiuni ale datelor.
Unele valori geometrice populare utilizate pentru calcularea distanțelor dintre punctele de date includ valori de distanță Euclidean, Manhattan sau Minkowski. Aceste valori sunt doar funcții geometrice diferite care sunt utile pentru modelarea distanțelor dintre puncte. Metrica euclidiană este o măsură a distanței dintre punctele planificate pe un plan euclidian.
Metricul Manhattan este o măsură a distanței dintre punctele în care distanța este calculată ca suma valorii absolute a diferențelor dintre coordonatele cartesiene de două puncte. Distanța metrică Minkowski este o generalizare a măsurătorilor de distanță Euclid și Manhattan. Destul de des, aceste valori pot fi utilizate - interschimbabil.
diferențe între date, în loc de valorile reale ale datele în sine. În cele din urmă, pentru date non-numerice, puteți utiliza valori cum ar fi valoarea metrică a distanței Jaccard, care este un index care compară numărul de caracteristici pe care le au în comun două puncte de date. De exemplu, pentru a ilustra o distanță Jaccard, gândiți-vă la următoarele două șiruri de text: Saint Louis de Ha-ha, Quebec și St Louis de Ha! Ha!, QC.