Video: Apa - Marele Mister (HD) 2024
A (sau colectarea de date) este un set de elemente în analiza predictivă. De exemplu, un set de documente este un set de date în care elementele de date sunt documente. Un set de informații despre utilizatorii rețelei sociale (nume, vârstă, listă de prieteni, fotografii și așa mai departe) reprezintă un set de date în care elementele de date sunt profile ale utilizatorilor rețelei sociale. Gruparea de date
este sarcina împărțirii unui set de date în subseturi de elemente similare. Elementele pot fi denumite și instanțe, observații, entități sau obiecte de date. În majoritatea cazurilor, un set de date este reprezentat în formatul tabelului - o matrice de date . O matrice de date este un tabel cu numere, documente sau expresii, reprezentat în rânduri și coloane după cum urmează:
-
Rândurile sunt uneori denumite
elemente, obiecte, instanțe sau observații. Fiecare coloană reprezintă o caracteristică particulară a unui element.
-
Coloanele sunt denumite caracteristici sau atribute
. Aplicarea grupării de date la un set de date generează grupuri de elemente de date similare. Aceste grupuri sunt numite
grupuri - colecții de elemente de date similare. au o relație puternică și măsurabilă între ele - legumele proaspete, de exemplu, sunt mai asemănătoare cu cele ale alimentelor congelate - iar tehnicile de grupare folosesc această relație pentru a grupa obiectele.
Puterea unei relații între două sau mai multe elemente poate fi cuantificată ca o măsură de similaritate :
O funcție matematică calculează corelația dintre două elemente de date. Rezultatele acelui calcul, numite valori de similitudine, compară esențial un anumit element de date cu toate celelalte elemente din setul de date. Celelalte elemente vor fi fie mai similare, fie mai puțin similare în comparație cu acel element specific.
). Fiecare grup are un element care îl reprezintă cel mai bine; acest element este denumit reprezentant al clusterului . Luați în considerare un set de date care constă în mai multe tipuri de fructe dintr-un coș. Coșul are fructe de diferite tipuri, cum ar fi mere, banane, lămâi și pere. În acest caz, fructele sunt elementele de date. Procesul de grupare a datelor extrage grupuri de fructe similare din acest set de date (coș de fructe diferite). Primul pas într-un proces de clustering de date este de a traduce acest set de date într-o matrice de date: O modalitate de a modela acest set de date este de a avea rânduri reprezentând elementele din setul de date (fructe); iar coloanele reprezintă caracteristicile sau caracteristicile care descriu elementele.
De exemplu, o caracteristică a fructelor poate fi tipul fructelor (cum ar fi o banană sau măr), greutatea, culoarea sau prețul. În acest exemplu de date, elementele au trei caracteristici: tipul de fructe, culoarea și greutatea.
În majoritatea cazurilor, aplicarea unei tehnici de grupare a datelor în setul de date despre fructe, așa cum este descris mai sus, vă permite să
Returnați grupuri (grupuri) de elemente similare.
Poți să spui că fructul tău este de număr N de grupuri. După aceasta, dacă alegeți un fruct aleatoriu, veți putea face o declarație despre acel articol ca fiind parte a unuia dintre grupurile N.
-
Recuperați reprezentanții grupurilor din fiecare grup. În acest exemplu, un reprezentant al clusterului va alege un coș de fructe din coș și îl va lăsa deoparte. Caracteristicile acestui fruct sunt de așa natură încât acest fruct reprezintă cel mai bine clusterul din care face parte.
-
Când ați terminat gruparea, setul de date este organizat și împărțit în grupări naturale. Clustering-ul datelor dezvăluie structura datelor obținute prin extragerea grupărilor naturale dintr-un set de date. De aceea, descoperirea clusterelor este un pas esențial în formularea de idei și ipoteze despre structura datelor dvs. și obținerea de informații pentru ao înțelege mai bine.
Gruparea de date poate fi, de asemenea, o modalitate de modelare a datelor: reprezintă un număr mai mare de date de către grupuri sau reprezentanți ai grupurilor.
În plus, analiza dvs. poate căuta pur și simplu să împartă datele în grupuri de elemente similare - ca atunci când
segmentarea pieței
împarte datele din țintă în grupuri precum Consumatorii care împărtășesc aceleași interese cum ar fi gătitul mediteranean) Consumatorii care au nevoi comune (de exemplu, cei cu alergii alimentare specifice)
-
Identificarea clusterelor unor clienți similari vă poate ajuta să dezvoltați o strategie de marketing care să răspundă nevoilor unor clustere specifice.
-
Mai mult, gruparea de date vă poate ajuta, de asemenea, să identificați, să învățați sau să prezicați natura elementelor noi de date - în special modul în care pot fi corelate date noi cu realizarea predicțiilor. De exemplu, în
recunoașterea modelului, analizarea tiparelor în date (cum ar fi modelele de cumpărare în anumite regiuni sau grupuri de vârstă) vă poate ajuta să dezvoltați analize predictive - în acest caz, se potrivesc bine cu modelele stabilite. Exemplul coșului de fructe folosește gruparea de date pentru a face distincția între diferitele elemente de date. Să presupunem că afacerea dvs. asamblează coșuri de fructe personalizate, iar un nou fruct necunoscut este introdus pe piață. Doriți să aflați sau să anticipați care cluster va aparține noului articol dacă îl adăugați în coșul de fructe. Pentru că ați aplicat deja gruparea de date în setul de date pentru fructe, aveți patru clustere - ceea ce face mai ușor să preziceți care cluster (tip specific de fructe) este potrivit pentru noul element. Tot ce trebuie să faceți este să comparați fructul necunoscut cu ceilalți patru reprezentanți ai clusterelor și să identificați clusterul care este cel mai bun meci.
Deși acest proces poate părea evident pentru o persoană care lucrează cu un set de date mic, nu este atât de evidentă la o scară mai mare - când trebuie să strângeți milioane de articole fără a examina fiecare dintre ele.Complexitatea devine exponențială atunci când setul de date este mare, divers și relativ incoerent - de aceea există algoritmi de grupare: Computerele fac cel mai bine acest tip de lucru.