Acasă Finanțe personale Elementele de bază ale clusterelor de date în analiza predictivă - dummies

Elementele de bază ale clusterelor de date în analiza predictivă - dummies

Video: Apa - Marele Mister (HD) 2024

Video: Apa - Marele Mister (HD) 2024
Anonim

A (sau colectarea de date) este un set de elemente în analiza predictivă. De exemplu, un set de documente este un set de date în care elementele de date sunt documente. Un set de informații despre utilizatorii rețelei sociale (nume, vârstă, listă de prieteni, fotografii și așa mai departe) reprezintă un set de date în care elementele de date sunt profile ale utilizatorilor rețelei sociale. Gruparea de date

este sarcina împărțirii unui set de date în subseturi de elemente similare. Elementele pot fi denumite și instanțe, observații, entități sau obiecte de date. În majoritatea cazurilor, un set de date este reprezentat în formatul tabelului - o matrice de date . O matrice de date este un tabel cu numere, documente sau expresii, reprezentat în rânduri și coloane după cum urmează:

Fiecare rând corespunde unui element dat din setul de date.
  • Rândurile sunt uneori denumite

    elemente, obiecte, instanțe sau observații. Fiecare coloană reprezintă o caracteristică particulară a unui element.

  • Coloanele sunt denumite caracteristici sau atribute

    . Aplicarea grupării de date la un set de date generează grupuri de elemente de date similare. Aceste grupuri sunt numite

grupuri - colecții de elemente de date similare. au o relație puternică și măsurabilă între ele - legumele proaspete, de exemplu, sunt mai asemănătoare cu cele ale alimentelor congelate - iar tehnicile de grupare folosesc această relație pentru a grupa obiectele.

Puterea unei relații între două sau mai multe elemente poate fi cuantificată ca o măsură de similaritate :

O funcție matematică calculează corelația dintre două elemente de date. Rezultatele acelui calcul, numite valori de similitudine, compară esențial un anumit element de date cu toate celelalte elemente din setul de date. Celelalte elemente vor fi fie mai similare, fie mai puțin similare în comparație cu acel element specific.

Asemănările calculate joacă un rol major în atribuirea elementelor grupurilor (

clustere

). Fiecare grup are un element care îl reprezintă cel mai bine; acest element este denumit reprezentant al clusterului . Luați în considerare un set de date care constă în mai multe tipuri de fructe dintr-un coș. Coșul are fructe de diferite tipuri, cum ar fi mere, banane, lămâi și pere. În acest caz, fructele sunt elementele de date. Procesul de grupare a datelor extrage grupuri de fructe similare din acest set de date (coș de fructe diferite). Primul pas într-un proces de clustering de date este de a traduce acest set de date într-o matrice de date: O modalitate de a modela acest set de date este de a avea rânduri reprezentând elementele din setul de date (fructe); iar coloanele reprezintă caracteristicile sau caracteristicile care descriu elementele.

De exemplu, o caracteristică a fructelor poate fi tipul fructelor (cum ar fi o banană sau măr), greutatea, culoarea sau prețul. În acest exemplu de date, elementele au trei caracteristici: tipul de fructe, culoarea și greutatea.

În majoritatea cazurilor, aplicarea unei tehnici de grupare a datelor în setul de date despre fructe, așa cum este descris mai sus, vă permite să

Returnați grupuri (grupuri) de elemente similare.

Poți să spui că fructul tău este de număr N de grupuri. După aceasta, dacă alegeți un fruct aleatoriu, veți putea face o declarație despre acel articol ca fiind parte a unuia dintre grupurile N.

  • Recuperați reprezentanții grupurilor din fiecare grup. În acest exemplu, un reprezentant al clusterului va alege un coș de fructe din coș și îl va lăsa deoparte. Caracteristicile acestui fruct sunt de așa natură încât acest fruct reprezintă cel mai bine clusterul din care face parte.

  • Când ați terminat gruparea, setul de date este organizat și împărțit în grupări naturale. Clustering-ul datelor dezvăluie structura datelor obținute prin extragerea grupărilor naturale dintr-un set de date. De aceea, descoperirea clusterelor este un pas esențial în formularea de idei și ipoteze despre structura datelor dvs. și obținerea de informații pentru ao înțelege mai bine.

Gruparea de date poate fi, de asemenea, o modalitate de modelare a datelor: reprezintă un număr mai mare de date de către grupuri sau reprezentanți ai grupurilor.

În plus, analiza dvs. poate căuta pur și simplu să împartă datele în grupuri de elemente similare - ca atunci când

segmentarea pieței

împarte datele din țintă în grupuri precum Consumatorii care împărtășesc aceleași interese cum ar fi gătitul mediteranean) Consumatorii care au nevoi comune (de exemplu, cei cu alergii alimentare specifice)

  • Identificarea clusterelor unor clienți similari vă poate ajuta să dezvoltați o strategie de marketing care să răspundă nevoilor unor clustere specifice.

  • Mai mult, gruparea de date vă poate ajuta, de asemenea, să identificați, să învățați sau să prezicați natura elementelor noi de date - în special modul în care pot fi corelate date noi cu realizarea predicțiilor. De exemplu, în

recunoașterea modelului, analizarea tiparelor în date (cum ar fi modelele de cumpărare în anumite regiuni sau grupuri de vârstă) vă poate ajuta să dezvoltați analize predictive - în acest caz, se potrivesc bine cu modelele stabilite. Exemplul coșului de fructe folosește gruparea de date pentru a face distincția între diferitele elemente de date. Să presupunem că afacerea dvs. asamblează coșuri de fructe personalizate, iar un nou fruct necunoscut este introdus pe piață. Doriți să aflați sau să anticipați care cluster va aparține noului articol dacă îl adăugați în coșul de fructe. Pentru că ați aplicat deja gruparea de date în setul de date pentru fructe, aveți patru clustere - ceea ce face mai ușor să preziceți care cluster (tip specific de fructe) este potrivit pentru noul element. Tot ce trebuie să faceți este să comparați fructul necunoscut cu ceilalți patru reprezentanți ai clusterelor și să identificați clusterul care este cel mai bun meci.

Deși acest proces poate părea evident pentru o persoană care lucrează cu un set de date mic, nu este atât de evidentă la o scară mai mare - când trebuie să strângeți milioane de articole fără a examina fiecare dintre ele.Complexitatea devine exponențială atunci când setul de date este mare, divers și relativ incoerent - de aceea există algoritmi de grupare: Computerele fac cel mai bine acest tip de lucru.

Elementele de bază ale clusterelor de date în analiza predictivă - dummies

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...