Elemente de bază ale clasificărilor de date analitică predictivă Proces-dummies

Video: Bruce Bueno de Mesquita predicts Iran's future 2024

La un nivel de alamă, clasificarea datelor analitice predictive constă în două etape: etapa de învățare și etapa de predicție. Etapa de învățare implică formarea modelului de clasificare prin rularea unui set desemnat de date trecute prin clasificator. Scopul este să înveți modelul să extragă și să descopere relații și reguli ascunse - regulile de clasificare din datele istorice (de formare). Modelul face acest lucru prin utilizarea unui algoritm de clasificare.

Etapa de predicție care urmează etapei de învățare constă în faptul că modelul prezice noi etichete de clasă sau valori numerice care clasifică datele pe care nu le-a văzut înainte (adică date de testare).

Pentru a ilustra aceste etape, să presupunem că sunteți proprietarul unui magazin online care vinde ceasuri. Ați deținut magazinul online timp îndelungat și ați acumulat o mulțime de date tranzacționale și date personale despre clienții care au cumpărat ceasuri din magazinul dvs. Să presupunem că ați captat aceste date prin intermediul site-ului dvs. prin furnizarea de formulare web, pe lângă datele tranzacționale pe care le-ați colectat prin intermediul operațiunilor.

De asemenea, puteți achiziționa date de la o terță parte care vă oferă informații despre clienții dvs. în afara interesului lor pentru ceasuri. Nu este așa de tare cum sună; există companii al căror model de afaceri este de a urmări clienții online și de a colecta și a vinde informații valoroase despre ele.

Majoritatea companiilor terțe colectează date de pe site-urile de social media și aplică metode de extragere a datelor pentru a descoperi relația utilizatorilor individuali cu produsele. În acest caz, în calitate de proprietar al unui magazin de ceasuri, veți fi interesat de relația dintre clienți și interesul lor de a cumpăra ceasuri.

Puteți deduce acest tip de informații de la analizarea, de exemplu, a unui profil de rețea socială a unui client sau a unui comentariu de microblog de tipul pe care îl găsiți pe Twitter.

Pentru a măsura nivelul de interes al unui individ în ceea ce privește ceasurile, puteți aplica oricare dintre instrumentele de analiză a textului care pot descoperi astfel de corelații în textul scris al unui individ (starea rețelelor sociale, tweets, postări pe blog și altele asemenea) cum ar fi interacțiunile sociale online, încărcările de fotografii și căutările).

După ce colectați toate datele despre tranzacțiile anterioare ale clienților dvs. și interesele curente - datele de formare care arată modelul dvs. ce trebuie să căutați - va trebui să îl organizați într-o structură care o face ușor de accesat și utilizat (cum ar fi o bază de date).

În acest moment ați ajuns la cea de-a doua fază a clasificării datelor: stadiul de predicție, care se referă la testarea modelului și la exactitatea regulilor de clasificare pe care le-a generat. În acest scop, veți avea nevoie de date istorice suplimentare despre clienți, numite date de testare (care diferă de datele de antrenament).

Contribuiți aceste date de testare în modelul dvs. și măsurați exactitatea previziunilor rezultate. Contorizați momentele în care modelul prezice corect comportamentul viitor al clienților reprezentați în datele dvs. de testare. De asemenea, numărați momentele în care modelul a făcut predicții greșite.

În acest moment, aveți doar două rezultate posibile: Fie sunteți mulțumit de exactitatea modelului, fie nu sunteți:

Dacă sunteți mulțumit, atunci puteți începe să obțineți modelul gata de a face predicții ca parte a unui sistem de producție.
Dacă nu sunteți mulțumit de predicție, va trebui să vă recalificați modelul cu un nou set de date de antrenament.

Dacă datele dvs. de antrenament originale nu au fost suficient de reprezentative pentru grupul clienților dvs. - sau conțin date zgomotoase care au aruncat rezultatele modelului introducând semnale false - atunci mai sunt multe de făcut pentru a face modelul să funcționeze. Fie rezultatul este util în calea lui.