Cuprins:
- Sarcina: Selectarea tehnicilor de modelare
- Sarcina: Proiectarea testelor
- Sarcina: Modelul (modelele) de construcție
- Sarcina: Evaluarea modelului (modelelor)
Video: Śmierć w doświadczeniu jednostki i społeczeństwa.Ostroska .R.4.OSTATNIA FAZA ŻYCIA-PROCES UMIERANIA. 2024
Modelarea face parte din procesul procesului standard de procesare a datelor din industrie (CRISP-DM) minerii ca cel mai bun. Datele dvs. sunt deja în formă bună și acum puteți căuta modele utile în datele dvs.
Faza de modelare include patru sarcini. Acestea sunt
-
Selectarea tehnicilor de modelare
-
Proiectarea testării
-
Modelul clădirii
-
Evaluarea modelelor
Sarcina: Selectarea tehnicilor de modelare
Lumea minunată a minelor de date oferă oudele tehnicilor de modelare, dar nu toate se vor potrivi nevoilor dvs. Reduceți lista pe baza tipurilor de variabile implicate, a selecției tehnicilor disponibile în instrumentele dvs. și a oricăror considerente de afaceri importante pentru dvs.
De exemplu, multe organizații favorizează metode cu o ieșire ușor de interpretat, deci arborii de decizie sau regresia logistică ar putea fi acceptabili, dar rețelele neuronale probabil că nu vor fi acceptate.
Produsele pentru această sarcină includ două rapoarte:
-
Tehnica de modelare: Specificați tehnica (tehnicile) pe care o veți folosi.
-
Ipoteze de modelare: Multe tehnici de modelare se bazează pe anumite ipoteze. De exemplu, un tip de model poate fi destinat utilizării cu date care au un anumit tip de distribuție. Documentați aceste ipoteze în acest raport.
Statisticienii sunt bine informați, stricți și agitați despre ipoteze. Acest lucru nu este neapărat adevărat pentru minerii de date și nu este o cerință de a deveni un miner de date. Dacă aveți cunoștințe statistice profunde și înțelegeți ipotezele din spatele modelelor pe care le selectați, puteți fi stricte și agitate în legătură cu ipotezele.
Dar mulți mineri de date, în special minerii de date novice, nu se amestecă mult peste ipoteze. Alternativa este testarea - multe și multe teste - a modelelor tale.
Sarcina: Proiectarea testelor
Testul din această sarcină este testul pe care îl veți utiliza pentru a determina cât de bine funcționează modelul dvs. Poate fi la fel de simplu ca și împărțirea datelor într-un grup de cazuri pentru formarea de modele și un alt grup pentru testarea modelului.
Datele de antrenament sunt folosite pentru a potrivi formularele matematice cu modelul de date, iar datele de testare sunt folosite în timpul procesului de formare a modelului pentru a evita suprasolicitarea : făcând un model perfect pentru un set de date, dar nu și altul. De asemenea, puteți utiliza datele holdout, care nu sunt utilizate în timpul procesului de formare a modelului, pentru un test suplimentar.
Livrarea pentru această sarcină este design-ul testelor. Nu este nevoie să fie elaborată, dar ar trebui cel puțin să aveți grijă ca datele dvs. de antrenament și de testare să fie similare și să evitați introducerea oricărei părtinitoare în date.
Sarcina: Modelul (modelele) de construcție
Modelarea este ceea ce mulți oameni își imaginează a fi întreaga slujbă a minerului de date, dar este doar o sarcină de zeci! Cu toate acestea, modelarea pentru a atinge obiectivele de afaceri specifice este inima profesiei de date miniere.
Produsele pentru această sarcină includ trei elemente:
-
Setările parametrilor: Atunci când construiți modele, majoritatea instrumentelor vă oferă posibilitatea de a regla o varietate de setări și aceste setări au un impact asupra structurii modelului final. Documentați aceste setări într-un raport.
-
Descrieri de model: Descrieți modelele. Specificați tipul de model (cum ar fi regresia liniară sau rețeaua neuronală) și variabilele utilizate. Explicați modul în care este interpretat modelul. Documentați dificultățile întâmpinate în procesul de modelare.
-
Modele: Acest produs este singurul model. Unele tipuri de modele pot fi ușor de definit printr-o simplă ecuație; altele sunt prea complexe și trebuie transmise într-un format mai sofisticat.
Sarcina: Evaluarea modelului (modelelor)
Acum veți examina modelele pe care le-ați creat, din punct de vedere tehnic și din punct de vedere al afacerii (adesea cu ajutorul experților de afaceri din echipa de proiect).
Produsele pentru această sarcină includ două rapoarte:
-
Evaluarea modelului: Sumarizează informațiile dezvoltate în revizuirea modelului. Dacă ați creat mai multe modele, le puteți clasifica pe baza evaluării valorii lor pentru o anumită aplicație.
-
Setări revizuite ale parametrilor: Puteți alege să ajustați setările care au fost utilizate pentru a construi modelul și pentru a efectua o nouă rundă de modelare și pentru a încerca să vă îmbunătățiți rezultatele.
Exploatarea datelor, ca o ceapă, un torță Dobos sau o rocă sedimentară, are multe straturi. Când începeți să vă aflați în mintea datelor, puteți începe prin a lăsa setările parametrilor la valorile lor implicite (de fapt, este posibil să nu observați opțiuni decât dacă încercați să le căutați).
Pe măsură ce vă simțiți confortabil în noua carieră de date miniere, veți avea sens să aflați despre parametrii modelului și să știți cum puteți să îi folosiți. Opțiunile dvs. vor varia foarte mult în funcție de tipul de model și de instrumentul specific pe care îl utilizați.