Cuprins:
- Sarcina: Selectarea datelor
- Sarcina: Datele de curățare
- Sarcina: Construirea datelor
- Activitate: Integrarea datelor
- Sarcina: Formatarea datelor
Video: Discursul lui Ceauşescu din 21 decembrie 1989 2024
Minerii de date își petrec cea mai mare parte a timpului în a treia fază a modelului procesului standard de procesare a datelor din industrie (CRISP-DM): pregătire de date. Cele mai multe date utilizate pentru extragerea datelor au fost inițial colectate și conservate pentru alte scopuri și au nevoie de o anumită rafinare înainte de a fi gata de utilizare pentru modelare.
Faza de pregătire a datelor include cinci sarcini . Acestea sunt
-
Selectarea datelor
-
Date de curățare
-
Construirea datelor
-
Integrarea datelor
-
Formatarea datelor
Ghidul pas cu pas CRISP-DM nu menționează în mod explicit seturile de date ca livrabile pentru fiecare sarcinile de pregătire a datelor, însă acele seturi de date au existat mult mai bine și ar fi arhivate și documentate corespunzător. Seturile de date nu se vor potrivi una cu una cu sarcini, dar informațiile despre datele utilizate ar trebui incluse în fiecare raport livrat.
Sarcina: Selectarea datelor
Acum vei decide care parte din datele pe care le ai este de fapt folosita pentru data mining.
Produsul pentru această sarcină este rațiunea pentru includere și excludere. În acesta, veți explica ce date vor fi utilizate și nu vor fi utilizate pentru activități suplimentare de extragere de date.
Veți explica motivele pentru includerea sau excluderea fiecărei părți a datelor pe care o aveți, pe baza relevanței pentru obiectivele, calitatea datelor și probleme tehnice - cum ar fi limitele numărului de câmpuri sau rânduri pe care instrumentele dvs. le pot utiliza mânerul sau adecvarea formatelor de date pentru nevoile dvs.
Sarcina: Datele de curățare
Este puțin probabil ca datele pe care le-ați ales să le utilizați să fie curate (fără erori). Veți efectua modificări, probabil urmărirea surselor pentru a efectua corecții specifice de date, cu excepția unor cazuri sau a unor celule individuale (elemente de date) sau înlocuirea unor elemente de date cu valori implicite sau înlocuiri selectate printr-o tehnică de modelare mai sofisticată. Puteți alege să utilizați numai subseturi de date pentru toate sau unele dintre lucrările dvs. de extragere a datelor.
Livrarea pentru această sarcină este raportul de curățare a datelor, care documentează, în detalii exacte, toate deciziile și acțiunile utilizate pentru curățarea datelor. Acest raport trebuie să cuprindă și să se refere la fiecare problemă de calitate a datelor identificată în sarcina de verificare a calității datelor în faza de înțelegere a datelor a procesului. De asemenea, raportul trebuie să abordeze impactul potențial asupra rezultatelor alegerilor pe care le-ați făcut în timpul curățării datelor.
Sarcina: Construirea datelor
Este posibil să fie necesar să se obțină câmpuri noi (de exemplu, utilizați data de livrare și data la care un client a plasat o comandă pentru a calcula cât timp clientul a așteptat să primească o comandă), sau să creați altfel o nouă formă de date.
Produsele pentru această sarcină includ două rapoarte:
-
Atribute derivate: Un raport care descrie ce câmpuri noi (coloane) ați construit, cum ați făcut-o și de ce.
-
Înregistrări generate: Un raport care descrie ce cazuri noi (rânduri) ați construit, cum ați făcut-o și de ce.
Deși datele de îmbinare și sarcinile de formatare ale datelor sunt enumerate ultima dată în această fază a procesului, ele nu vin întotdeauna ultima și este posibil ca acestea să nu vină doar o singură dată. S-ar putea să trebuiască să faceți o fuzionare sau reformatare la începutul fazei de pregătire a datelor.
Activitate: Integrarea datelor
Datele dvs. pot fi acum în mai multe seturi de date diferite. Va trebui să îmbinați unele sau toate aceste seturi de date disparate împreună pentru a vă pregăti pentru faza de modelare.
Livrarea pentru această sarcină este datele îmbinate. (Și nu ar face rău pentru a documenta cum a fost efectuată îmbinarea.)
Sarcina: Formatarea datelor
Datele adesea vin în alte formate decât cele care sunt cele mai convenabile pentru modelare. (Modificările formatelor sunt, de obicei, determinate de proiectarea instrumentelor dvs.) Deci, convertiți aceste formate acum.
Produsul pentru această sarcină este datele dvs. reformatate. (Și un mic raport care descrie modificările pe care le-ați făcut ar fi un lucru inteligent de inclus.)
Ar trebui să încheiați etapa de pregătire a datelor procesului de extragere a datelor cu un set de date pregătit pentru modelare și un raport detaliat care descrie setul de date.