Acasă Finanțe personale Faza 3 a procesului CRISP-DM Model: Pregatirea datelor - manechine

Faza 3 a procesului CRISP-DM Model: Pregatirea datelor - manechine

Cuprins:

Video: Discursul lui Ceauşescu din 21 decembrie 1989 2024

Video: Discursul lui Ceauşescu din 21 decembrie 1989 2024
Anonim

Minerii de date își petrec cea mai mare parte a timpului în a treia fază a modelului procesului standard de procesare a datelor din industrie (CRISP-DM): pregătire de date. Cele mai multe date utilizate pentru extragerea datelor au fost inițial colectate și conservate pentru alte scopuri și au nevoie de o anumită rafinare înainte de a fi gata de utilizare pentru modelare.

Faza de pregătire a datelor include cinci sarcini . Acestea sunt

  • Selectarea datelor

  • Date de curățare

  • Construirea datelor

  • Integrarea datelor

  • Formatarea datelor

Ghidul pas cu pas CRISP-DM nu menționează în mod explicit seturile de date ca livrabile pentru fiecare sarcinile de pregătire a datelor, însă acele seturi de date au existat mult mai bine și ar fi arhivate și documentate corespunzător. Seturile de date nu se vor potrivi una cu una cu sarcini, dar informațiile despre datele utilizate ar trebui incluse în fiecare raport livrat.

Sarcina: Selectarea datelor

Acum vei decide care parte din datele pe care le ai este de fapt folosita pentru data mining.

Produsul pentru această sarcină este rațiunea pentru includere și excludere. În acesta, veți explica ce date vor fi utilizate și nu vor fi utilizate pentru activități suplimentare de extragere de date.

Veți explica motivele pentru includerea sau excluderea fiecărei părți a datelor pe care o aveți, pe baza relevanței pentru obiectivele, calitatea datelor și probleme tehnice - cum ar fi limitele numărului de câmpuri sau rânduri pe care instrumentele dvs. le pot utiliza mânerul sau adecvarea formatelor de date pentru nevoile dvs.

Sarcina: Datele de curățare

Este puțin probabil ca datele pe care le-ați ales să le utilizați să fie curate (fără erori). Veți efectua modificări, probabil urmărirea surselor pentru a efectua corecții specifice de date, cu excepția unor cazuri sau a unor celule individuale (elemente de date) sau înlocuirea unor elemente de date cu valori implicite sau înlocuiri selectate printr-o tehnică de modelare mai sofisticată. Puteți alege să utilizați numai subseturi de date pentru toate sau unele dintre lucrările dvs. de extragere a datelor.

Livrarea pentru această sarcină este raportul de curățare a datelor, care documentează, în detalii exacte, toate deciziile și acțiunile utilizate pentru curățarea datelor. Acest raport trebuie să cuprindă și să se refere la fiecare problemă de calitate a datelor identificată în sarcina de verificare a calității datelor în faza de înțelegere a datelor a procesului. De asemenea, raportul trebuie să abordeze impactul potențial asupra rezultatelor alegerilor pe care le-ați făcut în timpul curățării datelor.

Sarcina: Construirea datelor

Este posibil să fie necesar să se obțină câmpuri noi (de exemplu, utilizați data de livrare și data la care un client a plasat o comandă pentru a calcula cât timp clientul a așteptat să primească o comandă), sau să creați altfel o nouă formă de date.

Produsele pentru această sarcină includ două rapoarte:

  • Atribute derivate: Un raport care descrie ce câmpuri noi (coloane) ați construit, cum ați făcut-o și de ce.

  • Înregistrări generate: Un raport care descrie ce cazuri noi (rânduri) ați construit, cum ați făcut-o și de ce.

Deși datele de îmbinare și sarcinile de formatare ale datelor sunt enumerate ultima dată în această fază a procesului, ele nu vin întotdeauna ultima și este posibil ca acestea să nu vină doar o singură dată. S-ar putea să trebuiască să faceți o fuzionare sau reformatare la începutul fazei de pregătire a datelor.

Activitate: Integrarea datelor

Datele dvs. pot fi acum în mai multe seturi de date diferite. Va trebui să îmbinați unele sau toate aceste seturi de date disparate împreună pentru a vă pregăti pentru faza de modelare.

Livrarea pentru această sarcină este datele îmbinate. (Și nu ar face rău pentru a documenta cum a fost efectuată îmbinarea.)

Sarcina: Formatarea datelor

Datele adesea vin în alte formate decât cele care sunt cele mai convenabile pentru modelare. (Modificările formatelor sunt, de obicei, determinate de proiectarea instrumentelor dvs.) Deci, convertiți aceste formate acum.

Produsul pentru această sarcină este datele dvs. reformatate. (Și un mic raport care descrie modificările pe care le-ați făcut ar fi un lucru inteligent de inclus.)

Ar trebui să încheiați etapa de pregătire a datelor procesului de extragere a datelor cu un set de date pregătit pentru modelare și un raport detaliat care descrie setul de date.

Faza 3 a procesului CRISP-DM Model: Pregatirea datelor - manechine

Alegerea editorilor

Administrator de rețea: Zone de căutare inversă - dummies

Administrator de rețea: Zone de căutare inversă - dummies

Interogări DNS obișnuite sunt interogări de căutare înainte corespunde unui nume de domeniu complet calificat. O căutare inversă este opusul unei căutări forward: returnează numele de domeniu complet calificat al unei gazde pe baza adresei sale IP. Căutările inverse sunt posibile din cauza unui domeniu special numit ...

Rețea Elemente de bază: Clienți și servere - manechine

Rețea Elemente de bază: Clienți și servere - manechine

Computerul de rețea care conține hard disk-urile, imprimantele și alte resurse care sunt partajate cu alte calculatoare de rețea se numește un server. Acest termen vine în repetate rânduri, deci trebuie să-l amintiți. Scrie-o pe spatele mâinii tale stângi. Orice computer care nu este un server este numit client. Aveți ...

Retea Bazele: Poduri - dummies

Retea Bazele: Poduri - dummies

O punte este un dispozitiv care conecteaza doua retele astfel incat sa actioneze ca si cum ar fi o rețea. Podurile sunt utilizate pentru a împărți o rețea mare în două rețele mai mici din motive de performanță. Vă puteți gândi la un pod ca pe un repetor inteligent. Repetoarele ascultă semnale care coboară pe un cablu de rețea, amplifică ...

Alegerea editorilor

ÎMprumuta și tweak idei de la alte comunități online - dummies

ÎMprumuta și tweak idei de la alte comunități online - dummies

, Mai degrabă decât să ia ideile altcuiva complet pentru dvs. comunitate online, încercați să riffați pe aceeași idee, dar nu atât de mult încât este evident că nu sunteți creierul din spatele brainstorming-ului. Idei sunt acolo pentru a lua, dar nu ar fi mai degrabă văzute ca cineva inovatoare, nu cineva care scours pe web ...

Branding Blogul tău

Branding Blogul tău

Branding blog-ul tău merge mult spre a face dacă este ușor de recunoscut pentru cititorii tăi. Când vedeți un punct roșu în interiorul unui cerc roșu, ce magazin vine în minte? Ce zici de acele arcuri de aur? Un nume de marcă apare în minte atunci când vedeți simbolul swoosh? La fel ca magazinele populare, restaurantele și încălțămintea ...

Construiți un Blog Mama care este Sellable - dummies

Construiți un Blog Mama care este Sellable - dummies

Dacă obiectivul pe termen lung este de a vinde blogul dvs. ar trebui să o construiască cu acest scop în minte. Evitați asocierea prea intensă a blogului cu marca dvs. personală. Un blog care poate fi valoros cu orice scriitor la cârma trebuie să îndeplinească majoritatea, dacă nu toate, următoarele criterii: Blogul este concentrat ...

Alegerea editorilor

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

Cum să creați o nouă campanie de anunțuri LinkedIn - dummies

LinkedIn oferă servicii de publicitate pentru afacerea dvs. Dacă vă decideți să utilizați LinkedIn ca instrument de marketing, va trebui doar să obțineți o nouă campanie de anunțuri în lucrări. Când sunteți gata să începeți o nouă campanie, urmați acești pași:

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Opțiuni de filtrare pentru anunțul dvs. LinkedIn - manechine

Ce opțiuni de filtrare aveți pentru anunțul dvs. LinkedIn? Alte rețele de publicitate vă permit să filtrați publicul vizat de câteva atribute cunoscute ale persoanei care vă va vedea anunțul, sexul și locația membrilor din public. LinkedIn vă permite să faceți un pas mai departe permițându-vă ...

Oferind și primind viziuni pe LinkedIn - manechine

Oferind și primind viziuni pe LinkedIn - manechine

Deși mulți oameni cred că "Nu este ceea ce știi, știi, "care este unul dintre principalele motive pentru care LinkedIn este atât de valoros, mulți oameni (recrutorii, angajații, directorii executivi, investitorii și altele) sunt foarte interesați de ceea ce știi. În mod logic, oamenii care vă cunosc cel mai bine sunt oamenii din rețeaua dvs., care ...