Cuprins:
- Sarcina: . Fiecare pas al planului depinde de data corectă. Mai bine asigurați-vă că aveți într-adevăr acele date!
- Acum că aveți date, pregătiți o descriere generală a ceea ce aveți.
- În această sarcină, examinați mai îndeaproape datele. Pentru fiecare variabilă, analizați gama de valori și distribuțiile acestora. Veți utiliza manipularea simplă a datelor și tehnicile statistice de bază pentru verificarea ulterioară a datelor. Explorarea datelor acceptă mai multe scopuri:
- Aveți datele și le-ați examinat, iar acum trebuie să stabiliți dacă este suficient de bun pentru a vă susține obiectivele. Veți avea adesea o problemă de calitate pentru a răspunde și totuși să puteți continua, dar uneori calitatea datelor este atât de slabă încât nu vă poate susține planul și va trebui să căutați alternative. Unele dintre cele mai grave probleme de date ar include
Video: Cum sa Vinzi pe Amazon - Etapa 2 2024
În cea de-a doua fază a procesului standard de procesare a datelor din industrie (CRISP-DM) că este potrivit pentru nevoile dvs. S-ar putea să identificați problemele care vă determină să reveniți la înțelegerea afacerii și să vă revizuiți planul. S-ar putea chiar să descoperiți defecte în înțelegerea afacerii dvs., un alt motiv pentru a regândi obiectivele și planurile.
Faza de înțelegere a datelor include patru sarcini . Acestea sunt
Colectarea datelor
Descrierea datelor
Explorarea datelor
Verificarea calității datelor
Sarcina:. Fiecare pas al planului depinde de data corectă. Mai bine asigurați-vă că aveți într-adevăr acele date!
Există doar o singură livrare pentru această sarcină: raportul inițial de colectare a datelor. În raportul dvs., trebuie să verificați dacă ați achiziționat datele sau cel puțin ați obținut acces la date, ați testat procesul de acces la date și ați verificat existența datelor. De asemenea, va trebui să încărcați datele în orice instrumente pe care le veți utiliza pentru extragerea datelor, pentru a verifica dacă instrumentele sunt compatibile cu datele.
Cerințe de date pentru contur:
-
Creați o listă a tipurilor de date necesare pentru a răspunde obiectivelor miniere de date. Extindeți lista cu detalii cum ar fi intervalul de timp necesar și formatele de date. Verificați disponibilitatea datelor:
-
Confirmați că există datele necesare și că le puteți utiliza. Dacă unele dintre datele pe care le doriți nu sunt disponibile, decideți cum veți aborda problema respectivă. Luați în considerare alternative, cum ar fi Înlocuirea cu o sursă alternativă de date
-
Reducerea scopului proiectului
-
Colectarea de date noi
-
Definirea criteriilor de selecție:
-
-
Identificarea surselor de date specifice (baze de date, documente, etc.) pe care le veți folosi. În cadrul acestor surse, specificați tabelele, câmpurile și intervalele de valori relevante pentru acest proiect. După ce ați trecut prin acești pași, trebuie să obțineți datele. În acest moment, importați datele în platforma de extragere a datelor pe care o veți utiliza pentru proiect pentru a confirma că este posibil să faceți acest lucru și că înțelegeți procesul. În cursul acestei încercări, este posibil să descoperiți limitări software (sau hardware) pe care nu le-ați anticipat, cum ar fi
Limitele numărului de cazuri sau câmpuri sau cantitatea de memorie pe care o puteți utiliza
-
Incapacitatea de a citi formate de date ale surselor dvs.
-
Dificultăți în tratarea imperfecțiunilor din date (de exemplu, este posibil să întâlniți produse care nu vor importa sau analiza seturi de date incomplete)
-
În cele din urmă, rezumați procesul de strângere într-un raport.Raportul trebuie să descrie cerințele dvs. și să explice în detaliu exact ce date ați colectat și din ce surse. Aici confirmați că ați obținut datele și că este compatibil cu platforma dvs. de extragere a datelor. Dacă ați întâmpinat dificultăți, veți explica ceea ce au fost și modul în care le-ați adresat (folosind surse alternative, revizuirea planurilor, schimbarea formatelor).
Livrarea pentru această sarcină este doar un raport simplu, dar munca pe care trebuie să o faceți înainte de a putea scrie acel raport nu va fi simplă! Accesul la date poate fi una dintre cele mai provocatoare și mai frustrante părți ale procesului de extragere a datelor, acoperind atât provocările tehnice, cât și cele de afaceri.
Activitate: Descrierea datelor
Acum că aveți date, pregătiți o descriere generală a ceea ce aveți.
Livrarea pentru această sarcină este raportul de descriere a datelor. În el, descrieți sursa și formatele datelor, numărul de cazuri, numărul și descrierile câmpurilor și orice alte informații generale care ar putea fi importante. De asemenea, faceți o scurtă evaluare a caracterului adecvat al datelor pentru obiectivele dvs. de extragere a datelor. De exemplu, verificați dacă datele conțin câmpurile pe care le așteptați și trebuie să fie acolo și suficiente cazuri pentru analiză.
Sarcina: Explorarea datelor
În această sarcină, examinați mai îndeaproape datele. Pentru fiecare variabilă, analizați gama de valori și distribuțiile acestora. Veți utiliza manipularea simplă a datelor și tehnicile statistice de bază pentru verificarea ulterioară a datelor. Explorarea datelor acceptă mai multe scopuri:
Familiarizați-vă cu datele.
-
Semnele spot ale problemelor legate de calitatea datelor.
-
Stabiliți etapa pentru etapele de pregătire a datelor.
-
Livrarea pentru această sarcină este raportul de explorare a datelor. Este locul pentru a documenta orice ipoteze sau constatări inițiale pe care le-ați dezvoltat în timpul explorării datelor. Acest raport ar trebui să includă o descriere mai detaliată a datelor decât raportul de descriere a datelor, inclusiv distribuțiile, rezumatele și orice semne de probleme de calitate a datelor.
Sarcina: Verificarea calității datelor
Aveți datele și le-ați examinat, iar acum trebuie să stabiliți dacă este suficient de bun pentru a vă susține obiectivele. Veți avea adesea o problemă de calitate pentru a răspunde și totuși să puteți continua, dar uneori calitatea datelor este atât de slabă încât nu vă poate susține planul și va trebui să căutați alternative. Unele dintre cele mai grave probleme de date ar include
Datele de care aveți nevoie nu există. (Nu a existat niciodată, sau a fost aruncat? Pot aceste date să fie colectate și salvate pentru utilizare ulterioară?)
-
Există, dar nu puteți să o aveți. (Poate fi depășită această restricție?)
-
Descoperiți probleme grave privind calitatea datelor (o mulțime de valori lipsă sau incorecte care nu pot fi corectate).
-
Livrarea pentru această sarcină este raportul de calitate a datelor. Acestea sintetizează datele pe care le aveți, problemele minore și cele majore de calitate pe care le-ați găsit și posibile remedii pentru problemele de calitate sau alternative (cum ar fi utilizarea unei resurse de date alternative).Dacă vă confruntați cu probleme grave de calitate a datelor și nu puteți identifica o soluție adecvată, este posibil să recomandați reconsiderarea obiectivelor sau a planurilor.