Cuprins:
- Asigurarea calității datelor: partea I
- După finalizarea proceselor de transformare, datele trebuie să fie QA'd - din nou. Nu știți niciodată ce tip de erori sau discrepanțe ar putea fi introduse în date în procesul de transformare. După ce au avut loc schimbări, procesele anterioare de asigurare a calității nu mai sunt valabile.
Video: Configurarea programului SmartCash ECR 2024
Trebuie să stabiliți două servicii diferite de asigurare a calității (QA) în fluxul serviciilor middleware. Trebuie să efectuați primele activități QA împotriva extrasului din sursa de date înainte de a efectua mai multe servicii de middleware.
Asigurarea calității datelor: partea I
Încercați să prindeți (și corectați) erorile și problemele cât mai devreme posibil. Mutarea datelor în conductă către depozitul de date este inutilă dacă problemele sunt atât de importante încât fie necesită un efort semnificativ mai mare pentru a fi corectate mai târziu în cadrul procesului, fie pur și simplu nu pot fi corectate.
Deci, ce tipuri de probleme ar trebui să cauți? Iată câteva:
-
Valori în elemente de date care depășesc un interval rezonabil: Un client a trimis 150 milioane de comenzi de achiziție în ultima lună, de exemplu, sau un angajat a lucrat cu compania timp de 4, 297 de ani, în funcție de baza de date a angajaților și de data de angajare stocată.
-
Valorile din elementele de date care nu se încadrează în lista oficială și completă a valorilor admise: O valoare poate avea un cod A, de exemplu când singurele valori admise pentru acest câmp sunt M și F. (Dacă acel câmp a fost etichetat Sex, A ar putea să stea pentru androginii!)
-
Inconsistențe în tabelă: Pentru intrările din tabela CUSTOMER_ORDER, în CUSTOMER_MASTER_TABLE nu există intrări corespunzătoare (identificate de CUSTOMER_ID).
-
Inconsecvențe de câmp: Înregistrările care au o stare incorectă sau un cod poștal incorect pentru orașul indicat.
-
Valorile lipsă: Înregistrările care au valori lipsă în anumite câmpuri în care ar trebui să aibă conținut.
-
De exemplu, un tabel sursă ar trebui să conțină un rând de date care să includă unitățile totale vândute și vânzările de dolari pentru fiecare lună în ultimii doi ani. Pentru un număr mare de clienți, totuși, nu există rânduri pentru cel puțin una dintre aceste luni. Date incomplete:
-
Dacă informațiile despre fiecare produs pe care compania îl vinde ar trebui să fie disponibil, de exemplu, toate produsele sunt incluse în extras? Încălcarea regulilor de afaceri:
-
Dacă o regulă de afirmare afirmă că numai un comerciant cu ridicata poate vinde produse pentru oricare dintre clienții companiei, trebuie să verificați dacă înregistrările clienților indică vânzări efectuate prin intermediul mai multor distribuitori angro, ar putea indica date incorecte în sursă. Corupția datelor de la ultimul extras:
-
Dacă extracția are loc lunar, de exemplu, ar trebui să urmăriți valorile datelor sau sumele care ar trebui să fie constante, cum ar fi VÂNZĂRI PE CLIENT PE UN LUNĂ.Dacă într-o lună ulterioară valoarea VÂNZĂRILOR PE UN CLIENT pe lună se schimbă pentru un anumit client pentru o lună anterioară, este posibil ca datele subiacente să fi fost corupte. Inconsecvențe de ortografie:
-
Numele unui client este scris, de exemplu, în câteva moduri diferite. Ce faci când găsești probleme? Puteți încerca una dintre următoarele tehnici:
Aplicați o regulă de corecție automată.
-
Când găsiți o ortografie neconcordantă, de exemplu, căutați într-un tabel master al corecțiilor de ortografie anterioare și faceți automat modificarea datelor. Anulați înregistrarea pentru un membru al echipei pentru a analiza și corecta mai târziu.
-
În acest caz, ați putea face partea umană a AQ împreună cu corecția automată. De exemplu, corecțiile automate sunt făcute, dacă este posibil, și un raport despre alte probleme este pus într-un fișier separat și trimis către persoana QA. Atunci când persoana QA efectuează toate corecțiile manuale, îmbinați corecțiile înapoi în datele care au trecut prin procesul automat de asigurare a calității.
Răciți jeturile.
-
Dacă descoperiți suficiente probleme care sunt grave sau necesită o cercetare nedeterminată, vă recomandăm să opriți întregul proces până când găsiți și remediați problema. Puteți face procesul de asigurare a calității mult mai eficient și mult mai puțin problematic dacă efectuați o analiză aprofundată a sistemelor sursă. Dacă aveți o idee destul de bună despre tipurile de probleme de date pe care le puteți găsi în fiecare sursă de date, puteți să vă reprogramați procesul de asigurare a calității pentru a detecta și, sperăm, să remediați aceste probleme înainte de a continua.
Din punct de vedere istoric, organizațiile au tratat procesul de procesare a depozitului de date ca un flux unidirecțional. Problemele sunt corectate înainte ca datele să fie transferate mai departe în fluxul proceselor middleware, dar nu sunt niciodată corectate în sursele de date. Majoritatea depozitelor de date noi au o buclă de feedback construită din procesul de asigurare a calității care corectează problemele de calitate a datelor din datele sursă.
Asigurarea calității datelor: partea II
După finalizarea proceselor de transformare, datele trebuie să fie QA'd - din nou. Nu știți niciodată ce tip de erori sau discrepanțe ar putea fi introduse în date în procesul de transformare. După ce au avut loc schimbări, procesele anterioare de asigurare a calității nu mai sunt valabile.
Rulați datele consolidate, transformate prin același tip de pași de QA discutate aici. Deși, probabil, nu găsiți la fel de multe erori rudimentare (cum ar fi greșeli de scriere sau valori care sunt în afara scalei), dacă ați făcut o treabă amănunțită pentru QA de nivel înalt, totuși doriți să vă asigurați. Mai mult, asigurați-vă că codul sau scripturile utilizate pentru transformarea datelor nu au cauzat accidental noi erori.
Scopul acestui QA de nivel 2 este de a vă asigura că datele dvs. consolidate și transformate sunt gata să se încarce în depozit de date - imediat ce se produce un alt pas, dacă este necesar.