Video: The Nimitz Encounters 2024
Atunci când proiectați un depozit de date și determinați ce date externe aveți nevoie, plasați o comandă (similar cu a comanda haine sau un coș de fructe de pe un site online). După ce începeți să primiți date printr-un flux, transfer de fișiere sau prin alte mijloace, este o navigație netedă - sau este?
Care este calitatea datelor primite? Trebuie să aplicați în mod absolut aceleași seturi de proceduri de asigurare a calității (QA) la datele furnizate extern cu privire la datele provenite din propriile sisteme interne. Doar pentru că achiziționați informațiile de pe piața deschisă nu garantează că datele sunt impecabile.
Aplicați procedurile QA la fiecare lot de date care urmează, urmând acești pași:
-
Aflați dacă datele primite au valori de verificare atașate fișierelor.
Câteva exemple de valori de verificare sunt numărul de înregistrări din fiecare fișier, valoarea totală a fiecărei coloane numerice (totalul vânzărilor de dolari pentru toate înregistrările și unitățile totale vândute pentru toate înregistrările, de exemplu) și subseturile valorilor totale ale coloanelor (cantități totale de vânzări și unități pe stat, de exemplu).
Dacă sunt furnizate valori de control, acestea trebuie să fie stocate și utilizate ca parte a procedurilor de încărcare de la capăt la capăt. Nimeni nu trebuie să actualizeze oficial conținutul depozitului până când totalul verificărilor este de acord cu calculele pe care le-ați făcut atunci când ați pregătit datele pentru încărcare.
-
Dacă nu sunt furnizate valori de verificare, solicitați-le.
Deși cererea ar putea dura câteva cicluri (de exemplu, câteva săptămâni sau luni, de exemplu), orice furnizor de date interesat de furnizarea unui nivel ridicat de servicii pentru clienți ia acest tip de solicitare în serios și se străduiește să facă informațiile de control solicitate disponibil.
-
În timpul procedurilor de încărcare, filtrați fiecare rând.
Asigurați-vă că sunt adevărate următoarele condiții:
-
Taste (identificatori unici pentru fiecare înregistrare) sunt corecte pentru toate informațiile. De exemplu, dacă fiecare înregistrare din grupul de date SalesMasterRecord trebuie să aibă exact 12 înregistrări înrudite în SalesDetailRecord (câte unul pentru fiecare lună), asigurați-vă că toate înregistrările detaliate sunt prezente prin compararea valorilor cheie-record.
-
Valorile valorilor sunt corecte. Vânzările de produse pe lună, de exemplu, trebuie să se încadreze în limite rezonabile pentru acest tip de produs (de exemplu, avioanele sunt diferite de șuruburi).
-
Domeniile de informații care lipsesc (o probabilitate - aproape inevitabilă - apariție cu date furnizate extern) nu denaturează semnificația datelor primite.
De exemplu, dacă lipsa unor piese suplimentare de date (definite în conformitate cu regulile de afaceri pentru industria sau organizația dvs. specifică) ar putea să nu fie o problemă prea gravă, dacă jumătate din înregistrările primite au un spațiu gol unde UnitsSold, TotalSalesPrice, sau alt tip de informație critică ar trebui să fie, valoarea datelor este îndoielnică în cel mai bun caz.
-
Mai ales în primele etape ale achiziționării datelor externe (în primele trei sau patru luni, de exemplu), utilizați instrumentele dvs. analitice, așa cum sunt descrise în Capitolul 10, pentru a efectua analiza calității datelor înainte ca utilizatorii dvs. să utilizeze aceleași instrumente pentru a efectua afaceri analiză.
Căutați ciudățenii, anomalii, rezultate nedumerite, inconsecvențe, paradoxuri aparente și orice altceva care pare ciudat. Apoi, treceți la rădăcinile datelor pentru a verifica sursa ciudățeniei.
Amintiți-vă că probabil că aveți de-a face cu multe milioane de rânduri de date primite: Pe lângă faptul că nu puteți verifica personal fiecare rând, este posibil să aveți dificultăți în stabilirea criteriilor de filtrare și de verificare a calității pentru toate condițiile posibile.
Oricine a făcut vreodată ceva cu date sursă furnizate din exterior a întâmpinat tot felul de inconsecvențe ciudate și lipsă de date în informațiile primite. Dacă vă puneți în locul utilizatorilor și folosiți aceleași instrumente pe care le folosesc, puteți descoperi probabil un lucru sau două pe care le puteți corecta, făcând depozitul de date un depozit mult mai bun de informații de afaceri valoroase.
-