Video: [4K] PAROLE unice si puternice in cativa pasi simpli! Nimeni n-o sa iti sparga conturile 2024
Interacțiunea cu datele dintr-o singură sursă este o problemă; interacționarea cu datele din mai multe surse este altceva. Cu toate acestea, seturile de date de astăzi provin în general din mai multe surse, deci trebuie să înțelegeți complicațiile pe care le pot cauza utilizarea mai multor surse de date. Când lucrați cu mai multe surse de date, trebuie să faceți următoarele:
- Determinați dacă ambele seturi de date conțin toate datele necesare. Este puțin probabil ca doi designeri să creeze seturi de date care conțin exact aceleași date, în același format, de același tip și în aceeași ordine. În consecință, trebuie să luați în considerare dacă seturile de date furnizează datele de care aveți nevoie sau dacă aveți nevoie să remediați datele într-un fel pentru a obține rezultatul dorit.
- Verificați ambele seturi de date pentru problemele legate de tipul de date. Un set de date ar putea avea date introduse ca siruri de caractere, iar altul ar putea avea datele introduse ca obiecte date actuale. Neconcordanțele dintre tipurile de date vor cauza probleme pentru un algoritm care așteaptă datele într-o formă și le primește într-un altul.
- Asigurați-vă că toate seturile de date au același înțeles asupra elementelor de date. Datele create de o singură sursă ar putea avea un înțeles diferit de datele create de o altă sursă. De exemplu, mărimea unui întreg poate varia în funcție de surse, deci este posibil să vedeți un număr întreg de 16 biți dintr-o singură sursă și un întreg de 32 de biți dintr-o altă sursă. Valorile inferioare au același înțeles, dar întregul pe 32 de biți poate conține valori mai mari, ceea ce poate cauza probleme cu algoritmul. De asemenea, datele pot provoca probleme deoarece se bazează de multe ori pe stocarea a multe milisecunde de la o anumită dată (cum ar fi JavaScript, care stochează numărul de milisecunde din 01 ianuarie, 1970 UTC). Calculatorul vede numai numere; oamenii adaugă semnificație acestor numere, astfel încât aplicațiile să le interpreteze în moduri specifice.
- Verificați atributele de date. Elementele de date au atribute specifice. Această interpretare se poate modifica atunci când se utilizează
numpy
. De fapt, descoperi că atributele de date se schimbă între medii, iar dezvoltatorii le pot schimba și mai mult prin crearea unor tipuri personalizate de date. Pentru a combina datele din diferite surse, trebuie să înțelegeți aceste atribute pentru a vă asigura că interpretați corect datele.
Cu cât mai mult timp petreceți verificarea compatibilității datelor din fiecare sursă pe care doriți să o utilizați pentru un set de date, cu atât mai puțin probabil veți întâlni probleme când lucrați cu un algoritm. Problemele de incompatibilitate a datelor nu apar întotdeauna ca erori directe. În unele cazuri, o incompatibilitate poate provoca alte probleme, cum ar fi rezultatele eronate care arată corect, dar oferă informații înșelătoare.
Combinarea datelor din mai multe surse nu înseamnă întotdeauna crearea unui nou set de date care să arate exact ca seturile de date sursă. În unele cazuri, creați agregate de date sau efectuați alte forme de manipulare pentru a crea date noi din datele existente. Analiza ia tot felul de forme, iar unele dintre formele mai exotice pot produce erori teribile atunci când sunt folosite incorect. De exemplu, o sursă de date ar putea furniza informații generale despre clienți, iar oa doua sursă de date ar putea oferi obiceiuri de cumpărare a clienților. Neconcordanțele dintre cele două surse ar putea să se potrivească cu clienții cu informații incorecte privind cumpărăturile și să provoace probleme atunci când încercați să comercializați produse noi acestor clienți. Ca un exemplu extrem, ia în considerare ce s-ar întâmpla atunci când combinați informațiile despre pacienți din mai multe surse și creați intrări combinate ale pacienților într-o nouă sursă de date cu tot felul de neconcordanțe. Un pacient fără antecedente de o anumită boală ar putea ajunge la evidențe care să indice diagnosticarea și îngrijirea bolii.