Cuprins:
Video: FaceApp îți fură datele! - Cavaleria.ro 2024
Când ești de data mining, uneori vei avea mai multe date decât ai nevoie pentru un anumit proiect. Iată cum puteți găsi exact ceea ce aveți nevoie.
Reducerea câmpurilor
Când aveți multe variabile într-un set de date, este dificil să găsiți sau să vedeți pe cele care vă interesează. Și dacă seturile dvs. de date sunt mari și nu aveți nevoie de toate variabilele, păstrarea extrasurilor scade resursele în mod inutil. Deci, uneori, trebuie să păstrați câteva variabile și să scăpați pe altele. Figura arată un exemplu în KNIME, unde instrumentul potrivit este denumit Filter Column.
Un exemplu de configurare pentru acest instrument este prezentat în figura următoare.
Pentru a restrânge câmpurile, căutați un instrument de selecție variabil în aplicația dvs. de extragere a datelor; acestea se găsesc împreună cu alte instrumente pentru manipularea datelor. Ca și în cazul altor instrumente de extragere a datelor, numele variază de la produs la produs. Căutați variații ale câmpului , variabilei, sau , și selecția sau filtrarea.
Selectarea cazurilor relevante
Cazurile cu date incomplete pot fi filtrate înainte de a construi modelul. Eliminarea cazurilor incomplete este un exemplu obișnuit de selecție a datelor sau filtrarea .
Dar cum ați selecta numai cazurile relevante pentru fiecare segment care vă interesează? Ați folosi un instrument de selecție a datelor.
Figura următoare prezintă un instrument de selecție a datelor într-o altă aplicație de extragere a datelor.
Următoarea figură arată cum ați configura instrumentul respectiv pentru un alt tip de selecție, aceasta pe baza valorii unei variabile.
Este obișnuită utilizarea acestui tip de date și unele aplicații oferă tot felul de funcții încorporate pentru a vă ajuta să definiți exact cazurile pe care le doriți. Aceasta are câteva caracteristici excepționale; afișează statistici sumare pentru variabila și vă spune exact câte cazuri îndeplinesc criteriile de selecție.
Cele mai multe aplicații de extragere a datelor au instrumente pentru selectarea cazurilor de care aveți nevoie. Consultați meniurile (sau căutați) pentru filtrul selectați sau .
Eșantionare
O noțiune populară în aceste zile este că mai multe date sunt date mai bune. Aceasta nu este o idee nouă. S-au dezvoltat întotdeauna aplicații de exploatare a datelor pentru a lucra cu cantități mari de date. Chiar și numele "data mining" sugerează cantități mari. Dar, de multe ori, lucrul cu un eșantion de date vă va oferi informații care sunt la fel de utile, vă vor face munca mai ușoară și veți economisi timp și resurse.
Eșantionarea joacă roluri importante în procesul de extragere a datelor. Dacă datele sunt echilibrate, înseamnă că modelul a utilizat un număr egal de cazuri în fiecare dintre grupurile comparate (în acest exemplu, grupurile au fost proprietăți care au schimbat mâinile și proprietățile care nu au făcut-o), chiar dacă un grup avea mai multe cazuri decât altele din datele inițiale.
Mai târziu, datele au fost împărțite, separate într-un subset pentru a fi utilizate pentru formarea unui model și altul pentru testare. Folosind doar un eșantion de date într-o parcelă de coordonate paralele poate fi mai ușor de vizualizat și interpretat. (Scatterplots cu mii de puncte pot fi imposibil de citit greu!) Poate cel mai important dintre toate, eșantionarea reduce doar cantitatea de date, deci lucrurile se desfășoară mai repede.