Cum să pregătești datele într-o clasificare R Modelul predictiv Analytics - dummies

Video: Section 5 2024

Pentru a executa o analiză predictivă, trebuie să obțineți datele într-o formă pe care algoritmul o poate utiliza pentru a construi un model. Pentru a face acest lucru, trebuie să faceți ceva timp pentru a înțelege datele și pentru a cunoaște structura acestora. Introduceți funcția pentru a afla structura datelor. Iată cum arată: datele >> str (semințe). cadru ": 210 obs. din 8 variabile: $ V1: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ V2: num 14. 8 14. 6 14. 1 13. 9 15 … $ V3: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ V4: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ V5: num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ V6: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ V7: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ V8: int 1 1 1 1 1 1 1 1 1 1 …

Din perspectiva structurii, puteți spune că datele necesită un pas de pre-procesare și un pas comod:

Redenumiți numele coloanelor.

Acest lucru nu este absolut necesar, dar pentru scopurile acestui exemplu, este mai convenabil să folosiți nume de coloane pe care le puteți înțelege și le puteți aminti. Schimbați atributul cu valori categorice la un factor.
Eticheta conține trei categorii posibile. Pentru a redenumi coloanele, introduceți codul următor:

coloane (semințe) <-

c ("zonă", "perimetru", "compact" asimetrie "," length2 "," seedType ")

Apoi, modificați atributul care are valori categorice la un factor. Următorul cod modifică tipul de date la un factor:

semințe $ seedType <- factor (semințe $ seedType)

Această comandă termină pregătirea datelor pentru procesul de modelare. Următoarele reprezintă o vedere a structurii după procesul de pregătire a datelor: >> str (buruieni) ". cadru ": 210 obs. din 8 variabile: $ area: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ perimetru: num 14. 8 14. 6 14. 1 13. 9 15 … $ compact: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ lungime: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ lățime: num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ asimetrie: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ lungime2: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ seedType: Factor w / 3 levels "1", "2", "3": 1 1 1 1 1 1 1 1 1 1 …