Acasă Finanțe personale Cum să pregătești datele în regresia R pentru predictive Analytics - dummy

Cum să pregătești datele în regresia R pentru predictive Analytics - dummy

Video: Sink the Bismarck | 1960 - FREE MOVIE! - Best Quality - War/Drama/Action: With Subtitles 2024

Video: Sink the Bismarck | 1960 - FREE MOVIE! - Best Quality - War/Drama/Action: With Subtitles 2024
Anonim

Trebuie să obțineți datele într-o formă pe care algoritmul o poate utiliza pentru a construi un model analitic predictiv. Pentru a face acest lucru, trebuie să faceți ceva timp pentru a înțelege datele și pentru a cunoaște structura datelor. Introduceți funcția pentru a afla structura datelor. Comanda și ieșirea ei arată astfel: >> str (autos) 'date. cadru ": 398 obs. din 9 variabile: $ V1: num 18 15 18 16 17 15 14 14 14 15 … $ V2: int 8 8 8 8 8 8 8 8 8 8 … $ V3: num 307 350 318 304 302 429 454 440 455 390 … $ V4: chr "130. 0" "165. 0" "150. 0" "150. 0" … $ V5: num 3504 3693 3436 3433 3449 … $ V6: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ V7: int 70 70 70 70 70 70 70 70 70 70 … $ V8: int 1 1 1 1 1 1 1 1 1 1 … $ V9: Factor w / 305 niveluri "amc ambassador brougham", …:

50 37 232 15 162 142 55 224 242 2 … 

Din perspectiva structurii, puteți spune că există unele pregătiri și curățare a datelor. Iată o listă a sarcinilor necesare:

Redenumiți numele coloanelor.
  • Acest lucru nu este absolut necesar, dar pentru scopurile acestui exemplu, este mai bine să folosiți numele coloanelor pe care le puteți înțelege și reține.

    Modificați tipul de date V4 (

  • cai putere ) la un tip de date numeric . În acest exemplu, cai putere este o valoare numerică continuă și nu un tip de date caracter.

    Manipulați valorile lipsă.

  • Aici puterea are șase valori lipsă.

    Schimbați atributele care au valori discrete la factori.

  • Aici buteliile, anul modelului și originea au valori discrete.

    Înlăturați atributul V9 (

  • numele carului ). Aici numele autovehiculului nu adaugă valoare modelului pe care îl creați. În cazul în care nu a fost atribuit atributul de origine, ați putea să fi derivat originea din atributul nume de mașină.

    c ("mpg", "cilindri", "deplasare", "putere"), pentru a redenumi tipul coloanelor în următorul cod: "

" carName ")

Apoi, modificați tipul de date de putere ca număr numeric cu următorul cod: >> autos $ horsepower <- la fel de. numeric (autos $ horsepower) 

Programul se va plânge pentru că nu toate valorile în cai putere erau reprezentări de șir de numere. Au existat câteva valori lipsă care au fost reprezentate ca "? " caracter. E bine pentru moment, deoarece R convertește fiecare instanță? în NA.

O modalitate obișnuită de a gestiona valorile lipsă ale variabilelor continue este înlocuirea fiecărei valori lipsă cu media întregii coloane. Următorul rând de cod face că: >> autos $ horsepower [este.na (autos $ horsepower)] <- medie (autos $ horsepower, na. rm = TRUE)

Este important să nu ai na. rm-TRUE în funcția medie. Ea spune funcția să nu folosească coloane cu valori nula în calcul. Fără aceasta, funcția va reveni.

În continuare, modificați atributele cu valori discrete la factori. Trei atribute au fost identificate ca fiind discrete. Următoarele trei linii de cod modifică atributele. >> autos $ origine autos $ modelYear autos $ cylinders <- factor (autos $ cylinders)

În final, eliminați atributul din cadrul de date cu această linie de cod: >> autos $ carName <- nULL < În acest moment, ați terminat pregătirea datelor pentru procesul de modelare. Următoarele sunt o vedere a structurii după procesul de pregătire a datelor: >> str (autos) ". cadru ": 398 obs. din 8 variabile: $ mpg: num 18 15 18 16 17 15 14 14 14 15 … $ butelii: Factor cu 5 nivele "3", "4", "5", "6", …:

5 5 5 5 5 5 5 5 5 5 … $ deplasare: num 307 350 318 304 302 429 454 440 455 390 … $ cai putere: num 130 165 150 150 140 198 220 215 225 190 … $ greutate: num 3504 3693 3436 3433 3449 … $ accelerare: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ modelYear: Factor cu 13 nivele "70", "71", "72", …:

1 1 1 1 1 1 1 1 1 1 … $ origine: Factor cu 3 nivele "1", "2", "3":

1 1 1 1 1 1 1 1 1 1 …

Cum să pregătești datele în regresia R pentru predictive Analytics - dummy

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...