Acasă Finanțe personale Cum să pregătești date pentru analiza predictivă - dummy

Cum să pregătești date pentru analiza predictivă - dummy

Cuprins:

Video: Cum sa memorezi mai simplu si rapid - Invata usor si rapid pentru Bacalaureat sau Admitere! 2024

Video: Cum sa memorezi mai simplu si rapid - Invata usor si rapid pentru Bacalaureat sau Admitere! 2024
Anonim

Când învățați un nou limbaj de programare, este obișnuit să scrieți programul "hello world". Pentru învățarea în mașină și pentru analiza predictivă, crearea unui model pentru a clasifica setul de date Iris este programul său echivalent "hello world". Acesta este un exemplu destul de simplu, dar este foarte eficient în predarea principiilor de învățare în mașină și de analiză predictivă.

Cum se obține setul de date de probă

Pentru a crea modelul nostru predictiv, va trebui să descărcați setul de date Iris. Acest set de date este disponibil gratuit din mai multe surse, în special la instituții academice care au departamente de învățare automată. Din fericire, oamenii de la au fost destul de frumos pentru a include unele seturi de date de probă și funcții de încărcare a datelor împreună cu pachetul lor. În scopul acestor exemple, va trebui să executați doar câteva linii de cod simple pentru a încărca datele.

Modul de etichetare a datelor

Iată o observație și caracteristicile acesteia din fiecare clasă din setul de date Iris Flower.

Sepal Lungime Sepal Lățime Lungime petală Lățime petală Clasă țintă / etichetă
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Setul de date Flower Iris este un set de date multivariate reală a trei clase din floarea Iris ( Iris setosa, Iris virginica, și Iris versicolor Ronald Fisher în articolul său din 1936, "Utilizarea mai multor măsurători în probleme taxonomice. "Acest set de date este cel mai bine cunoscut pentru utilizarea pe scară largă în mediul academic pentru învățarea în mașină și statistici.

Setul de date constă din 150 de cazuri totale, cu 50 de cazuri din fiecare dintre cele trei clase ale floarei Iris. Eșantionul are 4 caracteristici (denumite de asemenea atribute ), care sunt măsurătorile de lungime și lățime ale sepalelor și petalelor.

Partea interesantă a acestui set de date este că cele trei clase sunt oarecum separabile liniar. Clasa Setosa poate fi separată de celelalte două clase prin trasarea unei linii drepte pe grafic între ele. Clasele Virginica și Versicolor nu pot fi perfect separate printr-o linie dreaptă - deși este aproape. Acest lucru face ca acesta să fie un candidat perfect pentru a face analiza de clasificare, dar nu atât de bun pentru analiza de grupare.

Datele eșantionului au fost deja etichetate. Coloana din dreapta (Etichetă) de mai sus prezintă numele fiecărei clase a floarei Iris.Numele clasei este denumit etichetă sau țintă; este de obicei atribuită unei variabile numite y . Este în esență rezultatul sau rezultatul a ceea ce este prezis.

În statistici și modelare, adesea se face referire ca variabila dependentă . Aceasta depinde de intrările care corespund lungimii și lățimii sepalei și lungimii și lățimii petalei.

De asemenea, ați putea dori să știți ce este diferit în ceea ce privește setul de date Iris de la Scikit preprocesed, comparativ cu setul de date original. Pentru a afla, trebuie să obțineți fișierul de date original. Puteți face o căutare Google pentru setul de date pentru iris și o puteți descărca sau vizualiza de la oricare dintre instituțiile academice.

Rezultatul care apare, de obicei, în primul rând este repozitoriul de seturi de date al Universității din California, Irvine (UCI). Setul de date Iris în starea inițială din depozitul de ucenicie UCI poate fi găsit pe site-ul UCI.

Dacă îl descărcați, ar trebui să îl puteți vedea cu orice editor de text. La vizualizarea datelor din fișier, veți observa că există cinci coloane în fiecare rând. Primele patru coloane sunt măsurătorile (denumite caracteristicile ), iar ultima coloană este eticheta. Eticheta diferă între versiunile originale și versiunile scumpe ale setului de date Iris.

O altă diferență este primul rând al fișierului de date. Acesta include un rând de antet utilizat de funcția de încărcare a datelor scikit. Nu are niciun efect asupra algoritmilor înșiși.

Normalizarea caracteristicilor numerelor, mai degrabă decât menținerea acestora ca text, face mai ușoară procesarea algoritmilor - și este mult mai eficientă pentru memorie. Acest lucru este evident mai ales dacă rulați seturi de date foarte mari cu multe caracteristici - ceea ce este adesea cazul scenariilor reale.

Aici sunt date de probă din ambele fișiere. Toate coloanele cu date sunt aceleași, cu excepția Col5. Rețineți că Scikit are nume de clasă cu etichete numerice; fișierul original are etichete de text.

Source Col1 Col2 Col3 Col4 Col5
scikit 5. 1 3. 5 1. 4 0. 2 0
originală 5. 1 3. 5 1. 4 0. 2 Iris-setosa
scikit 7. 0 3. 2 4. 7 1. 4 1
originală 7. 0 3. 2 4. 7 1. 4 Iris-versicolor
scikit 6. 3 3. 3 6. 0 2. 5 2
originală 6. 3 3. 3 6. 0 2. 5 Iris-virginica
Cum să pregătești date pentru analiza predictivă - dummy

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...