Cum să pregătești date pentru analiza predictivă - dummy

Video: Cum sa memorezi mai simplu si rapid - Invata usor si rapid pentru Bacalaureat sau Admitere! 2025

Când învățați un nou limbaj de programare, este obișnuit să scrieți programul "hello world". Pentru învățarea în mașină și pentru analiza predictivă, crearea unui model pentru a clasifica setul de date Iris este programul său echivalent "hello world". Acesta este un exemplu destul de simplu, dar este foarte eficient în predarea principiilor de învățare în mașină și de analiză predictivă.

Cum se obține setul de date de probă

Pentru a crea modelul nostru predictiv, va trebui să descărcați setul de date Iris. Acest set de date este disponibil gratuit din mai multe surse, în special la instituții academice care au departamente de învățare automată. Din fericire, oamenii de la au fost destul de frumos pentru a include unele seturi de date de probă și funcții de încărcare a datelor împreună cu pachetul lor. În scopul acestor exemple, va trebui să executați doar câteva linii de cod simple pentru a încărca datele.

Modul de etichetare a datelor

Iată o observație și caracteristicile acesteia din fiecare clasă din setul de date Iris Flower.

Sepal Lungime	Sepal Lățime	Lungime petală	Lățime petală	Clasă țintă / etichetă
5. 1	3. 5	1. 4	0. 2	Setosa (0)
7. 0	3. 2	4. 7	1. 4	Versicolor (1)
6. 3	3. 3	6. 0	2. 5	Virginica (2)

Setul de date Flower Iris este un set de date multivariate reală a trei clase din floarea Iris ( Iris setosa, Iris virginica, și Iris versicolor Ronald Fisher în articolul său din 1936, "Utilizarea mai multor măsurători în probleme taxonomice. "Acest set de date este cel mai bine cunoscut pentru utilizarea pe scară largă în mediul academic pentru învățarea în mașină și statistici.

Setul de date constă din 150 de cazuri totale, cu 50 de cazuri din fiecare dintre cele trei clase ale floarei Iris. Eșantionul are 4 caracteristici (denumite de asemenea atribute ), care sunt măsurătorile de lungime și lățime ale sepalelor și petalelor.

Partea interesantă a acestui set de date este că cele trei clase sunt oarecum separabile liniar. Clasa Setosa poate fi separată de celelalte două clase prin trasarea unei linii drepte pe grafic între ele. Clasele Virginica și Versicolor nu pot fi perfect separate printr-o linie dreaptă - deși este aproape. Acest lucru face ca acesta să fie un candidat perfect pentru a face analiza de clasificare, dar nu atât de bun pentru analiza de grupare.

Datele eșantionului au fost deja etichetate. Coloana din dreapta (Etichetă) de mai sus prezintă numele fiecărei clase a floarei Iris.Numele clasei este denumit etichetă sau țintă; este de obicei atribuită unei variabile numite y . Este în esență rezultatul sau rezultatul a ceea ce este prezis.

În statistici și modelare, adesea se face referire ca variabila dependentă . Aceasta depinde de intrările care corespund lungimii și lățimii sepalei și lungimii și lățimii petalei.

De asemenea, ați putea dori să știți ce este diferit în ceea ce privește setul de date Iris de la Scikit preprocesed, comparativ cu setul de date original. Pentru a afla, trebuie să obțineți fișierul de date original. Puteți face o căutare Google pentru setul de date pentru iris și o puteți descărca sau vizualiza de la oricare dintre instituțiile academice.

Rezultatul care apare, de obicei, în primul rând este repozitoriul de seturi de date al Universității din California, Irvine (UCI). Setul de date Iris în starea inițială din depozitul de ucenicie UCI poate fi găsit pe site-ul UCI.

Dacă îl descărcați, ar trebui să îl puteți vedea cu orice editor de text. La vizualizarea datelor din fișier, veți observa că există cinci coloane în fiecare rând. Primele patru coloane sunt măsurătorile (denumite caracteristicile ), iar ultima coloană este eticheta. Eticheta diferă între versiunile originale și versiunile scumpe ale setului de date Iris.

O altă diferență este primul rând al fișierului de date. Acesta include un rând de antet utilizat de funcția de încărcare a datelor scikit. Nu are niciun efect asupra algoritmilor înșiși.

Normalizarea caracteristicilor numerelor, mai degrabă decât menținerea acestora ca text, face mai ușoară procesarea algoritmilor - și este mult mai eficientă pentru memorie. Acest lucru este evident mai ales dacă rulați seturi de date foarte mari cu multe caracteristici - ceea ce este adesea cazul scenariilor reale.

Aici sunt date de probă din ambele fișiere. Toate coloanele cu date sunt aceleași, cu excepția Col5. Rețineți că Scikit are nume de clasă cu etichete numerice; fișierul original are etichete de text.

Source	Col1	Col2	Col3	Col4	Col5
scikit	5. 1	3. 5	1. 4	0. 2	0
originală	5. 1	3. 5	1. 4	0. 2	Iris-setosa
scikit	7. 0	3. 2	4. 7	1. 4	1
originală	7. 0	3. 2	4. 7	1. 4	Iris-versicolor
scikit	6. 3	3. 3	6. 0	2. 5	2
originală	6. 3	3. 3	6. 0	2. 5	Iris-virginica