Acasă Finanțe personale Cum să pregătești date pentru analiza predictivă - dummy

Cum să pregătești date pentru analiza predictivă - dummy

Cuprins:

Video: Cum sa memorezi mai simplu si rapid - Invata usor si rapid pentru Bacalaureat sau Admitere! 2025

Video: Cum sa memorezi mai simplu si rapid - Invata usor si rapid pentru Bacalaureat sau Admitere! 2025
Anonim

Când învățați un nou limbaj de programare, este obișnuit să scrieți programul "hello world". Pentru învățarea în mașină și pentru analiza predictivă, crearea unui model pentru a clasifica setul de date Iris este programul său echivalent "hello world". Acesta este un exemplu destul de simplu, dar este foarte eficient în predarea principiilor de învățare în mașină și de analiză predictivă.

Cum se obține setul de date de probă

Pentru a crea modelul nostru predictiv, va trebui să descărcați setul de date Iris. Acest set de date este disponibil gratuit din mai multe surse, în special la instituții academice care au departamente de învățare automată. Din fericire, oamenii de la au fost destul de frumos pentru a include unele seturi de date de probă și funcții de încărcare a datelor împreună cu pachetul lor. În scopul acestor exemple, va trebui să executați doar câteva linii de cod simple pentru a încărca datele.

Modul de etichetare a datelor

Iată o observație și caracteristicile acesteia din fiecare clasă din setul de date Iris Flower.

Sepal Lungime Sepal Lățime Lungime petală Lățime petală Clasă țintă / etichetă
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Setul de date Flower Iris este un set de date multivariate reală a trei clase din floarea Iris ( Iris setosa, Iris virginica, și Iris versicolor Ronald Fisher în articolul său din 1936, "Utilizarea mai multor măsurători în probleme taxonomice. "Acest set de date este cel mai bine cunoscut pentru utilizarea pe scară largă în mediul academic pentru învățarea în mașină și statistici.

Setul de date constă din 150 de cazuri totale, cu 50 de cazuri din fiecare dintre cele trei clase ale floarei Iris. Eșantionul are 4 caracteristici (denumite de asemenea atribute ), care sunt măsurătorile de lungime și lățime ale sepalelor și petalelor.

Partea interesantă a acestui set de date este că cele trei clase sunt oarecum separabile liniar. Clasa Setosa poate fi separată de celelalte două clase prin trasarea unei linii drepte pe grafic între ele. Clasele Virginica și Versicolor nu pot fi perfect separate printr-o linie dreaptă - deși este aproape. Acest lucru face ca acesta să fie un candidat perfect pentru a face analiza de clasificare, dar nu atât de bun pentru analiza de grupare.

Datele eșantionului au fost deja etichetate. Coloana din dreapta (Etichetă) de mai sus prezintă numele fiecărei clase a floarei Iris.Numele clasei este denumit etichetă sau țintă; este de obicei atribuită unei variabile numite y . Este în esență rezultatul sau rezultatul a ceea ce este prezis.

În statistici și modelare, adesea se face referire ca variabila dependentă . Aceasta depinde de intrările care corespund lungimii și lățimii sepalei și lungimii și lățimii petalei.

De asemenea, ați putea dori să știți ce este diferit în ceea ce privește setul de date Iris de la Scikit preprocesed, comparativ cu setul de date original. Pentru a afla, trebuie să obțineți fișierul de date original. Puteți face o căutare Google pentru setul de date pentru iris și o puteți descărca sau vizualiza de la oricare dintre instituțiile academice.

Rezultatul care apare, de obicei, în primul rând este repozitoriul de seturi de date al Universității din California, Irvine (UCI). Setul de date Iris în starea inițială din depozitul de ucenicie UCI poate fi găsit pe site-ul UCI.

Dacă îl descărcați, ar trebui să îl puteți vedea cu orice editor de text. La vizualizarea datelor din fișier, veți observa că există cinci coloane în fiecare rând. Primele patru coloane sunt măsurătorile (denumite caracteristicile ), iar ultima coloană este eticheta. Eticheta diferă între versiunile originale și versiunile scumpe ale setului de date Iris.

O altă diferență este primul rând al fișierului de date. Acesta include un rând de antet utilizat de funcția de încărcare a datelor scikit. Nu are niciun efect asupra algoritmilor înșiși.

Normalizarea caracteristicilor numerelor, mai degrabă decât menținerea acestora ca text, face mai ușoară procesarea algoritmilor - și este mult mai eficientă pentru memorie. Acest lucru este evident mai ales dacă rulați seturi de date foarte mari cu multe caracteristici - ceea ce este adesea cazul scenariilor reale.

Aici sunt date de probă din ambele fișiere. Toate coloanele cu date sunt aceleași, cu excepția Col5. Rețineți că Scikit are nume de clasă cu etichete numerice; fișierul original are etichete de text.

Source Col1 Col2 Col3 Col4 Col5
scikit 5. 1 3. 5 1. 4 0. 2 0
originală 5. 1 3. 5 1. 4 0. 2 Iris-setosa
scikit 7. 0 3. 2 4. 7 1. 4 1
originală 7. 0 3. 2 4. 7 1. 4 Iris-versicolor
scikit 6. 3 3. 3 6. 0 2. 5 2
originală 6. 3 3. 3 6. 0 2. 5 Iris-virginica
Cum să pregătești date pentru analiza predictivă - dummy

Alegerea editorilor

Lucruri de luat în considerare înainte de a vă trage filmul DSLR - dummies

Lucruri de luat în considerare înainte de a vă trage filmul DSLR - dummies

Ca producător de filme, la aspectele creative care intră în utilizarea tehnologiei DSLR pentru a vă trage filmul. Cu toate acestea, veți face cea mai bună utilizare a timpului dvs. dacă luați în considerare aceste lucruri în procesul de planificare. Trageți pentru a edita Cu toții am auzit axiomul că sunt făcute filme grozave în ...

Sfaturi pentru direcționarea filmului digital - manechine

Sfaturi pentru direcționarea filmului digital - manechine

Ca regizor, este treaba voastră să aduceți filmul la viață modul în care actorii dvs. joacă personajele și modul în care fiecare echipă a împușcat filmul. Regizorul colaborează cu actorii și echipajul pentru a obține cele mai bune rezultate de la ei și pentru a vă asigura că povestea se spune prin ceea ce fac. Direcționați-vă ...

Zece nunta Tehnici DSLR Filmmaking - mulaje

Zece nunta Tehnici DSLR Filmmaking - mulaje

Folosind DSLR-ul pentru a filma o nunta, de obicei, se află pe capătul opus al reclamei spectru de la realizarea filmului dvs. auteur. Iată primele zece aspecte pe care trebuie să le luați în considerare pentru a le menține viața atunci când captați acest eveniment o dată în viață. Au echipamentul video corect Tu nu va fi capabil să facă o nuntă, până ...

Alegerea editorilor

Cum să dezactivați fasciculul de asistență pentru autofocus pe un Canon 60D - dummies

Cum să dezactivați fasciculul de asistență pentru autofocus pe un Canon 60D - dummies

Camera foto emite un fascicul de focalizare AF (autofocus) de la blițul încorporat atunci când apăsați pe jumătate butonul declanșator (presupunând că blițul este deschis, desigur). Acest puls de lumină ajută camera să vă "vadă" mai bine țintă, îmbunătățind performanța sistemului de focalizare automată. Dacă fotografiați într-o situație în care ...

Cum să ștergeți imagini de la Canon EOS 7D Mark II - manechine

Cum să ștergeți imagini de la Canon EOS 7D Mark II - manechine

Imagine, decideți dacă este un păstor. Dacă în timp ce revizuiți o imagine pe Canon EOS 7D Mark II, nu vă place imaginea din nici un motiv, o puteți șterge. Cu toate acestea, ștergerea imaginilor trebuie făcută cu precauție extremă, deoarece sarcina nu poate fi anulată. După ce ștergeți un ...

Cum să editați filme pe un Canon EOS 60D - dummies

Cum să editați filme pe un Canon EOS 60D - dummies

Caracteristica 60D Editare face delicios ușor pentru a elimina părțile nedorite de la începutul sau sfârșitul unui film chiar pe aparatul foto. Această editare la bord este la îndemână, dar de bază, deci nu vă așteptați la minuni. Iată pașii simpli pentru a tăia începutul sau sfârșitul unui film: faceți clic pe pictograma Editare (arată ...

Alegerea editorilor

Controlul nașterii: cum funcționează prezervativul feminin - manechine

Controlul nașterii: cum funcționează prezervativul feminin - manechine

Ca opțiune de sex sigur, prezervativul feminin mai puțin cunoscut și mai scump decât prezervativul masculin obișnuit. Atât prezervativul cât și prezervativul sunt la fel: este o teacă care trebuie purtată în timpul actului sexual, pentru a preveni sarcina neintenționată și pentru a diminua riscul bolilor cu transmitere sexuală ...

Verificarea glandelor prostate - manechine

Verificarea glandelor prostate - manechine

Care au examene de prostată obișnuite sunt importante ca bărbați. Glanda prostatică - situată sub vezică - se poate mări și poate provoca urinare frecventă. Această problemă, numită hipertrofie prostatică benignă, este deranjantă, dar nu periculoasă. Cancerul de prostată, pe de altă parte, poate fi destul de periculos dacă nu este descoperit și tratat în ...

O privire de ansamblu asupra bolilor transmise sexual sau a persoanelor cu transmitere sexuală - manechine

O privire de ansamblu asupra bolilor transmise sexual sau a persoanelor cu transmitere sexuală - manechine

, Sau boli cu transmitere sexuală, aceste boli nu reprezintă o amenințare inactivă pentru a ține sub control activitatea sexuală nepăsătoare. DTS (cunoscute și sub numele de infecții cu transmitere sexuală sau infecții cu transmitere sexuală) reprezintă o amenințare incredibil de tangibilă, afectând 25% dintre americani cu vârste între 15 și 55 de ani. Deoarece invazia sexuală cuprinde ...