Acasă Finanțe personale Modul de rulare a datelor de antrenament într-un model de învățare supravegheat SVM

Modul de rulare a datelor de antrenament într-un model de învățare supravegheat SVM

Video: Calling All Cars: Desperate Choices / Perfumed Cigarette Lighter / Man Overboard 2024

Video: Calling All Cars: Desperate Choices / Perfumed Cigarette Lighter / Man Overboard 2024
Anonim

Înainte de a putea alimenta clasificatorul SVM cu datele încărcate pentru analiza predictivă, trebuie să împărțiți întregul set de date într-un set de antrenament și set de test.

Din fericire, scikit-learn a implementat o funcție care vă va ajuta să împărțiți cu ușurință întregul set de date. Funcția train_test_split ia ca intrări un singur set de date și o valoare procentuală. Valoarea procentuală este utilizată pentru a determina dimensiunea setului de testare. Funcția returnează două seturi de date: setul de date de testare (cu dimensiunea specificată) și setul de date de antrenament (care utilizează datele rămase).

În mod obișnuit, se poate lua aproximativ 70-80% din date pentru a fi utilizate ca un set de antrenament și pentru a utiliza datele rămase ca set de testare. Dar setul de date Iris este foarte mic (doar 150 de cazuri), astfel încât să puteți lua 90% din acesta pentru a instrui modelul și a utiliza celelalte 10% ca date de testare pentru a vedea cum va funcționa modelul dvs. predictiv.

Introduceți codul următor pentru a vă împărți setul de date: >>>> de la sklearn import cross_validation >>> X_train, X_test, y_train, y_test = cross_validation. train_test_split (date iris, iris target, test_size = 0.10, random_state = 111)

Prima linie importă biblioteca de validare încrucișată în sesiunea dvs. A doua linie creează testul de la 10 la sută din eșantion.

x_train va conține 135 de observații și trăsăturile sale.

y_train va conține 135 de etichete în aceeași ordine ca 135 de observații.

x_test va conține 15 (sau 10%) observații și caracteristicile sale.

y_test va conține 15 etichete în aceeași ordine ca cele 15 observații.

Următorul cod verifică faptul că împărțirea este ceea ce vă așteptați:

>>>> X_train. forma (135, 4) >>> y_train. forma (135,) >>> X_test. forma (15, 4) >>> y_test. forma (15,)

Puteți observa din ieșire că există 135 de observații cu 4 caracteristici și 135 etichete în setul de antrenament. Setul de testare are 15 observații cu 4 caracteristici și 15 etichete.
Mulți începători din domeniul analizei predictive uită să împartă seturile de date - ceea ce introduce un defect serios în proiect. Dacă cele 150 de instanțe au fost încărcate în mașină ca date de antrenament, nu s-ar lăsa date neobișnuite pentru testarea modelului. Apoi, va trebui să recurgeți la reutilizarea unor instanțe de formare pentru a testa modelul predictiv.

Veți vedea că într-o astfel de situație, modelul întotdeauna prezice clasa corectă - pentru că utilizați aceleași date exacte pe care le-ați folosit pentru a instrui modelul.Modelul a văzut deja acest model înainte; nu va avea nici o problemă doar repetând ceea ce se vede. Un model predictiv de lucru trebuie să facă predicții pentru datele pe care nu le-a văzut încă.

Când aveți o instanță a unui clasificator SVM, un set de date de antrenament și un set de date de testare, sunteți pregătit să instruiți modelul cu datele de antrenament. Tastarea următorului cod în interpret va face exact acel: >>>> svmClassifier. fit (X_train, y_train)

Această linie de coduri creează un model de lucru pentru a face previziuni. În mod specific, un model predictiv care va prezice la ce clasă de Iris aparține un set de date fără marcă neetichetă. Exemplul svmClassifier va avea mai multe metode pe care le puteți apela pentru a face diverse lucruri.

De exemplu, după apelarea metodei de potrivire, metoda cea mai utilă de apel este metoda de predicție. Aceasta este metoda la care veți alimenta date noi; în schimb, ea prezice rezultatul.

Modul de rulare a datelor de antrenament într-un model de învățare supravegheat SVM

Alegerea editorilor

Evaluarea Vizualizărilor de date - dummies

Evaluarea Vizualizărilor de date - dummies

Vizualizările de date pot fi foarte colorate și impresionante. Dar amintiți-vă că cheia pentru crearea unor vizualizări eficiente de date nu depinde de faptul dacă este interesantă, ci mai degrabă de faptul dacă descoperă problemele reale de afaceri care trebuie abordate. O foaie de lucru vă ajută să creați propriile vizualizări de date sau să evaluați creațiile altora. Aici ...

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Determinarea programului care funcționează cel mai bine pentru nevoile tale informatice

Să lucreze mai bine decât celălalt. În timp, veți dezvolta un sentiment dacă Illustrator sau Photoshop se potrivesc mai bine pentru diverse sarcini. Până atunci, iată un exemplu despre modul în care fiecare program gestionează diferite elemente ale lucrării de design grafic. Graphing Photoshop nu este un program de grafic. Tu ...

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografice nevergreen: Închirierea obiectelor Build - dummies

Infografics evergreen nu sunt legate de niciun eveniment sau persoană în știri . Ele nu au o componentă sezonieră și nu sunt legate de ceva în timp util. O infographic despre cum se fac CD-urile se va aplica pentru că este vorba de muzică, dar nu este specifică nici unui artist sau gen. Cu infografiile veșnic verzi, ignorați complet evenimentele curente și explorați ideile ...

Alegerea editorilor

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Utilizați Zoom în Adobe Photoshop CS5 - manechine

Adobe Creative Suite 5 oferă scurtături pentru Zooming în Photoshop. Imaginile care arată bine la un nivel de zoom pot părea extrem de proaste la altul. Veți mări și micșora destul de des în timp ce lucrați la imagini în Photoshop. Puteți găsi opțiuni de meniu pentru zoom în meniul Vizualizare; o modalitate mai rapidă de a mări este ...

Text în Photoshop CC - dummies

Text în Photoshop CC - dummies

Când editați o imagine cu text în Photoshop CC, puteți schimba linia care fluxul dvs. de tip fie folosind funcția Warp Text sau tastând pe o cale. Tipul de deformare utilizează forme predefinite la care se formează tipul dvs. (și poate fi utilizat atât cu tipul de punct, cât și cu paragraful) și tastând ...

Alegerea editorilor

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cum se adaugă Biblioteca RegEx în C ++ - dummies

Cea mai mare parte a bibliotecii Boost funcționează bine adăugând la codul aplicației. Cu toate acestea, câteva componente, cum ar fi RegEx, necesită o bibliotecă. Înainte de a putea folosi o bibliotecă, trebuie să o construiți. După ce ați construit biblioteca, trebuie să o adăugați în aplicație. Există două tehnici de adăugare a ...

Cum Heap Works în C ++ - dummies

Cum Heap Works în C ++ - dummies

Halda este un bloc amorf de memorie pe care programul C ++ îl poate accesa după cum este necesar. Aflați de ce există și cum se utilizează. Așa cum este posibil să treci un pointer la o funcție, este posibil ca o funcție să returneze un pointer. O funcție care returnează adresa ...

Cum să evitați codul de injectare în C ++ - dummies

Cum să evitați codul de injectare în C ++ - dummies

Prima regulă de evitare a codului injectat în programele C ++ , permiterea prelucrării datelor de către un interpret de limbă cu scop general. O eroare obișnuită cu SQL-injectarea este că programul acceptă intrarea utilizatorului ca și cum ar fi fost întotdeauna acceptabilă și îl inserează într-o interogare SQL pe care o trimite apoi la ...