Modul de rulare a datelor de antrenament într-un model de învățare supravegheat SVM

Video: Calling All Cars: Desperate Choices / Perfumed Cigarette Lighter / Man Overboard 2025

Înainte de a putea alimenta clasificatorul SVM cu datele încărcate pentru analiza predictivă, trebuie să împărțiți întregul set de date într-un set de antrenament și set de test.

Din fericire, scikit-learn a implementat o funcție care vă va ajuta să împărțiți cu ușurință întregul set de date. Funcția train_test_split ia ca intrări un singur set de date și o valoare procentuală. Valoarea procentuală este utilizată pentru a determina dimensiunea setului de testare. Funcția returnează două seturi de date: setul de date de testare (cu dimensiunea specificată) și setul de date de antrenament (care utilizează datele rămase).

În mod obișnuit, se poate lua aproximativ 70-80% din date pentru a fi utilizate ca un set de antrenament și pentru a utiliza datele rămase ca set de testare. Dar setul de date Iris este foarte mic (doar 150 de cazuri), astfel încât să puteți lua 90% din acesta pentru a instrui modelul și a utiliza celelalte 10% ca date de testare pentru a vedea cum va funcționa modelul dvs. predictiv.

Introduceți codul următor pentru a vă împărți setul de date: >>>> de la sklearn import cross_validation >>> X_train, X_test, y_train, y_test = cross_validation. train_test_split (date iris, iris target, test_size = 0.10, random_state = 111)

Prima linie importă biblioteca de validare încrucișată în sesiunea dvs. A doua linie creează testul de la 10 la sută din eșantion.

x_train va conține 135 de observații și trăsăturile sale.

y_train va conține 135 de etichete în aceeași ordine ca 135 de observații.

x_test va conține 15 (sau 10%) observații și caracteristicile sale.

y_test va conține 15 etichete în aceeași ordine ca cele 15 observații.

Următorul cod verifică faptul că împărțirea este ceea ce vă așteptați:

>>>> X_train. forma (135, 4) >>> y_train. forma (135,) >>> X_test. forma (15, 4) >>> y_test. forma (15,)

Puteți observa din ieșire că există 135 de observații cu 4 caracteristici și 135 etichete în setul de antrenament. Setul de testare are 15 observații cu 4 caracteristici și 15 etichete.

Mulți începători din domeniul analizei predictive uită să împartă seturile de date - ceea ce introduce un defect serios în proiect. Dacă cele 150 de instanțe au fost încărcate în mașină ca date de antrenament, nu s-ar lăsa date neobișnuite pentru testarea modelului. Apoi, va trebui să recurgeți la reutilizarea unor instanțe de formare pentru a testa modelul predictiv.

Veți vedea că într-o astfel de situație, modelul întotdeauna prezice clasa corectă - pentru că utilizați aceleași date exacte pe care le-ați folosit pentru a instrui modelul.Modelul a văzut deja acest model înainte; nu va avea nici o problemă doar repetând ceea ce se vede. Un model predictiv de lucru trebuie să facă predicții pentru datele pe care nu le-a văzut încă.

Când aveți o instanță a unui clasificator SVM, un set de date de antrenament și un set de date de testare, sunteți pregătit să instruiți modelul cu datele de antrenament. Tastarea următorului cod în interpret va face exact acel: >>>> svmClassifier. fit (X_train, y_train)

Această linie de coduri creează un model de lucru pentru a face previziuni. În mod specific, un model predictiv care va prezice la ce clasă de Iris aparține un set de date fără marcă neetichetă. Exemplul svmClassifier va avea mai multe metode pe care le puteți apela pentru a face diverse lucruri.

De exemplu, după apelarea metodei de potrivire, metoda cea mai utilă de apel este metoda de predicție. Aceasta este metoda la care veți alimenta date noi; în schimb, ea prezice rezultatul.