Video: Internet Technologies - Computer Science for Business Leaders 2016 2024
Într-o lume perfectă, puteți efectua un test asupra datelor pe care algoritmul dvs. de învățare a mașinilor nu le-a învățat niciodată înainte. Cu toate acestea, așteptarea unor date noi nu este întotdeauna fezabilă în ceea ce privește timpul și costurile.
Ca un prim remediu simplu, puteți împărți aleatoriu datele dvs. în seturi de antrenament și de testare. Distribuția comună este de la 25 la 30 la sută pentru testare și restul de 75 la 70 la sută pentru antrenament. Îți împărțiți datele, constând în răspunsul și caracteristicile dvs., în același timp, păstrând corespondența dintre fiecare răspuns și caracteristicile acestuia.
Al doilea remediu apare atunci când trebuie să îți potriviți algoritmul de învățare. În acest caz, datele de divizare a testului nu sunt o practică bună, deoarece provoacă un alt tip de suprapunere numită snooping. Pentru a depăși snooping-ul, aveți nevoie de un al treilea split, numit set de validare. Separarea sugerată este să aveți exemplele dvs. împărțite în treimi: 70% pentru formare, 20% pentru validare și 10% pentru testare.
Ar trebui să efectuați divizarea aleatoriu, adică, indiferent de ordonarea inițială a datelor. În caz contrar, testul dvs. nu va fi fiabil, deoarece comanda poate cauza o supraestimare (atunci când există o comandă semnificativă) sau subestimarea (când distribuția diferă prea mult). Ca soluție, trebuie să vă asigurați că distribuția setului de test nu este foarte diferită de distribuția de formare și că ordonarea secvențială are loc în datele împărțite.
Când numărul dvs. de exemple n este mare, cum ar fi n> 10 000, puteți crea destul de confident un set de date divizat aleatoriu. Atunci când setul de date este mai mic, compararea statisticilor de bază, cum ar fi media, modul, mediana și variația în răspuns și caracteristicile seturilor de antrenament și de testare vă vor ajuta să înțelegeți dacă setul de testare este necorespunzător. Când nu sunteți sigur că împărțirea este corectă, recalculați una nouă.