Ce este supraajustarea?
Supraajustarea este o eroare de modelare în statistici care apare atunci când o funcție este prea strâns aliniată la un set limitat de puncte de date. Ca rezultat, modelul este util doar cu referire la setul său inițial de date și nu la orice alte seturi de date.
Supraadaptarea modelului ia în general forma realizării unui model prea complex pentru a explica idiosincraziile din datele studiate. În realitate, datele studiate adesea au un anumit grad de eroare sau zgomot aleatoriu în ele. Astfel, încercarea de a face modelul să se conformeze prea strâns la date ușor inexacte poate infecta modelul cu erori substanțiale și poate reduce puterea lui de predicție.
Recomandări cheie
- Supraadaptarea este o eroare care apare în modelarea datelor ca urmare a alinierii prea apropiate a unei anumite funcții la un set minim de puncte de date.
- Profesioniștii financiari riscă să supraadapteze un model bazat pe date limitate și să ajungă la rezultate care sunt greșite.
- Atunci când un model a fost compromis prin supraadaptare, modelul își poate pierde valoarea ca instrument de predicție pentru investiții.
- Un model de date poate fi, de asemenea, subadaptat, ceea ce înseamnă că este prea simplu, cu prea puține puncte de date pentru a fi eficient.
- Supramontarea este o problemă mai frecventă decât supraadaptarea și apare de obicei ca urmare a încercării de a evita supraadaptarea.
Înțelegerea supraajustării
De exemplu, o problemă comună este utilizarea algoritmilor de computer pentru a căuta baze de date extinse cu date istorice ale pieței pentru a găsi modele. Având în vedere suficient studiu, este adesea posibil să se dezvolte teoreme elaborate care par să prezică randamentele pieței de valori cu o precizie apropiată.
Cu toate acestea, atunci când sunt aplicate datelor din afara eșantionului, astfel de teoreme s-ar putea dovedi a fi doar o supraadaptare a unui model la ceea ce au fost în realitate doar întâmplări întâmplătoare. În toate cazurile, este important să testați un model pe baza datelor care se află în afara eșantionului utilizat pentru a-l dezvolta.
Cum să preveniți supraadaptarea
Modalitățile de prevenire a supraajustării includ validarea încrucișată, în care datele utilizate pentru antrenamentul modelului sunt tăiate în pliuri sau partiții și modelul este rulat pentru fiecare pliu. Apoi, estimarea generală a erorii este mediată. Alte metode includ asamblarea: predicțiile sunt combinate de la cel puțin două modele separate, creșterea datelor, în care setul de date disponibil este făcut să arate divers și simplificarea datelor, în care modelul este simplificat pentru a evita supraadaptarea.
Profesioniștii financiari trebuie să fie întotdeauna conștienți de pericolele supraajustării sau subadaptarii unui model bazat pe date limitate. Modelul ideal ar trebui să fie echilibrat.
Supraadaptarea în învățarea automată
Supraadaptarea este, de asemenea, un factor în învățarea automată. Poate apărea atunci când o mașină a fost învățată să scaneze pentru anumite date într-un fel, dar atunci când același proces este aplicat unui nou set de date, rezultatele sunt incorecte. Acest lucru se datorează erorilor din modelul care a fost construit, deoarece arată probabil o părtinire scăzută și o varianță ridicată. Este posibil ca modelul să fi avut caracteristici redundante sau suprapuse, ceea ce a făcut ca acesta să devină complicat inutil și, prin urmare, ineficient.
Suprafitting vs Underfitting
Un model care este suprainstalat poate fi prea complicat, făcându-l ineficient. Dar un model poate fi și subadaptat, adică este prea simplu, cu prea puține caracteristici și prea puține date pentru a construi un model eficient. Un model de supraadaptare are o părtinire scăzută și o varianță ridicată, în timp ce un model de subadaptare este opusul – are o părtinire mare și o varianță scăzută. Adăugarea mai multor funcții la un model prea simplu poate ajuta la limitarea părtinirii.
Exemplu de supraadaptare
De exemplu, o universitate care înregistrează o rată de abandon universitar mai mare decât și-ar dori decide că dorește să creeze un model care să prezică probabilitatea ca un solicitant să ajungă până la absolvire.
Pentru a face acest lucru, universitatea antrenează un model dintr-un set de date de 5.000 de solicitanți și rezultatele acestora. Apoi rulează modelul pe setul de date original – grupul de 5.000 de solicitanți – iar modelul prezice rezultatul cu o acuratețe de 98%. Dar pentru a-i testa acuratețea, aceștia rulează modelul și pe un al doilea set de date – încă 5.000 de solicitanți. Cu toate acestea, de această dată, modelul are o precizie de doar 50%, deoarece modelul se potrivea prea mult cu un subset de date restrâns, în acest caz, primele 5.000 de aplicații.