Koneoppimisen bias-varianssin kompromissi

Julkaissut Platon

seuraajia: 0

esittely

Koneoppimisessa bias-varianssin kompromissi on peruskäsite, joka vaikuttaa minkä tahansa ennustavan mallin suorituskykyyn. Se viittaa mallin bias-virheen ja varianssivirheen herkkään tasapainoon, koska molempia on mahdotonta minimoida samanaikaisesti. Oikean tasapainon löytäminen on ratkaisevan tärkeää mallin optimaalisen suorituskyvyn saavuttamiseksi.

Tässä lyhyessä artikkelissa määrittelemme harhan ja varianssin, selitämme, kuinka ne vaikuttavat koneoppimismalliin, ja annamme käytännön neuvoja niiden käsittelemiseen käytännössä.

Biasin ja varianssin ymmärtäminen

Ennen kuin sukeltaa harhan ja varianssin väliseen suhteeseen, määritellään, mitä nämä termit edustavat koneoppimisessa.

Bias error viittaa eroon mallin ennusteen ja oikeiden arvojen välillä, joita se yrittää ennustaa (pohjatotuus). Toisin sanoen harha on virhe, jonka malli tekee, koska sen taustalla olevasta datajakaumasta on tehty virheellisiä olettamuksia. High Bias -mallit ovat usein liian yksinkertaisia, eivätkä ne pysty kaappaamaan tietojen monimutkaisuutta, mikä johtaa alisovitukseen.

Varianssivirhe taas viittaa mallin herkkyyteen harjoitustietojen pienille vaihteluille. Suuren varianssin mallit ovat liian monimutkaisia ja yleensä sovittavat datan kohinan taustalla olevan kuvion sijaan, mikä johtaa ylisovitukseen. Tämä johtaa huonoon suorituskykyyn uusilla, näkymättömillä tiedoilla.

Suuri harha voi johtaa alisovitukseen, jolloin malli on liian yksinkertainen sieppaamaan datan monimutkaisuutta. Se tekee vahvoja oletuksia tiedoista eikä pysty sieppaamaan todellista suhdetta tulo- ja lähtömuuttujien välillä. Toisaalta suuri varianssi voi johtaa ylisovitukseen, jossa malli on liian monimutkainen ja oppii datan kohinan tulo- ja lähtömuuttujien välisen taustalla olevan suhteen sijaan. Siten ylisovitusmalleilla on taipumus sovittaa harjoitusdataa liian lähelle eivätkä ne yleisty hyvin uuteen dataan, kun taas alisovitusmallit eivät edes pysty sovittamaan harjoitusdataa tarkasti.

Kuten aiemmin mainittiin, harha ja varianssi liittyvät toisiinsa, ja hyvä malli tasapainottaa harhavirheen ja varianssivirheen välillä. Bias-varianssin kompromissi on prosessi, jolla löydetään optimaalinen tasapaino näiden kahden virhelähteen välillä. Malli, jossa on pieni bias ja pieni varianssi, toimii todennäköisesti hyvin sekä harjoittelussa että uudessa datassa, minimoiden kokonaisvirheen.

Bias-variance-vaihto

Tasapainon saavuttaminen mallin monimutkaisuuden ja sen kyvyn yleistää tuntemattomaan dataan välillä on bias-varianssin kompromissin ydin. Yleensä monimutkaisemmalla mallilla on pienempi poikkeama, mutta suurempi varianssi, kun taas yksinkertaisemmalla mallilla on suurempi poikkeama mutta pienempi varianssi.

Koska harhaa ja varianssia on mahdotonta minimoida samanaikaisesti, niiden välisen optimaalisen tasapainon löytäminen on ratkaisevan tärkeää kestävän koneoppimismallin rakentamisessa. Esimerkiksi kun lisäämme mallin monimutkaisuutta, lisäämme myös varianssia. Tämä johtuu siitä, että monimutkaisempi malli sopii todennäköisemmin kohinan harjoitustietoihin, mikä johtaa ylisovitukseen.

Toisaalta, jos pidämme mallin liian yksinkertaisena, lisäämme harhaa. Tämä johtuu siitä, että yksinkertaisempi malli ei pysty kaappaamaan datan taustalla olevia suhteita, mikä johtaa alisovitukseen.

Tavoitteena on kouluttaa malli, joka on tarpeeksi monimutkainen sieppaamaan harjoitusdatan taustalla olevat suhteet, mutta ei niin monimutkainen, että se sopisi harjoitusdatan kohinaan.

Bias-Variance Trade-off käytännössä

Mallin suorituskyvyn diagnosoimiseksi laskemme ja vertaamme yleensä juna- ja validointivirheet. Hyödyllinen työkalu tämän visualisoimiseen on oppimiskäyrien kuvaaja, joka näyttää mallin suorituskyvyn sekä juna- että validointitiedoissa koko harjoitusprosessin ajan. Näitä käyriä tutkimalla voimme määrittää, onko malli ylisovitettu (suuri varianssi), alisovitus (suuri bias) vai hyvin sopiva (optimaalinen tasapaino harhan ja varianssin välillä).

Aliistuvan mallin oppimiskäyrät
Esimerkki alasovitusmallin oppimiskäyristä. Sekä junavirhe että validointivirhe ovat suuria.

Käytännössä alhainen suorituskyky sekä koulutus- että validointitiedoissa viittaa siihen, että malli on liian yksinkertainen, mikä johtaa aliasennukseen. Toisaalta, jos malli toimii erittäin hyvin harjoitusdatalla, mutta huonosti testidatalla, mallin monimutkaisuus on todennäköisesti liian korkea, mikä johtaa ylisovitukseen. Alassovituksen korjaamiseksi voimme yrittää lisätä mallin monimutkaisuutta lisäämällä ominaisuuksia, muuttamalla oppimisalgoritmia tai valitsemalla erilaisia hyperparametreja. Ylisovituksen tapauksessa meidän tulisi harkita mallin laillistamista tai ristiinvalidoinnin kaltaisten tekniikoiden käyttöä sen yleistyskyvyn parantamiseksi.

Yliistuvan mallin oppimiskäyrät
Esimerkki ylisovitusmallin oppimiskäyristä. Junavirhe pienenee, kun taas validointivirhe alkaa kasvaa. Malli ei voi yleistää.

Regularisointi on tekniikka, jota voidaan käyttää vähentämään varianssivirhettä koneoppimismalleissa, mikä auttaa ratkaisemaan bias-varianssin kompromissin. On olemassa useita erilaisia regulointitekniikoita, joista jokaisella on omat etunsa ja haittansa. Joitakin suosittuja regularisointitekniikoita ovat harjanteen regressio, lasso-regressio ja elastinen nettregulointi. Kaikki nämä tekniikat auttavat estämään ylisovitusta lisäämällä mallin tavoitefunktioon sakkotermin, mikä estää äärimmäisiä parametriarvoja ja kannustaa yksinkertaisempiin malleihin.

Ridge-regressio, joka tunnetaan myös nimellä L2-regulaatio, lisää sakkotermin, joka on verrannollinen mallin parametrien neliöön. Tällä tekniikalla on taipumus johtaa malleihin, joissa parametriarvot ovat pienemmät, mikä voi johtaa pienempään varianssiin ja parantuneeseen yleistykseen. Se ei kuitenkaan suorita ominaisuuksien valintaa, joten kaikki ominaisuudet jäävät malliin.

Tutustu käytännönläheiseen, käytännölliseen Gitin oppimisoppaaseemme, jossa on parhaat käytännöt, alan hyväksymät standardit ja mukana tuleva huijauslehti. Lopeta Git-komentojen googlailu ja oikeastaan oppia se!

Lasson regressio, tai L1-regulointi, lisää sakkotermin, joka on verrannollinen mallin parametrien itseisarvoon. Tämä tekniikka voi johtaa malleihin, joissa on harvat parametriarvot ja jotka suorittavat ominaisuuksien valinnan tehokkaasti asettamalla jotkin parametrit nollaan. Tämä voi johtaa yksinkertaisempiin malleihin, joita on helpompi tulkita.

Elastinen nettoregulointi on sekä L1- että L2-regulaation yhdistelmä, mikä mahdollistaa tasapainon harjanteen ja lasso-regression välillä. Säätämällä kahden sakkotermin välistä suhdetta joustava verkko voi saavuttaa molempien tekniikoiden edut, kuten paremman yleistyksen ja ominaisuuksien valinnan.

Hyvin sovitetun mallin oppimiskäyrät
Esimerkki hyvän sovitusmallin oppimiskäyristä.

Päätelmät

Bias-varianssin kompromissi on koneoppimisen keskeinen käsite, joka määrittää mallin tehokkuuden ja hyvyyden. Vaikka suuri harha johtaa alisovitukseen ja suuri varianssi johtaa ylisovitukseen, optimaalisen tasapainon löytäminen näiden kahden välillä on välttämätöntä vankkojen mallien rakentamiseksi, jotka yleistyvät hyvin uuteen dataan.

Oppimiskäyrien avulla voidaan tunnistaa yli- tai alisovitusongelmat ja mallin monimutkaisuutta säätämällä tai ottamalla käyttöön regularisointitekniikoita voidaan parantaa suorituskykyä sekä harjoitus- että validointidatan sekä testidatan osalta.