Paranna ennustuksen laatua mukautetuissa luokitusmalleissa Amazon Comprehend

Julkaissut Platon

seuraajia: 0

Tekoäly (AI) ja koneoppiminen (ML) ovat omaksuneet laajalti yrityksissä ja valtion organisaatioissa. Strukturoimattoman tiedon käsittelystä on tullut helpompaa luonnollisen kielen käsittelyn (NLP) ja käyttäjäystävällisten AI/ML-palvelujen, kuten Amazonin teksti, Amazonin transkriptioja Amazonin käsitys. Organisaatiot ovat alkaneet käyttää AI/ML-palveluita, kuten Amazon Comprehendia, rakentaakseen luokittelumalleja strukturoimattomista tiedoistaan saadakseen syvällisiä näkemyksiä, joita heillä ei aiemmin ollut. Vaikka voit käyttää esikoulutettuja malleja pienellä vaivalla, ilman asianmukaista tietojen kuratointia ja mallin viritystä, et voi ymmärtää kaikkia AI/ML-mallien etuja.

Tässä viestissä selitämme kuinka luoda ja optimoida mukautettu luokitusmalli Amazon Comprehendin avulla. Osoitamme tämän käyttämällä Amazon Comprehend mukautettua luokittelua luodaksemme monimerkkisen mukautetun luokitusmallin ja tarjoamme ohjeita harjoitustietojoukon valmisteluun ja mallin virittämiseen vastaamaan suorituskykymittareita, kuten tarkkuus, tarkkuus, muistaminen ja F1-pisteet. Käytämme Amazon Comprehend -mallin harjoitustulosteita, kuten hämmennysmatriisia, mallin suorituskyvyn virittämiseen ja harjoitustietojen parantamiseen.

Ratkaisun yleiskatsaus

Tämä ratkaisu esittelee lähestymistavan optimoidun mukautetun luokitusmallin rakentamiseen Amazon Comprehendin avulla. Käymme läpi useita vaiheita, mukaan lukien tietojen valmistelu, mallin luominen, mallin suorituskyvyn mittausanalyysi ja optimointi analyysimme perusteella. Käytämme an Amazon Sage Maker muistikirja ja AWS-hallintakonsoli suorittaaksesi osan näistä vaiheista.

Käymme läpi myös parhaat käytännöt ja optimointitekniikat tietojen valmistelun, mallin rakentamisen ja mallien virityksen aikana.

Edellytykset

Jos sinulla ei ole SageMaker-muistikirjan esiintymää, voit luoda sellaisen. Katso ohjeet kohdasta Luo Amazon SageMaker Notebook -esiintymä.

Valmistele tiedot

Tätä analyysiä varten käytämme Toxic Comment Classification -tietojoukkoa kohteesta Kaggle. Tämä tietojoukko sisältää 6 tunnistetta, joissa on 158,571 10 datapistettä. Jokaisella etiketillä on kuitenkin vain alle 1 % kokonaistiedoista positiivisina esimerkkeinä, ja kahdessa etiketissä on alle XNUMX %.

Muunnamme olemassa olevan Kaggle-tietojoukon Amazon Comprehend kaksisarakkeinen CSV-muoto tarrat on jaettu putkien (|) erottimella. Amazon Comprehend odottaa vähintään yhden etiketin jokaiselle datapisteelle. Tässä tietojoukossa kohtaamme useita tietopisteitä, jotka eivät kuulu minkään tarjotun tunnisteen alle. Luomme uuden etiketin nimeltä puhdas ja määritämme kaikki tietopisteet, jotka eivät ole myrkyllisiä, positiivisiksi tälle tarralle. Lopuksi jaoimme kuratoidut tietojoukot koulutus- ja testaustietosarjoiksi käyttämällä 80/20-suhdetta etikettikohtaisesti.

Käytämme Data-Preparation-muistikirjaa. Seuraavat vaiheet käyttävät Kaggle-tietojoukkoa ja valmistelevat tiedot malliamme varten.

Valitse SageMaker-konsolissa Notebook-esiintymät navigointipaneelissa.
Valitse määrittämäsi muistikirjan ilmentymä ja valitse Avaa Jupyter.
On Uusi valikosta, valitse terminaali.

Paranna ennusteiden laatua mukautetuissa luokitusmalleissa Amazon Comprehend |:n avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Suorita seuraavat komennot terminaalissa ladataksesi tarvittavat artefaktit tähän viestiin:

cd SageMaker
wget https://aws-ml-blog.s3.amazonaws.com/artifacts/amazon-comprehend-improve-prediction-quality/comprehend-blog-artifacts.zip
unzip comprehend-blog-artifacts.zip
rm comprehend-blog-artifacts.zip
mkdir assets

Sulje pääteikkuna.

Sinun pitäisi nähdä kolme muistikirjaa ja juna.csv tiedostoja.

Valitse muistikirja Data-Preparation.ipynb.
Suorita kaikki muistikirjan vaiheet.

Nämä vaiheet valmistelevat raaka Kaggle-tietojoukon toimimaan kuratoituina koulutus- ja testitietojoukkoina. Kuroidut tietojoukot tallennetaan muistikirjaan ja Amazonin yksinkertainen tallennuspalvelu (Amazon S3).

Ota huomioon seuraavat tietojen valmisteluohjeet, kun käsittelet suuria usean tunnisteen tietojoukkoja:

Tietojoukoissa on oltava vähintään 10 näytettä tarraa kohden.
Amazon Comprehend hyväksyy enintään 100 tarraa. Tämä on pehmeä raja, jota voidaan nostaa.
Varmista, että tietojoukkotiedosto on oikein muotoiltu oikealla erottimella. Väärät erottimet voivat aiheuttaa tyhjiä tarroja.
Kaikissa datapisteissä on oltava nimilaput.
Koulutus- ja testitietosarjoissa tulee olla tasapainoinen tietojen jakautuminen etikettiä kohden. Älä käytä satunnaista jakautumista, koska se saattaa aiheuttaa harhaa koulutus- ja testitietosarjoissa.

Luo mukautettu luokitusmalli

Käytämme mallin rakentamiseen kuratoituja koulutus- ja testitietojoukkoja, jotka loimme tietojen valmisteluvaiheessa. Seuraavien vaiheiden avulla luodaan Amazon Comprehend usean tarran mukautettu luokitusmalli:

Valitse Amazon Comprehend -konsolista Mukautettu luokitus navigointipaneelissa.
Valita Luo uusi malli.
varten Mallin nimi, syötä myrkyllisyysluokitusmalli.
varten Version nimi, kirjoita 1.
varten Annotaatio ja datamuoto, valitse Usean etiketin tilan käyttö.
varten Koulutuksen tietojoukko, anna kuratoidun harjoitustietojoukon sijainti Amazon S3:ssa.
Valita Asiakas toimitti testitietojoukon ja syötä kuratoitujen testitietojen sijainti Amazon S3:ssa.
varten Lähtötiedot, kirjoita Amazon S3 -sijainti.
varten IAM-roolivalitse Luo IAM-rooli, määritä nimen pääte "comprehend-blog".
Valita luoda aloittaa mukautetun luokitusmallin koulutuksen ja mallin luomisen.

Seuraava kuvakaappaus näyttää mukautetun luokitusmallin tiedot Amazon Comprehend -konsolissa.

Paranna ennusteiden laatua mukautetuissa luokitusmalleissa Amazon Comprehend |:n avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Säädä mallin suorituskykyä

Seuraava kuvakaappaus näyttää mallin suorituskykymittarit. Se sisältää tärkeitä mittareita, kuten tarkkuus, muistaminen, F1-pisteet, tarkkuus ja paljon muuta.

Paranna ennusteiden laatua mukautetuissa luokitusmalleissa Amazon Comprehend |:n avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Kun malli on koulutettu ja luotu, se luo output.tar.gz-tiedoston, joka sisältää tunnisteet tietojoukosta sekä sekavuusmatriisin jokaiselle tunnisteelle. Jotta mallin ennustussuorituskykyä voidaan säätää edelleen, sinun on ymmärrettävä mallisi kunkin luokan ennustetodennäköisyyksien kanssa. Tätä varten sinun on luotava analyysityö tunnistaaksesi Amazon Comprehendin kullekin datapisteelle määrittämät pisteet.

Luo analyysityö suorittamalla seuraavat vaiheet:

Valitse Amazon Comprehend -konsolista Analyysi työpaikkoja navigointipaneelissa.
Valita Luo työpaikka.
varten Nimi, tulla sisään toxic_train_data_analysis_job.
varten Analyysityyppi, valitse Mukautettu luokitus.
varten Luokittelumallit ja vauhtipyörät, täsmentää toxic-classification-model.
varten Versio, määritä 1.
varten Syöttötiedot S3 sijainti, anna kuratoidun harjoitustietotiedoston sijainti.
varten Syöttömuoto, valitse Yksi asiakirja riviä kohden.
varten Lähtödatan S3 sijainti, anna sijainti.
varten Käyttöoikeudetvalitse Käytä olemassa olevaa IAM-roolia ja valitse aiemmin luotu rooli.
Valita Luo työpaikka aloittaaksesi analyysityön.
Valitse Analyysi työpaikkoja nähdäksesi työn tiedot. Merkitse työtunnus Työn tiedot -kohtaan. Käytämme työtunnusta seuraavassa vaiheessa.

Paranna ennusteiden laatua mukautetuissa luokitusmalleissa Amazon Comprehend |:n avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Toista vaiheet analyysityön aloittamiseksi kuratoidulle testidatalle. Käytämme analyysitöiden ennustustulosteita mallimme ennustetodennäköisyyksien tuntemiseen. Huomioi koulutus- ja testianalyysitöiden työtunnukset.

Käytämme Model-Threshold-Analysis.ipynb muistikirja, joka testaa lähdöt kaikilla mahdollisilla kynnyksillä ja pisteyttää tulosteen ennusteen todennäköisyyden perusteella käyttämällä scikit-learn's precision_recall_curve toiminto. Lisäksi voimme laskea F1-pisteet jokaisella kynnysarvolla.

Tarvitsemme syötteenä Amazon Comprehend -analyysityötunnisteet Malli-kynnys-analyysi muistikirja. Voit saada työtunnukset Amazon Comprehend -konsolista. Suorita kaikki vaiheet sisään Malli-kynnys-analyysi muistikirja kaikkien luokkien kynnysten noudattamiseksi.

Paranna ennusteiden laatua mukautetuissa luokitusmalleissa Amazon Comprehend |:n avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Huomaa, kuinka tarkkuus kasvaa kynnyksen noustessa, kun taas käänteinen tapahtuu palauttamisen yhteydessä. Löytääksemme tasapainon näiden kahden välillä, käytämme F1-tulosta, jossa sen käyrässä on näkyviä huippuja. F1-pisteiden huiput vastaavat tiettyä kynnystä, joka voi parantaa mallin suorituskykyä. Huomaa, kuinka useimmat tarrat putoavat kynnysarvon 0.5 arvon ympärille paitsi uhkamerkinnän, jonka kynnys on noin 0.04.

Paranna ennusteiden laatua mukautetuissa luokitusmalleissa Amazon Comprehend |:n avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voimme sitten käyttää tätä kynnysarvoa tietyille tunnisteille, jotka eivät toimi vain oletusarvolla 0.5. Optimoituja kynnysarvoja käyttämällä mallin tulokset testitiedoissa paranevat tarrauhan osalta 0.00:sta 0.24:ään. Käytämme kynnyksen ylärajaa F1-pisteitä vertailuarvona määrittääksemme kyseisen tunnisteen positiivisen vs. negatiivisen yhteisen vertailuarvon (standardiarvo, kuten > 0.7) sijasta kaikille tarroille.

Paranna ennusteiden laatua mukautetuissa luokitusmalleissa Amazon Comprehend |:n avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Aliedustettujen luokkien käsittely

Toinen lähestymistapa, joka on tehokas epätasapainoiselle tietojoukolle, on Oversampling. Yliotoksella aliedustettua luokkaa malli näkee aliedustetun luokan useammin ja korostaa näiden näytteiden tärkeyttä. Käytämme Oversampling-underpresented.ipynb muistikirja tietojoukkojen optimoimiseksi.

Tämän tietojoukon osalta testasimme, kuinka mallin suorituskyky arviointitietojoukossa muuttuu, kun tarjoamme lisää näytteitä. Käytämme ylinäytteenottotekniikkaa lisätäksemme aliedustettujen luokkien esiintymistä suorituskyvyn parantamiseksi.

Paranna ennusteiden laatua mukautetuissa luokitusmalleissa Amazon Comprehend |:n avulla Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tässä nimenomaisessa tapauksessa testasimme 10, 25, 50, 100, 200 ja 500 positiivista esimerkkiä. Huomaa, että vaikka toistamme datapisteitä, parannamme luonnostaan mallin suorituskykyä korostamalla aliedustetun luokan merkitystä.

Hinta

Amazon Comprehendillä maksat käsiteltyjen tekstimerkkien määrän perusteella. Viitata Amazon ymmärtää hinnoittelun todellisille kustannuksille.

Puhdistaa

Kun olet lopettanut tämän ratkaisun kokeilun, puhdista resurssit ja poista kaikki tässä esimerkissä käytetyt resurssit. Tämä auttaa sinua välttämään jatkuvat kulut tililläsi.

Yhteenveto

Tässä viestissä olemme tarjonneet parhaita käytäntöjä ja ohjeita tietojen valmisteluun, mallien virittämiseen käyttämällä ennustetodennäköisyyksiä ja tekniikoita aliedustettujen tietoluokkien käsittelemiseksi. Voit käyttää näitä parhaita käytäntöjä ja tekniikoita parantaaksesi mukautetun Amazon Comprehend -luokitusmallisi suorituskykymittareita.

Lisätietoja Amazon Comprehendista on osoitteessa Amazon Comprehend -kehittäjäresurssit löytääksesi videoresursseja ja blogikirjoituksia sekä viitata niihin AWS Ymmärtää usein kysytyt kysymykset.

Tietoja Tekijät

Sathya Balakrishnan on vanhempi Customer Delivery Architect AWS:n Professional Services -tiimissä, joka on erikoistunut data- ja ML-ratkaisuihin. Hän työskentelee Yhdysvaltain liittovaltion rahoitusasiakkaiden kanssa. Hän on intohimoinen rakentamaan pragmaattisia ratkaisuja asiakkaiden liiketoimintaongelmien ratkaisemiseksi. Vapaa-ajallaan hän katselee elokuvia ja retkeilee perheen kanssa.

Prinssi Mallari on NLP Data Scientist AWS:n Professional Services -tiimissä, joka on erikoistunut NLP:n sovelluksiin julkisen sektorin asiakkaille. Hän on intohimoinen ML:n käyttämisestä työkaluna, jonka avulla asiakkaat voivat olla tuottavampia. Vapaa-ajallaan hän pelaa videopelejä ja kehittää niitä ystäviensä kanssa.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/

Aikaleima: Lokakuu 5, 2023

Aikaleima: Voi 17, 2023

Paranna ennusteiden laatua mukautetuissa luokitusmalleissa Amazon Comprehend |:n avulla Amazon Web Services

Julkaissut Platon

Ratkaisun yleiskatsaus

Edellytykset

Valmistele tiedot

Luo mukautettu luokitusmalli

Säädä mallin suorituskykyä

Aliedustettujen luokkien käsittely

Hinta

Puhdistaa

Yhteenveto

Tietoja Tekijät

Lisää aiheesta AWS-koneoppiminen

Paranna mallikoulutuksesi hintatehokkuutta käyttämällä Amazon SageMakerin heterogeenisia klustereita

Integroi SaaS-alustoja Amazon SageMakeriin ML-käyttöisten sovellusten mahdollistamiseksi | Amazon Web Services

Optimoi laitteiden suorituskyky historiatietojen, Rayn ja Amazon SageMakerin avulla Amazon Web Services

Rakenna palvelimeton kokousyhteenvedon taustaohjelma suurilla kielimalleilla Amazon SageMaker JumpStart | Amazon Web Services

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili