Parandage ennustuste kvaliteeti kohandatud klassifikatsioonimudelites rakendusega Amazon Comprehend

Taasavaldanud Platon

järgijaid: 0

Tehisintellekt (AI) ja masinõpe (ML) on ettevõtetes ja valitsusasutustes laialdaselt kasutusele võetud. Struktureerimata andmete töötlemine on muutunud lihtsamaks tänu loomuliku keele töötlemise (NLP) edusammudele ja kasutajasõbralikele AI/ML-teenustele, nagu Amazoni tekst, Amazoni transkribeerimineja Amazoni mõistmine. Organisatsioonid on hakanud kasutama AI/ML teenuseid, nagu Amazon Comprehend, et luua oma struktureerimata andmetega klassifitseerimismudeleid, et saada põhjalikku ülevaadet, mida neil varem polnud. Kuigi saate kasutada eelkoolitatud mudeleid minimaalse pingutusega, ilma nõuetekohase andmete kureerimise ja mudeli häälestamiseta, ei saa te AI/ML-mudelite kõiki eeliseid realiseerida.

Selles postituses selgitame, kuidas Amazon Comprehendi abil kohandatud klassifitseerimismudelit luua ja optimeerida. Demonstreerime seda Amazon Comprehendi kohandatud klassifikatsiooni abil, et luua mitme märgiga kohandatud klassifitseerimismudel, ja anname juhiseid koolituse andmekogumi ettevalmistamiseks ja mudeli häälestamiseks, et see vastaks toimivusmõõdikutele, nagu täpsus, täpsus, meeldetuletus ja F1 skoor. Kasutame Amazon Comprehendi mudelitreeningu väljundartefakte, nagu segadusmaatriksit, et häälestada mudeli jõudlust ja juhendada teid treeningandmete parandamisel.

Lahenduse ülevaade

See lahendus pakub lähenemist optimeeritud kohandatud klassifitseerimismudeli loomiseks Amazon Comprehendi abil. Läbime mitu etappi, sealhulgas andmete ettevalmistamine, mudeli loomine, mudeli jõudluse mõõdikute analüüs ja meie analüüsi põhjal järelduste optimeerimine. Me kasutame an Amazon SageMaker märkmik ja AWS-i juhtimiskonsool et mõned neist sammudest lõpule viia.

Samuti vaatame andmete ettevalmistamise, mudeli loomise ja mudeli häälestamise käigus läbi parimad tavad ja optimeerimistehnikad.

Eeldused

Kui teil pole SageMakeri märkmiku eksemplari, saate selle luua. Juhiste saamiseks vaadake Looge Amazon SageMakeri sülearvuti eksemplar.

Valmistage andmed ette

Selle analüüsi jaoks kasutame toksiliste kommentaaride klassifikatsiooni andmestikku Kaagutama. See andmestik sisaldab 6 silti 158,571 10 andmepunktiga. Igal sildil on aga positiivsete näidetena alla 1% koguandmetest, kusjuures kahel märgisel on see näitaja alla XNUMX%.

Teisendame olemasoleva Kaggle'i andmestiku Amazon Comprehend kaheveeruline CSV-vorming sildid jagatud toru (|) eraldaja abil. Amazon Comprehend ootab iga andmepunkti jaoks vähemalt ühte silti. Selles andmekogumis kohtame mitmeid andmepunkte, mis ei kuulu ühegi esitatud sildi alla. Loome uue sildi nimega puhas ja määrame selle märgisega positiivseks kõik andmepunktid, mis ei ole mürgised. Lõpuks jagasime kureeritud andmekogumid koolitus- ja katseandmekogumiteks, kasutades 80/20 suhtega jaotust sildi kohta.

Kasutame andmete ettevalmistamise märkmikku. Järgmised sammud kasutavad Kaggle'i andmestikku ja valmistavad andmed meie mudeli jaoks ette.

Valige SageMakeri konsoolil Märkmiku eksemplarid navigeerimispaanil.
Valige konfigureeritud sülearvuti eksemplar ja valige Avage Jupyter.
Kohta Uus menüüst valige terminal.

Parandage ennustuste kvaliteeti kohandatud klassifikatsioonimudelites rakendusega Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Selle postituse jaoks vajalike artefaktide allalaadimiseks käivitage terminalis järgmised käsud:

cd SageMaker
wget https://aws-ml-blog.s3.amazonaws.com/artifacts/amazon-comprehend-improve-prediction-quality/comprehend-blog-artifacts.zip
unzip comprehend-blog-artifacts.zip
rm comprehend-blog-artifacts.zip
mkdir assets

Sulgege terminali aken.

Peaksite nägema kolme märkmikku ja rong.csv faile.

Valige märkmik Data-Preparation.ipynb.
Käivitage kõik toimingud märkmikus.

Need toimingud valmistavad Kaggle'i töötlemata andmestiku ette, et seda kasutada kureeritud koolitus- ja testiandmete kogumina. Kureeritud andmestikud salvestatakse märkmikusse ja Amazoni lihtne salvestusteenus (Amazon S3).

Suuremahuliste mitme sildiga andmekogumite käsitlemisel võtke arvesse järgmisi andmete ettevalmistamise juhiseid.

Andmekogumitel peab sildi kohta olema vähemalt 10 näidist.
Amazon Comprehend aktsepteerib kuni 100 silti. See on pehme piir, mida saab suurendada.
Veenduge, et andmekogumi fail on õigesti vormindatud õige piiritlejaga. Valed eraldajad võivad lisada tühjad sildid.
Kõigil andmepunktidel peavad olema sildid.
Koolitus- ja katseandmekogumitel peaks olema tasakaalustatud andmete jaotus märgise kohta. Ärge kasutage juhuslikku jaotust, kuna see võib koolitus- ja testiandmekogumites esile kutsuda.

Looge kohandatud klassifitseerimismudel

Kasutame oma mudeli koostamiseks kureeritud koolitus- ja testiandmekogumeid, mille lõime andmete ettevalmistamise etapis. Järgmised sammud loovad Amazon Comprehendi mitme sildiga kohandatud klassifitseerimismudeli.

Amazon Comprehendi konsoolil valige Kohandatud klassifikatsioon navigeerimispaanil.
Vali Loo uus mudel.
eest mudeli nimi, sisestage mürgisuse klassifikatsiooni mudel.
eest Versiooni nimi, sisestage 1.
eest Annotatsioon ja andmevorming, vali Mitme sildi režiimi kasutamine.
eest Koolituse andmestik, sisestage Amazon S3 kureeritud treeningandmete kogumi asukoht.
Vali Klient esitas testandmestiku ja sisestage kureeritud testiandmete asukoht Amazon S3-s.
eest Väljundandmed, sisestage Amazon S3 asukoht.
eest IAM rollvalige Looge IAM-i roll, määrake nime järelliide kui "comprehend-blog".
Vali Looma kohandatud klassifikatsioonimudeli koolituse ja mudeli loomise alustamiseks.

Järgmine ekraanipilt näitab kohandatud klassifikatsioonimudeli üksikasju Amazon Comprehendi konsoolil.

Parandage ennustuste kvaliteeti kohandatud klassifikatsioonimudelites rakendusega Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Häälestage mudeli jõudlust

Järgmine ekraanipilt näitab mudeli jõudluse mõõdikuid. See sisaldab põhimõõdikuid, nagu täpsus, meeldetuletus, F1 skoor, täpsus ja palju muud.

Parandage ennustuste kvaliteeti kohandatud klassifikatsioonimudelites rakendusega Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Pärast mudeli väljaõpetamist ja loomist genereerib see faili output.tar.gz, mis sisaldab nii andmestiku silte kui ka segadusmaatriksit iga sildi jaoks. Mudeli ennustusjõudluse edasiseks häälestamiseks peate mõistma oma mudelit iga klassi prognoosimise tõenäosustega. Selleks peate looma analüüsitöö, et tuvastada Amazon Comprehend igale andmepunktile määratud hinded.

Analüüsitöö loomiseks toimige järgmiselt.

Amazon Comprehendi konsoolil valige Analüüsitööd navigeerimispaanil.
Vali Loo töökoht.
eest Nimi, sisenema toxic_train_data_analysis_job.
eest Analüüsi tüüp, vali Kohandatud klassifikatsioon.
eest Klassifikatsioonimudelid ja hoorattad, täpsustage toxic-classification-model.
eest versioon, täpsustage 1.
eest Sisendandmed S3 asukoht, sisestage kureeritud treeningandmete faili asukoht.
eest Sisendvorming, vali Üks dokument rea kohta.
eest Väljundandmed S3 asukoht, sisestage asukoht.
eest Juurdepääsuloadvalige Kasutage olemasolevat IAM-i rolli ja valige varem loodud roll.
Vali Loo töökoht analüüsitöö alustamiseks.
Valige Analüüsitööd töö üksikasjade vaatamiseks. Märkige üles töö ID jaotises Töö üksikasjad. Järgmises etapis kasutame töö ID-d.

Parandage ennustuste kvaliteeti kohandatud klassifikatsioonimudelites rakendusega Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Korrake kureeritud testandmete analüüsitöö alustamise samme. Kasutame oma analüüsitööde ennustusväljundeid, et saada teada oma mudeli prognoosimise tõenäosustest. Märkige üles koolitus- ja testianalüüsitööde töö ID-d.

Me kasutame Model-Threshold-Analysis.ipynb sülearvuti, et testida väljundeid kõikidel võimalikel lävedel ja hinnata väljundit prognoosimise tõenäosuse põhjal, kasutades scikit-learn's precision_recall_curve funktsiooni. Lisaks saame arvutada F1 skoori igal lävel.

Vajame sisendiks Amazon Comprehendi analüüsi töö ID-d Mudel-lävi-analüüs märkmik. Töö ID-d saate Amazon Comprehendi konsoolist. Sooritage kõik sammud Mudel-lävi-analüüs märkmik, et jälgida kõikide klasside lävendeid.

Parandage ennustuste kvaliteeti kohandatud klassifikatsioonimudelites rakendusega Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Pange tähele, kuidas läve tõustes suureneb täpsus, tagasikutsumise korral aga vastupidine. Nende kahe vahelise tasakaalu leidmiseks kasutame F1 skoori, kus selle kõveras on nähtavad tipud. F1 skoori tipud vastavad konkreetsele lävele, mis võib mudeli jõudlust parandada. Pange tähele, kuidas enamik silte langeb künnise 0.5 märgi ümber, välja arvatud ohusilt, mille lävi on umbes 0.04.

Parandage ennustuste kvaliteeti kohandatud klassifikatsioonimudelites rakendusega Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Seejärel saame seda läve kasutada konkreetsete siltide jaoks, mis ainult vaikeläve 0.5 puhul ei toimi. Kasutades optimeeritud lävesid, paranevad katseandmete mudeli tulemused märgise ohu puhul 0.00-lt 0.24-le. Kasutame läve juures maksimaalset F1 skoori võrdlusalusena, et määrata selle sildi puhul positiivne ja negatiivne, mitte kõigi siltide puhul ühise võrdlusaluse (standardväärtus, näiteks > 0.7) asemel.

Parandage ennustuste kvaliteeti kohandatud klassifikatsioonimudelites rakendusega Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Alaesindatud klasside käsitlemine

Teine tasakaalustamata andmestiku jaoks tõhus lähenemisviis on oversampling. Alaesindatud klassi ülevalimimisel näeb mudel alaesindatud klassi sagedamini ja rõhutab nende valimite tähtsust. Me kasutame Ülevalimine-alaesindatud.ipynb sülearvuti andmekogude optimeerimiseks.

Selle andmekogumi puhul testisime, kuidas mudeli toimivus hindamisandmestikul muutub, kui pakume rohkem proove. Kasutame ülediskreetimise tehnikat, et suurendada alaesindatud klasside esinemist, et parandada jõudlust.

Parandage ennustuste kvaliteeti kohandatud klassifikatsioonimudelites rakendusega Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Sel konkreetsel juhul testisime 10, 25, 50, 100, 200 ja 500 positiivse näitega. Pange tähele, et kuigi me kordame andmepunkte, parandame oma olemuselt mudeli jõudlust, rõhutades alaesindatud klassi tähtsust.

Maksma

Amazon Comprehendiga maksate töödeldud tekstimärkide arvu alusel. Viitama Amazon Comprehend Pricing tegelike kulude jaoks.

Koristage

Kui olete selle lahendusega katsetamise lõpetanud, puhastage oma ressursid, et kustutada kõik selles näites juurutatud ressursid. See aitab vältida jätkuvaid kulusid oma kontol.

Järeldus

Selles postituses oleme pakkunud parimaid tavasid ja juhiseid andmete ettevalmistamiseks, mudeli häälestamiseks, kasutades prognoosimise tõenäosusi ja tehnikaid alaesindatud andmeklasside käsitlemiseks. Saate kasutada neid parimaid tavasid ja tehnikaid oma Amazon Comprehendi kohandatud klassifitseerimismudeli jõudlusmõõdikute parandamiseks.

Amazon Comprehendi kohta lisateabe saamiseks külastage Amazon Comprehendi arendajaressursid videoressursside ja ajaveebipostituste leidmiseks ning viitamiseks AWS mõistab KKK-sid.

Autoritest

Sathya Balakrishnan on AWS-i professionaalsete teenuste meeskonna vanem klientide kohaletoimetamise arhitekt, kes on spetsialiseerunud andme- ja ML-lahendustele. Ta töötab USA föderaalsete finantsklientidega. Ta on kirglik klientide äriprobleemide lahendamiseks pragmaatiliste lahenduste loomisest. Vabal ajal meeldib talle perega filme vaadata ja matkata.

Prints Mallari on NLP andmeteadlane AWSi professionaalsete teenuste meeskonnas, kes on spetsialiseerunud NLP rakendustele avaliku sektori klientidele. Ta kasutab kirglikult ML-i vahendina, mis võimaldab klientidel olla produktiivsem. Vabal ajal meeldib talle videomänge mängida ja koos sõpradega neid arendada.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/

Ajatempel: Oktoober 5, 2023

Ajatempel: Mar 17, 2022

Parandage ennustuste kvaliteeti kohandatud klassifikatsioonimudelites rakendusega Amazon Comprehend | Amazoni veebiteenused

Taasavaldanud Platon

Lahenduse ülevaade

Eeldused

Valmistage andmed ette

Looge kohandatud klassifitseerimismudel

Häälestage mudeli jõudlust

Alaesindatud klasside käsitlemine

Maksma

Koristage

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Mõõtke Amazoni isikupärastamise soovituste mõju ärile

Korraldage masinõppe arendust, kasutades reaalajas koostööks SageMaker Studio jagatud ruume

Häälestage ML-mudeleid täiendavate eesmärkide saavutamiseks, nagu õiglus, kasutades SageMakeri automaatset mudelihäälestust

Juurutage BLOOM-176B ja OPT-30B Amazon SageMakeris suure mudelijäreldamisega Deep Learning Containers ja DeepSpeed

Kuidas Amazon Search saavutab madala latentsusaja ja suure läbilaskevõimega T5 järelduse NVIDIA Tritoniga AWS-is

Tuvastage helisündmused Amazon Rekognitioniga

Amazon SageMaker koos TensorBoardiga: ülevaade hostitud TensorBoardi kogemusest

Looge Amazon Textractiga jälgitav, kohandatud, mitmes vormingus dokumentide sõelumiskonveier

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto