Improve Prediction Quality In Custom Classification Models With Amazon Comprehend

Újra kiadta Platón

Követő: 0

A mesterséges intelligencia (AI) és a gépi tanulás (ML) széles körben elterjedt a vállalati és kormányzati szervezetekben. A strukturálatlan adatok feldolgozása könnyebbé vált a természetes nyelvi feldolgozás (NLP) fejlődésével és a felhasználóbarát AI/ML szolgáltatásokkal, mint pl. Amazon szöveg, Amazon átiratés Amazon Comprehend. A szervezetek elkezdték használni az AI/ML szolgáltatásokat, mint például az Amazon Comprehend, hogy osztályozási modelleket építsenek fel strukturálatlan adataikkal, hogy olyan mély betekintést nyerjenek, amivel korábban nem rendelkeztek. Bár minimális erőfeszítéssel, megfelelő adatkezelés és modellhangolás nélkül használhatja az előre betanított modelleket, az AI/ML modellek előnyeit nem tudja kihasználni.

Ebben a bejegyzésben elmagyarázzuk, hogyan lehet egyéni osztályozási modellt felépíteni és optimalizálni az Amazon Comprehend segítségével. Ezt egy Amazon Comprehend egyéni besorolás segítségével mutatjuk be, hogy létrehozzunk egy többcímkés egyéni osztályozási modellt, és útmutatást adunk a képzési adatkészlet előkészítéséhez és a modell beállításához, hogy megfeleljen az olyan teljesítménymutatóknak, mint a pontosság, precizitás, visszahívás és F1 pontszám. Az Amazon Comprehend modell edzési kimeneti műtermékeit, például egy zavaros mátrixot használjuk a modell teljesítményének hangolására és az edzési adatok javítására.

Megoldás áttekintése

Ez a megoldás egy optimalizált egyéni osztályozási modell felépítésének megközelítését mutatja be az Amazon Comprehend használatával. Számos lépésen megyünk keresztül, beleértve az adatok előkészítését, a modell létrehozását, a modell teljesítménymetria elemzését és az elemzésünk alapján történő következtetés optimalizálását. Használunk egy Amazon SageMaker jegyzetfüzet és a AWS felügyeleti konzol hogy végrehajtson néhány lépést.

Az adat-előkészítés, a modellépítés és a modellhangolás során a legjobb gyakorlatokat és optimalizálási technikákat is végigvesszük.

Előfeltételek

Ha nincs SageMaker jegyzetfüzet-példánya, létrehozhat egyet. Az utasításokat lásd Hozzon létre egy Amazon SageMaker notebook példányt.

Készítse elő az adatokat

Ehhez az elemzéshez a Toxic Comment Classification adatkészletét használjuk Kaggle. Ez az adatkészlet 6 címkét tartalmaz 158,571 10 adatponttal. Mindazonáltal mindegyik címkén csak az összes adat kevesebb mint 1%-a szerepel pozitív példaként, és a címkék közül kettő XNUMX%-nál kevesebbet tartalmaz.

A meglévő Kaggle adatkészletet konvertáljuk a Amazon Comprehend kétoszlopos CSV formátum a címkéket cső (|) határoló segítségével kettéválasztjuk. Az Amazon Comprehend minden adatponthoz legalább egy címkét vár. Ebben az adatkészletben több olyan adatponttal találkozunk, amelyek nem tartoznak a megadott címke alá. Létrehozunk egy új tiszta címkét, és minden nem mérgező adatpontot pozitívnak rendelünk ehhez a címkéhez. Végül felosztottuk a kurált adatkészleteket képzési és tesztadatkészletekre, címkénkénti 80/20 arányú felosztással.

A Data-Preparation jegyzetfüzetet fogjuk használni. A következő lépések a Kaggle adatkészletet használják, és előkészítik az adatokat a modellünkhöz.

A SageMaker konzolon válassza a lehetőséget Notebook példányok a navigációs ablaktáblában.
Válassza ki a konfigurált notebook példányt, és válassza ki Nyissa meg a Jupytert.
A Új menüben válasszon terminál.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Futtassa a következő parancsokat a terminálban a bejegyzéshez szükséges melléktermékek letöltéséhez:

cd SageMaker
wget https://aws-ml-blog.s3.amazonaws.com/artifacts/amazon-comprehend-improve-prediction-quality/comprehend-blog-artifacts.zip
unzip comprehend-blog-artifacts.zip
rm comprehend-blog-artifacts.zip
mkdir assets

Zárja be a terminál ablakot.

Látnia kell három jegyzetfüzetet és vonat.csv fájlokat.

Válassza ki a notebookot Data-Preparation.ipynb.
Futtassa az összes lépést a jegyzetfüzetben.

Ezek a lépések előkészítik a nyers Kaggle-adatkészletet, hogy kurált képzési és tesztadatkészletként szolgáljon. A kurált adatkészletek a notebookban és a Amazon egyszerű tárolási szolgáltatás (Amazon S3).

Vegye figyelembe a következő adat-előkészítési irányelveket, amikor nagyméretű többcímkés adatkészletekkel foglalkozik:

Az adatkészleteknek címkénként legalább 10 mintát kell tartalmazniuk.
Az Amazon Comprehend legfeljebb 100 címkét fogad el. Ez egy lágy határ, amely növelhető.
Győződjön meg arról, hogy az adatkészlet fájl helyesen formázott a megfelelő határolóval. A helytelen határolók üres címkéket vezethetnek be.
Minden adatpontnak címkével kell rendelkeznie.
A képzési és tesztadatkészleteknek címkénként kiegyensúlyozott adateloszlással kell rendelkezniük. Ne használjon véletlenszerű eloszlást, mert ez torzítást okozhat a betanítási és tesztadatkészletekben.

Egyéni osztályozási modell létrehozása

Modellünk felépítéséhez az adat-előkészítési lépés során létrehozott kurált képzési és tesztadatkészleteket használjuk. A következő lépésekkel hozzon létre egy Amazon Comprehend többcímkés egyéni osztályozási modellt:

Az Amazon Comprehend konzolon válassza a lehetőséget Egyedi besorolás a navigációs ablaktáblában.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Hozzon létre új modellt.
A Modell név, adja meg a toxikus osztályozási modellt.
A Verzió neve, írja be a 1-et.
A Annotáció és adatformátum, választ Többcímke mód használata.
A Képzési adatkészlet, adja meg a kurált edzési adatkészlet helyét az Amazon S3-on.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Az ügyfél által biztosított tesztadatkészlet és adja meg a kurált tesztadatok helyét az Amazon S3-on.
A Kimeneti adatok, adja meg az Amazon S3 helyét.
A IAM szerepkörválassza Hozzon létre egy IAM-szerepet, adja meg a név utótagját: „comprehend-blog”.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt az egyéni osztályozási modell képzésének és modellalkotásának elindításához.

A következő képernyőképen az egyéni besorolási modell részletei láthatók az Amazon Comprehend konzolon.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Hangolás a modell teljesítményére

A következő képernyőképen a modell teljesítménymutatói láthatók. Olyan kulcsfontosságú mutatókat tartalmaz, mint a pontosság, a visszahívás, az F1 pontszám, a pontosság és még sok más.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A modell betanítása és létrehozása után létrehozza az output.tar.gz fájlt, amely tartalmazza az adatkészlet címkéit, valamint az egyes címkék összekeverési mátrixát. A modell előrejelzési teljesítményének további hangolásához meg kell értenie a modellt az egyes osztályokhoz tartozó előrejelzési valószínűségekkel. Ehhez létre kell hoznia egy elemzési feladatot, amely azonosítja az Amazon Comprehend által az egyes adatpontokhoz rendelt pontszámokat.

Az elemzési feladat létrehozásához hajtsa végre a következő lépéseket:

Az Amazon Comprehend konzolon válassza a lehetőséget Elemző munkák a navigációs ablaktáblában.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állás létrehozása.
A Név, belép toxic_train_data_analysis_job.
A Elemzés típusa, választ Egyedi besorolás.
A Osztályozási modellek és lendkerekek, adja meg toxic-classification-model.
A Változat, adja meg az 1.
A Bemeneti adatok S3 helye, adja meg a kurált edzési adatfájl helyét.
A Bemeneti formátum, választ Soronként egy dokumentum.
A Kimeneti adatok S3 helye, adja meg a helyet.
A Hozzáférési engedélyekválassza Használjon meglévő IAM-szerepet és válassza ki a korábban létrehozott szerepet.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állás létrehozása az elemzési munka megkezdéséhez.
Válassza ki a Elemző munkák a munka részleteinek megtekintéséhez. Kérjük, jegyezze fel az állásazonosítót a Munka részletei alatt. A következő lépésben a munkaazonosítót fogjuk használni.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ismételje meg a lépéseket az elemzési feladat elindításához a kurált tesztadatokhoz. Az elemzési munkák előrejelzési kimeneteit használjuk fel, hogy megismerjük modellünk előrejelzési valószínűségeit. Kérjük, vegye figyelembe a képzési és tesztelemzési munkák munkaazonosítóit.

Az általunk használt Model-Threshold-Analysis.ipynb notebook a kimenetek teszteléséhez az összes lehetséges küszöbértéken, és a kimenetet az előrejelzési valószínűség alapján pontozza a scikit-learn segítségével precision_recall_curve funkció. Ezenkívül minden küszöbértéknél kiszámíthatjuk az F1 pontszámot.

Szükségünk lesz az Amazon Comprehend elemzési feladat azonosítójára bemenetként Modell-küszöb-elemzés jegyzetfüzet. A munkaazonosítókat az Amazon Comprehend konzolról szerezheti be. Hajtsa végre az összes lépést Modell-küszöb-elemzés jegyzetfüzet, hogy betartsa a küszöbértékeket az összes osztály számára.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Figyelje meg, hogyan növekszik a pontosság a küszöbérték emelkedésével, míg a fordítottja a visszahívással történik. A kettő közötti egyensúly megtalálásához az F1 pontszámot használjuk, ahol látható csúcsok vannak a görbéjükben. Az F1 pontszám csúcsai egy adott küszöbértéknek felelnek meg, amely javíthatja a modell teljesítményét. Figyelje meg, hogy a legtöbb címke a küszöbérték 0.5-ös jele köré esik, kivéve a fenyegetéscímkét, amelynek a küszöbértéke 0.04 körül van.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ezután használhatjuk ezt a küszöböt bizonyos címkék esetén, amelyek alulteljesítenek az alapértelmezett 0.5-ös küszöb mellett. Az optimalizált küszöbértékek használatával a modell tesztadatokon elért eredményei 0.00-ról 0.24-re javulnak a címkefenyegetésre. A küszöbértéknél elért maximális F1-pontszámot használjuk viszonyítási alapként, hogy meghatározzuk az adott címke pozitív és negatív értékét, ahelyett, hogy az összes címke esetében egy közös viszonyítási érték (például > 0.7) lenne.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Alulreprezentált osztályok kezelése

Egy másik, kiegyensúlyozatlan adatkészlet esetén hatékony megközelítés az oversampling. Az alulreprezentált osztály túlmintázásával a modell gyakrabban látja az alulreprezentált osztályt, és hangsúlyozza ezen minták fontosságát. Használjuk a Túlmintavétel-alulreprezentált.ipynb notebook az adatkészletek optimalizálásához.

Ennél az adatkészletnél teszteltük, hogyan változik a modell teljesítménye az értékelési adatkészleten, ahogy több mintát adunk. A túlmintavételezési technikát alkalmazzuk az alulreprezentált osztályok előfordulásának növelésére a teljesítmény javítása érdekében.

Improve prediction quality in custom classification models with Amazon Comprehend | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ebben a konkrét esetben 10, 25, 50, 100, 200 és 500 pozitív példán teszteltünk. Figyeljük meg, hogy bár az adatpontokat ismételjük, az alulreprezentált osztály fontosságának hangsúlyozásával eredendően javítjuk a modell teljesítményét.

Költség

Az Amazon Comprehend szolgáltatással a feldolgozott szövegkarakterek száma alapján fizet. Hivatkozni Amazon Comprehend árképzés tényleges költségekre.

Tisztítsuk meg

Ha befejezte a megoldással való kísérletezést, tisztítsa meg az erőforrásokat az ebben a példában telepített összes erőforrás törléséhez. Ez segít elkerülni a folyamatos költségeket a fiókjában.

Következtetés

Ebben a bejegyzésben bevált gyakorlatokat és útmutatást adunk az adatok előkészítéséhez, a modellhangoláshoz az előrejelzési valószínűségek használatával és az alulreprezentált adatosztályok kezelésére szolgáló technikákkal. Ezeket a bevált módszereket és technikákat használhatja az Amazon Comprehend egyéni besorolási modell teljesítménymutatóinak javítására.

Az Amazon Comprehend szolgáltatással kapcsolatos további információkért látogasson el a webhelyre Amazon Comprehend fejlesztői erőforrások videoforrások és blogbejegyzések megtalálásához, és hivatkozásra Az AWS megérti a GYIK-et.

A szerzőkről

Sathya Balakrishnan idősebb ügyfélszállítási építész az AWS professzionális szolgáltatások csapatában, adat- és ML-megoldásokra szakosodott. Amerikai szövetségi pénzügyi ügyfelekkel dolgozik. Szenvedélyesen törekszik a pragmatikus megoldások kidolgozására az ügyfelek üzleti problémáinak megoldására. Szabadidejében szeret filmeket nézni és kirándulni a családjával.

Mallari herceg az AWS professzionális szolgáltatások csapatának NLP adatkutatója, az NLP közszféra ügyfelek számára történő alkalmazásaira szakosodott. Szenvedélyesen használja az ML-t olyan eszközként, amely lehetővé teszi az ügyfelek számára, hogy termelékenyebbek legyenek. Szabadidejében szívesen játszik videojátékokkal és fejleszt egyet a barátaival.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/

Időbélyeg: Október 5, 2023

Időbélyeg: 10. március 2022.

A Snapper gépi tanulással segített címkézést biztosít a pixel tökéletes képobjektum észleléséhez

Forrás klaszter:

AWS gépi tanulás

Forrás csomópont: 1820241

Időbélyeg: 30. március 2023.

Hozzon létre egy HCLS dokumentum-összefoglaló alkalmazást a Falcon segítségével az Amazon SageMaker JumpStart | Amazon webszolgáltatások

Forrás klaszter:

AWS gépi tanulás

Forrás csomópont: 1898108

Időbélyeg: 4. október 2023.

Szerezzen betekintést az SAP ERP-ből kód nélküli ML megoldásokkal az Amazon AppFlow és az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Szerezzen betekintést az SAP ERP-ből kód nélküli ML megoldásokkal az Amazon AppFlow és az Amazon SageMaker Canvas segítségével

Forrás klaszter:

AWS gépi tanulás

Forrás csomópont: 1401082

Időbélyeg: 15. június 2022.

Javítsa az előrejelzés minőségét az egyéni osztályozási modellekben az Amazon Comprehend | Amazon webszolgáltatások

Újra kiadta Platón

Megoldás áttekintése

Előfeltételek

Készítse elő az adatokat

Egyéni osztályozási modell létrehozása

Hangolás a modell teljesítményére

Alulreprezentált osztályok kezelése

Költség

Tisztítsuk meg

Következtetés

A szerzőkről

Még több AWS gépi tanulás

Hozzon létre egyéni entitásfelismerőt PDF-dokumentumokhoz az Amazon Comprehend segítségével

Dokumentumérvényesítés és csalásfelderítés automatizálása a jelzálog-jegyzési folyamatban az AWS AI-szolgáltatások segítségével: 1. rész | Amazon webszolgáltatások

Hozzon létre egy Metával integrált időpont-ütemező felületet az Amazon Lex és az Amazon Connect segítségével

A vállalati adatok erejének kihasználása generatív mesterséges intelligencia segítségével: Az Amazon Kendra, a LangChain és a nagy nyelvi modellek betekintése | Amazon webszolgáltatások

Vizuális ellenőrzési automatizálás az Amazon SageMaker JumpStart segítségével

Az Amazon SageMaker Studio alkalmazásban kiszolgáló nélküli AWS Glue interaktív munkamenetek segítségével készítsen elő adatokat

Automatizálja a tranzakciós dokumentumok digitalizálását emberi felügyelet mellett az Amazon Textract és az Amazon A2I segítségével

A Snapper gépi tanulással segített címkézést biztosít a pixel tökéletes képobjektum észleléséhez

Hozzon létre egy HCLS dokumentum-összefoglaló alkalmazást a Falcon segítségével az Amazon SageMaker JumpStart | Amazon webszolgáltatások

Szerezzen betekintést az SAP ERP-ből kód nélküli ML megoldásokkal az Amazon AppFlow és az Amazon SageMaker Canvas segítségével

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók