A mesterséges intelligencia (AI) és a gépi tanulás (ML) széles körben elterjedt a vállalati és kormányzati szervezetekben. A strukturálatlan adatok feldolgozása könnyebbé vált a természetes nyelvi feldolgozás (NLP) fejlődésével és a felhasználóbarát AI/ML szolgáltatásokkal, mint pl. Amazon szöveg, Amazon átiratés Amazon Comprehend. A szervezetek elkezdték használni az AI/ML szolgáltatásokat, mint például az Amazon Comprehend, hogy osztályozási modelleket építsenek fel strukturálatlan adataikkal, hogy olyan mély betekintést nyerjenek, amivel korábban nem rendelkeztek. Bár minimális erőfeszítéssel, megfelelő adatkezelés és modellhangolás nélkül használhatja az előre betanított modelleket, az AI/ML modellek előnyeit nem tudja kihasználni.
Ebben a bejegyzésben elmagyarázzuk, hogyan lehet egyéni osztályozási modellt felépíteni és optimalizálni az Amazon Comprehend segítségével. Ezt egy Amazon Comprehend egyéni besorolás segítségével mutatjuk be, hogy létrehozzunk egy többcímkés egyéni osztályozási modellt, és útmutatást adunk a képzési adatkészlet előkészítéséhez és a modell beállításához, hogy megfeleljen az olyan teljesítménymutatóknak, mint a pontosság, precizitás, visszahívás és F1 pontszám. Az Amazon Comprehend modell edzési kimeneti műtermékeit, például egy zavaros mátrixot használjuk a modell teljesítményének hangolására és az edzési adatok javítására.
Megoldás áttekintése
Ez a megoldás egy optimalizált egyéni osztályozási modell felépítésének megközelítését mutatja be az Amazon Comprehend használatával. Számos lépésen megyünk keresztül, beleértve az adatok előkészítését, a modell létrehozását, a modell teljesítménymetria elemzését és az elemzésünk alapján történő következtetés optimalizálását. Használunk egy Amazon SageMaker jegyzetfüzet és a AWS felügyeleti konzol hogy végrehajtson néhány lépést.
Az adat-előkészítés, a modellépítés és a modellhangolás során a legjobb gyakorlatokat és optimalizálási technikákat is végigvesszük.
Előfeltételek
Ha nincs SageMaker jegyzetfüzet-példánya, létrehozhat egyet. Az utasításokat lásd Hozzon létre egy Amazon SageMaker notebook példányt.
Készítse elő az adatokat
Ehhez az elemzéshez a Toxic Comment Classification adatkészletét használjuk Kaggle. Ez az adatkészlet 6 címkét tartalmaz 158,571 10 adatponttal. Mindazonáltal mindegyik címkén csak az összes adat kevesebb mint 1%-a szerepel pozitív példaként, és a címkék közül kettő XNUMX%-nál kevesebbet tartalmaz.
A meglévő Kaggle adatkészletet konvertáljuk a Amazon Comprehend kétoszlopos CSV formátum a címkéket cső (|) határoló segítségével kettéválasztjuk. Az Amazon Comprehend minden adatponthoz legalább egy címkét vár. Ebben az adatkészletben több olyan adatponttal találkozunk, amelyek nem tartoznak a megadott címke alá. Létrehozunk egy új tiszta címkét, és minden nem mérgező adatpontot pozitívnak rendelünk ehhez a címkéhez. Végül felosztottuk a kurált adatkészleteket képzési és tesztadatkészletekre, címkénkénti 80/20 arányú felosztással.
A Data-Preparation jegyzetfüzetet fogjuk használni. A következő lépések a Kaggle adatkészletet használják, és előkészítik az adatokat a modellünkhöz.
- A SageMaker konzolon válassza a lehetőséget Notebook példányok a navigációs ablaktáblában.
- Válassza ki a konfigurált notebook példányt, és válassza ki Nyissa meg a Jupytert.
- A Új menüben válasszon terminál.
- Futtassa a következő parancsokat a terminálban a bejegyzéshez szükséges melléktermékek letöltéséhez:
- Zárja be a terminál ablakot.
Látnia kell három jegyzetfüzetet és vonat.csv fájlokat.
- Válassza ki a notebookot Data-Preparation.ipynb.
- Futtassa az összes lépést a jegyzetfüzetben.
Ezek a lépések előkészítik a nyers Kaggle-adatkészletet, hogy kurált képzési és tesztadatkészletként szolgáljon. A kurált adatkészletek a notebookban és a Amazon egyszerű tárolási szolgáltatás (Amazon S3).
Vegye figyelembe a következő adat-előkészítési irányelveket, amikor nagyméretű többcímkés adatkészletekkel foglalkozik:
- Az adatkészleteknek címkénként legalább 10 mintát kell tartalmazniuk.
- Az Amazon Comprehend legfeljebb 100 címkét fogad el. Ez egy lágy határ, amely növelhető.
- Győződjön meg arról, hogy az adatkészlet fájl helyesen formázott a megfelelő határolóval. A helytelen határolók üres címkéket vezethetnek be.
- Minden adatpontnak címkével kell rendelkeznie.
- A képzési és tesztadatkészleteknek címkénként kiegyensúlyozott adateloszlással kell rendelkezniük. Ne használjon véletlenszerű eloszlást, mert ez torzítást okozhat a betanítási és tesztadatkészletekben.
Egyéni osztályozási modell létrehozása
Modellünk felépítéséhez az adat-előkészítési lépés során létrehozott kurált képzési és tesztadatkészleteket használjuk. A következő lépésekkel hozzon létre egy Amazon Comprehend többcímkés egyéni osztályozási modellt:
- Az Amazon Comprehend konzolon válassza a lehetőséget Egyedi besorolás a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Hozzon létre új modellt.
- A Modell név, adja meg a toxikus osztályozási modellt.
- A Verzió neve, írja be a 1-et.
- A Annotáció és adatformátum, választ Többcímke mód használata.
- A Képzési adatkészlet, adja meg a kurált edzési adatkészlet helyét az Amazon S3-on.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Az ügyfél által biztosított tesztadatkészlet és adja meg a kurált tesztadatok helyét az Amazon S3-on.
- A Kimeneti adatok, adja meg az Amazon S3 helyét.
- A IAM szerepkörválassza Hozzon létre egy IAM-szerepet, adja meg a név utótagját: „comprehend-blog”.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt az egyéni osztályozási modell képzésének és modellalkotásának elindításához.
A következő képernyőképen az egyéni besorolási modell részletei láthatók az Amazon Comprehend konzolon.
Hangolás a modell teljesítményére
A következő képernyőképen a modell teljesítménymutatói láthatók. Olyan kulcsfontosságú mutatókat tartalmaz, mint a pontosság, a visszahívás, az F1 pontszám, a pontosság és még sok más.
A modell betanítása és létrehozása után létrehozza az output.tar.gz fájlt, amely tartalmazza az adatkészlet címkéit, valamint az egyes címkék összekeverési mátrixát. A modell előrejelzési teljesítményének további hangolásához meg kell értenie a modellt az egyes osztályokhoz tartozó előrejelzési valószínűségekkel. Ehhez létre kell hoznia egy elemzési feladatot, amely azonosítja az Amazon Comprehend által az egyes adatpontokhoz rendelt pontszámokat.
Az elemzési feladat létrehozásához hajtsa végre a következő lépéseket:
- Az Amazon Comprehend konzolon válassza a lehetőséget Elemző munkák a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állás létrehozása.
- A Név, belép
toxic_train_data_analysis_job
. - A Elemzés típusa, választ Egyedi besorolás.
- A Osztályozási modellek és lendkerekek, adja meg
toxic-classification-model
. - A Változat, adja meg az 1.
- A Bemeneti adatok S3 helye, adja meg a kurált edzési adatfájl helyét.
- A Bemeneti formátum, választ Soronként egy dokumentum.
- A Kimeneti adatok S3 helye, adja meg a helyet.
- A Hozzáférési engedélyekválassza Használjon meglévő IAM-szerepet és válassza ki a korábban létrehozott szerepet.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állás létrehozása az elemzési munka megkezdéséhez.
- Válassza ki a Elemző munkák a munka részleteinek megtekintéséhez. Kérjük, jegyezze fel az állásazonosítót a Munka részletei alatt. A következő lépésben a munkaazonosítót fogjuk használni.
Ismételje meg a lépéseket az elemzési feladat elindításához a kurált tesztadatokhoz. Az elemzési munkák előrejelzési kimeneteit használjuk fel, hogy megismerjük modellünk előrejelzési valószínűségeit. Kérjük, vegye figyelembe a képzési és tesztelemzési munkák munkaazonosítóit.
Az általunk használt Model-Threshold-Analysis.ipynb notebook a kimenetek teszteléséhez az összes lehetséges küszöbértéken, és a kimenetet az előrejelzési valószínűség alapján pontozza a scikit-learn segítségével precision_recall_curve
funkció. Ezenkívül minden küszöbértéknél kiszámíthatjuk az F1 pontszámot.
Szükségünk lesz az Amazon Comprehend elemzési feladat azonosítójára bemenetként Modell-küszöb-elemzés jegyzetfüzet. A munkaazonosítókat az Amazon Comprehend konzolról szerezheti be. Hajtsa végre az összes lépést Modell-küszöb-elemzés jegyzetfüzet, hogy betartsa a küszöbértékeket az összes osztály számára.
Figyelje meg, hogyan növekszik a pontosság a küszöbérték emelkedésével, míg a fordítottja a visszahívással történik. A kettő közötti egyensúly megtalálásához az F1 pontszámot használjuk, ahol látható csúcsok vannak a görbéjükben. Az F1 pontszám csúcsai egy adott küszöbértéknek felelnek meg, amely javíthatja a modell teljesítményét. Figyelje meg, hogy a legtöbb címke a küszöbérték 0.5-ös jele köré esik, kivéve a fenyegetéscímkét, amelynek a küszöbértéke 0.04 körül van.
Ezután használhatjuk ezt a küszöböt bizonyos címkék esetén, amelyek alulteljesítenek az alapértelmezett 0.5-ös küszöb mellett. Az optimalizált küszöbértékek használatával a modell tesztadatokon elért eredményei 0.00-ról 0.24-re javulnak a címkefenyegetésre. A küszöbértéknél elért maximális F1-pontszámot használjuk viszonyítási alapként, hogy meghatározzuk az adott címke pozitív és negatív értékét, ahelyett, hogy az összes címke esetében egy közös viszonyítási érték (például > 0.7) lenne.
Alulreprezentált osztályok kezelése
Egy másik, kiegyensúlyozatlan adatkészlet esetén hatékony megközelítés az oversampling. Az alulreprezentált osztály túlmintázásával a modell gyakrabban látja az alulreprezentált osztályt, és hangsúlyozza ezen minták fontosságát. Használjuk a Túlmintavétel-alulreprezentált.ipynb notebook az adatkészletek optimalizálásához.
Ennél az adatkészletnél teszteltük, hogyan változik a modell teljesítménye az értékelési adatkészleten, ahogy több mintát adunk. A túlmintavételezési technikát alkalmazzuk az alulreprezentált osztályok előfordulásának növelésére a teljesítmény javítása érdekében.
Ebben a konkrét esetben 10, 25, 50, 100, 200 és 500 pozitív példán teszteltünk. Figyeljük meg, hogy bár az adatpontokat ismételjük, az alulreprezentált osztály fontosságának hangsúlyozásával eredendően javítjuk a modell teljesítményét.
Költség
Az Amazon Comprehend szolgáltatással a feldolgozott szövegkarakterek száma alapján fizet. Hivatkozni Amazon Comprehend árképzés tényleges költségekre.
Tisztítsuk meg
Ha befejezte a megoldással való kísérletezést, tisztítsa meg az erőforrásokat az ebben a példában telepített összes erőforrás törléséhez. Ez segít elkerülni a folyamatos költségeket a fiókjában.
Következtetés
Ebben a bejegyzésben bevált gyakorlatokat és útmutatást adunk az adatok előkészítéséhez, a modellhangoláshoz az előrejelzési valószínűségek használatával és az alulreprezentált adatosztályok kezelésére szolgáló technikákkal. Ezeket a bevált módszereket és technikákat használhatja az Amazon Comprehend egyéni besorolási modell teljesítménymutatóinak javítására.
Az Amazon Comprehend szolgáltatással kapcsolatos további információkért látogasson el a webhelyre Amazon Comprehend fejlesztői erőforrások videoforrások és blogbejegyzések megtalálásához, és hivatkozásra Az AWS megérti a GYIK-et.
A szerzőkről
Sathya Balakrishnan idősebb ügyfélszállítási építész az AWS professzionális szolgáltatások csapatában, adat- és ML-megoldásokra szakosodott. Amerikai szövetségi pénzügyi ügyfelekkel dolgozik. Szenvedélyesen törekszik a pragmatikus megoldások kidolgozására az ügyfelek üzleti problémáinak megoldására. Szabadidejében szeret filmeket nézni és kirándulni a családjával.
Mallari herceg az AWS professzionális szolgáltatások csapatának NLP adatkutatója, az NLP közszféra ügyfelek számára történő alkalmazásaira szakosodott. Szenvedélyesen használja az ML-t olyan eszközként, amely lehetővé teszi az ügyfelek számára, hogy termelékenyebbek legyenek. Szabadidejében szívesen játszik videojátékokkal és fejleszt egyet a barátaival.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/
- :van
- :is
- :ahol
- $ UP
- 1
- 10
- 100
- 200
- 24
- 25
- 50
- 500
- 7
- 9
- a
- Rólunk
- elfogadja
- Fiók
- pontosság
- át
- tényleges
- Ezen kívül
- Örökbefogadás
- fejlesztések
- AI
- AI / ML
- Minden termék
- lehetővé
- Is
- Bár
- amazon
- Amazon Comprehend
- Amazon SageMaker
- Az Amazon Web Services
- an
- elemzés
- és a
- bármilyen
- alkalmazások
- Az NLP alkalmazásai
- megközelítés
- VANNAK
- körül
- AS
- Eszközök
- kijelölt
- At
- elkerülése érdekében
- AWS
- Egyenleg
- alapján
- BE
- mert
- válik
- előtt
- benchmark
- Előnyök
- BEST
- legjobb gyakorlatok
- között
- előítélet
- Blog
- Blogbejegyzések
- épít
- Épület
- üzleti
- by
- hívott
- TUD
- Kaphat
- eset
- Változások
- karakter
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- osztály
- osztályok
- besorolás
- ügyfél részére
- megjegyzés
- Közös
- teljes
- megért
- Kiszámít
- konfigurálva
- zavar
- Konzol
- tartalmaz
- folyamatos
- megtérít
- kiadások
- teremt
- készítette
- teremtés
- a válogatott
- curation
- görbe
- szokás
- vevő
- Ügyfelek
- dátum
- adat pontok
- Adatok előkészítése
- adattudós
- adatkészletek
- foglalkozó
- mély
- alapértelmezett
- kézbesítés
- bizonyítani
- telepített
- részletek
- Határozzuk meg
- Fejlesztő
- fejlesztése
- terjesztés
- do
- dokumentum
- ne
- letöltés
- alatt
- minden
- könnyebb
- Hatékony
- erőfeszítés
- hangsúlyozza
- hangsúlyozva
- belép
- Vállalkozás
- értékelés
- példa
- példák
- Kivéve
- kivégez
- létező
- elvárja
- Magyarázza
- f1
- Esik
- család
- Szövetségi
- filé
- Fájlok
- Végül
- pénzügyi
- Találjon
- következő
- A
- barátok
- ból ből
- Tele
- funkció
- további
- Games
- generál
- kap
- Go
- Goes
- Kormány
- útmutatást
- útmutató
- irányelvek
- fogantyú
- Legyen
- tekintettel
- he
- segít
- övé
- Hogyan
- How To
- azonban
- HTML
- http
- HTTPS
- ID
- azonosítani
- ids
- fontosság
- javul
- javuló
- in
- magában foglalja a
- Beleértve
- Növelje
- <p></p>
- információ
- eredendően
- bemenet
- meglátások
- példa
- helyette
- utasítás
- Intelligencia
- bele
- bevezet
- IT
- Munka
- Állások
- éppen
- Kulcs
- Címke
- Címkék
- nyelv
- nagyarányú
- TANUL
- tanulás
- legkevésbé
- kevesebb
- mint
- LIMIT
- elhelyezkedés
- gép
- gépi tanulás
- csinál
- vezetés
- jel
- Mátrix
- max
- maximális
- Találkozik
- Menü
- metrikus
- Metrics
- esetleg
- minimális
- minimum
- ML
- modell
- modellek
- több
- a legtöbb
- Filmek
- kell
- név
- Természetes
- Természetes nyelvi feldolgozás
- Navigáció
- Szükség
- negatív
- Új
- következő
- NLP
- jegyzetfüzet
- Értesítés..
- szám
- megfigyelni
- esemény
- of
- gyakran
- on
- ONE
- csak
- optimalizálás
- Optimalizálja
- optimalizált
- optimalizálása
- szervezetek
- mi
- teljesítmény
- üvegtábla
- különös
- szenvedélyes
- Fizet
- mert
- teljesítmény
- vedd
- cső
- Plató
- Platón adatintelligencia
- PlatoData
- játék
- kérem
- pont
- pont
- pozitív
- lehetséges
- állás
- Hozzászólások
- gyakorlat
- pragmatikus
- Pontosság
- előrejelzés
- előkészítés
- Készít
- ajándékot
- korábban
- problémák
- Feldolgozott
- feldolgozás
- termelő
- szakmai
- megfelelő
- ad
- feltéve,
- nyilvános
- világítás
- véletlen
- hányados
- Nyers
- észre
- utal
- kötelező
- Tudástár
- Eredmények
- Szerep
- sagemaker
- Tudós
- pontszám
- szektor
- lát
- látott
- lát
- szolgál
- Szolgáltatások
- számos
- kellene
- Műsorok
- Egyszerű
- Puha
- megoldások
- Megoldások
- SOLVE
- néhány
- szakosodott
- különleges
- osztott
- standard
- kezdet
- kezdődött
- Lépés
- Lépései
- tárolás
- memorizált
- ilyen
- Vesz
- csapat
- technika
- technikák
- terminál
- teszt
- kipróbált
- szöveg
- mint
- hogy
- A
- azok
- akkor
- Ezek
- ők
- ezt
- azok
- fenyegetés
- három
- küszöb
- Keresztül
- idő
- nak nek
- szerszám
- Végösszeg
- kiképzett
- Képzések
- kettő
- alatt
- alulreprezentált
- megért
- us
- Amerikai szövetségi
- használ
- barátságos felhasználói
- segítségével
- érték
- videó
- videojátékok
- Megnézem
- látható
- Látogat
- vs
- őrzés
- we
- háló
- webes szolgáltatások
- JÓL
- amikor
- ami
- míg
- széles körben elterjedt
- lesz
- ablak
- val vel
- nélkül
- művek
- te
- A te
- zephyrnet
- Postai irányítószám