Create High-quality Data For ML Models With Amazon SageMaker Ground Truth

Újra kiadta Platón

Követő: 0

A gépi tanulás (ML) az elmúlt években az összes iparágban javította az üzletmenetet – az Ön ajánlási rendszerétől kezdve Prime Video fiók, hogy dokumentálja az összegzést és a hatékony keresést Alexahangsegélye. A kérdés azonban továbbra is fennáll, hogyan építheti be ezt a technológiát a vállalkozásába. A hagyományos szabályalapú módszerektől eltérően az ML automatikusan kikövetkezteti a mintákat az adatokból, hogy elvégezze az Ön érdeklődését. Bár ez megkerüli az automatizálási szabályok összeállításának szükségességét, ez azt is jelenti, hogy az ML-modellek csak olyan jók lehetnek, mint amennyire képezik őket. Az adatok létrehozása azonban gyakran kihívást jelent. A Amazon Machine Learning Solutions Lab, többször találkoztunk ezzel a problémával, és szeretnénk megkönnyíteni ügyfeleink útját. Ha le szeretné tölteni ezt a folyamatot, használhatja Amazon SageMaker Ground Truth Plus.

A bejegyzés végére a következőket érheti el:

Ismerje meg az adatgyűjtési folyamat létrehozásához szükséges üzleti folyamatokat
Azonosítsa az AWS felhőszolgáltatásokat az adatcímkézési folyamat támogatásához és felgyorsításához
Futtasson adatgyűjtési és címkézési feladatot egyéni felhasználási esetekhez
Hozzon létre kiváló minőségű adatokat a legjobb üzleti és műszaki gyakorlatok alapján

Ebben a bejegyzésben az adatok létrehozásának folyamatára összpontosítunk, és az AWS-szolgáltatásokra hagyatkozunk az infrastruktúra és a folyamatelemek kezelésében. Mégpedig használjuk Amazon SageMaker Ground Truth a címkézési infrastruktúra csővezetékének és felhasználói felületének kezelésére. Ez a szolgáltatás „point-and-go” megközelítést használ az adatok gyűjtésére Amazon egyszerű tárolási szolgáltatás (Amazon S3), és állítson be egy címkézési munkafolyamatot. A címkézéshez beépített rugalmasságot biztosít az adatcímkék beszerzéséhez privát csapata segítségével Amazon Mechanical Turk erő, vagy az Ön által preferált címkézési szállítótól AWS piactér. Végül használhatod AWS Lambda és a Amazon SageMaker notebookok az adatok feldolgozására, megjelenítésére vagy minőségellenőrzésére – akár címkézés előtti, akár utólagos.

Most, hogy az összes darabot leraktuk, kezdjük el a folyamatot!

Az adatalkotás folyamata

Az általános megérzésekkel ellentétben az adatalkotás első lépése nem az adatgyűjtés. Kulcsfontosságú, hogy a felhasználók visszafelé dolgozzanak a probléma megfogalmazásában. Például mit érdekelnek a felhasználók a végső műtermékben? A szakértők szerint hol találhatók az adatokban a használati esetre vonatkozó jelzések? Milyen információkat lehet megadni a használati eset környezetéről a modellezéshez? Ha nem tudja a választ ezekre a kérdésekre, ne aggódjon. Adjon magának egy kis időt a felhasználókkal és a területi szakértőkkel való beszélgetésre, hogy megértse az árnyalatokat. Ez a kezdeti megértés a megfelelő irányba tereli el Önt, és felkészít a sikerre.

Ebben a bejegyzésben feltételezzük, hogy lefedte a felhasználói követelmények meghatározásának kezdeti folyamatát. A következő három rész végigvezeti a minőségi adatok létrehozásának következő folyamatán: tervezés, forrásadatok létrehozása és adatfeljegyzés. Az adatlétrehozási és annotálási lépések kísérleti ciklusai létfontosságúak a címkézett adatok hatékony létrehozásához. Ez magában foglalja az adatlétrehozás, az annotáció, a minőségbiztosítás és a folyamat szükség szerinti frissítése közötti iterációt.

A következő ábra áttekintést nyújt a tipikus adatlétrehozási folyamat során szükséges lépésekről. A használati esettől visszafelé haladva azonosíthatja a szükséges adatokat (Követelményspecifikáció), létrehozhat egy folyamatot az adatok beszerzéséhez (Tervezés), végrehajthatja a tényleges adatgyűjtési folyamatot (Adatgyűjtés és megjegyzések), és értékelheti az eredményeket. A szaggatott vonalakkal kiemelt kísérleti futtatások lehetővé teszik a folyamat ismétlését mindaddig, amíg egy jó minőségű adatgyűjtési folyamatot ki nem fejlesztettek.

A tipikus adatlétrehozási folyamat során szükséges lépések áttekintése.

Tervezés

Egy szabványos adatkészítési folyamat időigényes és értékes emberi erőforrások pazarlása lehet, ha nem hatékonyan hajtják végre. Miért lenne időigényes? A kérdés megválaszolásához meg kell értenünk az adatalkotási folyamat hatókörét. Segítségül összegyűjtöttünk egy magas szintű ellenőrzőlistát és leírást azokról a kulcsfontosságú összetevőkről és érdekelt felekről, amelyeket figyelembe kell vennie. E kérdések megválaszolása eleinte nehéz lehet. A használati esettől függően ezek közül csak néhány alkalmazható.

Határozza meg a jogi kapcsolattartó pontot a szükséges jóváhagyásokhoz – Az adatok alkalmazásához való felhasználása licenc- vagy szállítói szerződés felülvizsgálatát teheti szükségessé a vállalati szabályzatoknak és használati eseteknek való megfelelés biztosítása érdekében. Fontos, hogy a folyamat adatgyűjtési és annotálási lépései során azonosítsa jogi támogatását.
Határozza meg az adatkezelés biztonsági kapcsolattartó pontját – A vásárolt adatok kiszivárgása komoly pénzbírsággal és következményekkel járhat az Ön cégére nézve. A biztonságos gyakorlatok biztosítása érdekében fontos, hogy az adatgyűjtési és annotálási lépések során azonosítsa a biztonsági támogatást.
Részletezze a használati esetekre vonatkozó követelményeket, és határozza meg a forrásadatokat és a megjegyzésekkel kapcsolatos irányelveket – Az adatok létrehozása és annotálása nehézkes a nagy specifitás miatt. Az érdekelt feleknek, beleértve az adatgenerátorokat és a jegyzetelőket is, teljesen össze kell hangolniuk az erőforrások pazarlásának elkerülése érdekében. Ebből a célból bevett gyakorlat olyan útmutató dokumentum használata, amely meghatározza a megjegyzési feladat minden aspektusát: pontos utasításokat, szélső eseteket, példa-áttekintést és így tovább.
Állítsa be a forrásadatok gyűjtésével kapcsolatos elvárásokat - Tekintsük a következő:
- Végezzen kutatást a lehetséges adatforrásokról – Például nyilvános adatkészletek, meglévő adatkészletek más belső csapatoktól, saját gyűjtésű vagy szállítóktól vásárolt adatok.
- Minőségértékelés elvégzése – Hozzon létre egy elemzési folyamatot a végső felhasználási esethez képest.
Állítsa be az adatfeljegyzések létrehozásával kapcsolatos elvárásokat - Tekintsük a következő:
- Azonosítsa a technikai érdekelt feleket – Ez általában egy személy vagy csapat az Ön cégében, aki képes a Ground Truth műszaki dokumentációját felhasználni egy annotációs folyamat megvalósításához. Ezek az érdekelt felek felelősek a megjegyzésekkel ellátott adatok minőségi értékeléséért is, hogy megbizonyosodjanak arról, hogy azok megfelelnek az Ön downstream ML-alkalmazásának igényeinek.
- Azonosítsa az adatjegyzőket – Ezek a személyek előre meghatározott utasításokat használnak a Ground Truth-on belüli forrásadatok címkézésére. Előfordulhat, hogy a használati esettől és a megjegyzésekkel kapcsolatos irányelvektől függően domain ismeretekkel kell rendelkezniük. Használhat vállalaton belüli munkaerőt, vagy fizethet a külső szállító által irányított munkaerő.
Biztosítsa az adatalkotási folyamat felügyeletét – Ahogy az előző pontokból is látható, az adatkészítés egy részletes folyamat, amelybe számos speciális érdekelt fél bevonásával kerül sor. Ezért kulcsfontosságú, hogy a végétől a végéig figyelemmel kísérjük a kívánt eredmény felé. Ha egy dedikált személy vagy csapat felügyeli a folyamatot, az elősegítheti az összefüggő, hatékony adatkészítési folyamatot.

Attól függően, hogy melyik útvonalat választja, a következőket is figyelembe kell vennie:

Hozza létre a forrásadatkészletet – Ez azokra az esetekre vonatkozik, amikor a meglévő adatok nem alkalmasak az adott feladatra, vagy jogi korlátok akadályozzák azok felhasználását. Belső csapatokat vagy külső szállítókat (következő pont) kell használni. Ez gyakran a magasan specializálódott területekre vagy olyan területekre vonatkozik, ahol alacsony az állami kutatás. Például egy orvos gyakori kérdései, ruhafekvés vagy sportszakértők. Lehet belső vagy külső.
Keresse fel a szállítókat, és hajtson végre bevezetési folyamatot – Külső szállítók használata esetén szerződéskötési és beépítési folyamatot kell beállítani mindkét entitás között.

Ebben a részben áttekintettük azokat az összetevőket és érdekelt feleket, amelyeket figyelembe kell vennünk. De hogyan néz ki a tényleges folyamat? A következő ábrán egy folyamat munkafolyamatot vázolunk fel az adatok létrehozásához és megjegyzésekhez. Az iteratív megközelítés kis adatkötegeket használ, amelyeket pilotnak neveznek, hogy csökkentsék az átfutási időt, korán észleljék a hibákat, és elkerüljék az erőforrások pazarlását az alacsony minőségű adatok létrehozása során. Ebben a bejegyzésben később ismertetjük ezeket a kísérleti köröket. Kitérünk néhány bevált gyakorlatra is az adatlétrehozás, a kommentárok és a minőségellenőrzés terén.

A következő ábra egy adatlétrehozási folyamat iteratív fejlesztését szemlélteti. Függőlegesen az adatforrás blokkot (zöld) és a megjegyzésblokkot (kék) találjuk. Mindkét blokknak van független kísérleti köre (Adatlétrehozás/Annotáció, QAQC és Frissítés). Egyre magasabb forrásból származó adatok jönnek létre, és egyre jobb minőségű annotációk készítésére használhatók fel.

Az adatlétrehozó vagy annotációs folyamat iteratív fejlesztése során kis mennyiségű adatot használnak fel a független pilotokhoz. Minden kísérleti körnek van egy adatkészítési vagy annotálási fázisa, az eredmények bizonyos minőségbiztosítása és minőségellenőrzése, valamint egy frissítési lépés a folyamat finomításához. Miután ezeket a folyamatokat az egymást követő kísérletek során finomították, folytathatja a nagyszabású adatlétrehozást és annotálást.

Áttekintés az iteratív fejlesztésről egy adatlétrehozási folyamatban.

Forrás adatok létrehozása

A bemenet létrehozási folyamata az érdeklődésre számot tartó elemek elhelyezése körül forog, amelyek a feladat típusától függenek. Ezek lehetnek képek (újságszkennelések), videók (forgalmi jelenetek), 3D pontfelhők (orvosi vizsgálatok), vagy egyszerűen szöveg (feliratsávok, átiratok). Általánosságban elmondható, hogy a feladattal kapcsolatos tételek rendezésekor ügyeljen a következőkre:

Az esetleges AI/ML rendszer valós használati esetét tükrözi – Az edzési adatokhoz szükséges képek vagy videók összegyűjtésének beállításának meg kell egyeznie a valós alkalmazás bemeneti adatainak beállításával. Ez azt jelenti, hogy egyenletes elhelyezési felületeket, fényforrásokat vagy kameraállásokat kell biztosítani.
Vegye figyelembe és minimalizálja a változékonysági forrásokat - Tekintsük a következő:
- Az adatgyűjtési szabványok fenntartására vonatkozó legjobb gyakorlatok kidolgozása – A használati eset részletességétől függően előfordulhat, hogy követelményeket kell megadnia az adatpontok közötti konzisztencia garantálása érdekében. Például, ha egyetlen kamerapontról gyűjt kép- vagy videóadatokat, akkor előfordulhat, hogy meg kell győződnie az érdeklődésre számot tartó objektumok következetes elhelyezéséről, vagy meg kell kérnie a kamera minőségellenőrzését az adatrögzítési kör előtt. Ezzel elkerülhetők az olyan problémák, mint a kamera megdöntése vagy elmosódása, és minimalizálható az olyan többletköltség, mint a kereten kívüli vagy elmosódott képek eltávolítása, valamint a képkeret manuális középre állítása az érdeklődési területre.
- Előzze meg a variabilitás tesztidő-forrásait – Ha az eddig említett attribútumok bármelyikében változékonyságra számít a tesztidő alatt, győződjön meg arról, hogy ezeket a változatossági forrásokat rögzíteni tudja a betanítási adatok létrehozása során. Például, ha arra számít, hogy az ML-alkalmazása többféle fénybeállítás mellett is működni fog, akkor különböző fénybeállításokon kell képzési képeket és videókat készítenie. A felhasználási esettől függően a kamera elhelyezésének változékonysága is befolyásolhatja a címkék minőségét.
Ha rendelkezésre áll, építse be a korábbi domain ismereteket - Tekintsük a következő:
- Bemenetek a hibaforrásokról – A tartományi szakemberek több éves tapasztalatuk alapján betekintést nyújthatnak a hibaforrásokba. Visszajelzést adhatnak az előző két pont bevált gyakorlatairól: Mely beállítások tükrözik legjobban a valós használati esetet? Melyek a változékonyság lehetséges forrásai az adatgyűjtés során vagy a felhasználáskor?
- Domainspecifikus adatgyűjtési bevált módszerek – Bár a technikai érdekelt feleknek már jó elképzelésük lehet arról, hogy az összegyűjtött képekben vagy videókban milyen technikai szempontokra kell összpontosítani, a tartományi szakemberek visszajelzést adhatnak arról, hogyan lehet a legjobban színre vinni vagy összegyűjteni az adatokat úgy, hogy ezek az igények kielégíthetők legyenek.

A létrehozott adatok minőségellenőrzése és minőségbiztosítása

Most, hogy beállította az adatgyűjtési folyamatot, csábító lehet, hogy a lehető legtöbb adatot összegyűjtse. Várj egy percet! Először ellenőriznünk kell, hogy a beállítás során gyűjtött adatok alkalmasak-e az Ön valós szóhasználati esetére. Használhatunk néhány kezdeti mintát, és iteratív módon javíthatjuk a beállítást a mintaadatok elemzéséből nyert betekintések révén. A kísérleti folyamat során szorosan működjön együtt műszaki, üzleti és annotációs érdekelt feleivel. Ez biztosítja, hogy az eredményül kapott folyamat megfeleljen az üzleti igényeknek, miközben minimális általános költségek mellett ML-kész címkézett adatokat generál.

Magyarázatok

A bemenetek annotációja az, ahol adjuk a varázslatos érintést adatainknak – a címkéknek! A feladat típusától és az adatlétrehozási folyamattól függően előfordulhat, hogy kézi jegyzőkre lesz szüksége, vagy használhat készen lévő automatizált módszereket. Maga az adatfeliratozási folyamat technikailag kihívást jelentő feladat lehet. A Ground Truth megkönnyíti ezt az utat a műszaki érdekelt felek számára a címkézési munkafolyamatok beépített repertoárja a közös adatforrásokhoz. Néhány további lépéssel az építkezést is lehetővé teszi egyedi címkézési munkafolyamatok az előre konfigurált opciókon túl.

Tegye fel magának a következő kérdéseket, amikor megfelelő annotációs munkafolyamatot dolgoz ki:

Szükségem van az adataimhoz manuális annotálási folyamatra? Egyes esetekben az automatizált címkézési szolgáltatások elegendőek lehetnek az adott feladathoz. A dokumentáció és a rendelkezésre álló eszközök áttekintése segíthet megállapítani, hogy szükség van-e kézi megjegyzésekre az Ön használati esetére (további információkért lásd: Mi az adatcímkézés?). Az adatlétrehozási folyamat különböző szintű szabályozást tesz lehetővé az adatfeljegyzések részletessége tekintetében. Ettől a folyamattól függően néha megkerülheti a kézi megjegyzések szükségességét. További információkért lásd: Az Amazon SageMaker Ground Truth segítségével készítsen egyedi kérdezz-felelet adatkészletet, hogy megtanítsa az ölelkező arcra vonatkozó Q&A NLU modellt.
Mi alkotja alapigazságomat? Az esetek többségében az alapigazság az annotálási folyamatból származik – ez az egész lényeg! Más esetekben a felhasználó hozzáférhet az alapigazság címkéihez. Ez jelentősen felgyorsíthatja a minőségbiztosítási folyamatot, vagy csökkentheti a több kézi megjegyzéshez szükséges többletköltséget.
Mi az alapigazság állapotomtól való eltérés mértékének felső korlátja? Együttműködjön a végfelhasználóival, hogy megértse az e címkék körüli tipikus hibákat, az ilyen hibák forrásait és a hibák kívánt csökkentését. Ez segít azonosítani, hogy a címkézési feladat mely aspektusai jelentenek legnagyobb kihívást, vagy amelyekben valószínűleg vannak megjegyzéshibák.
Léteznek-e már létező szabályok a felhasználók vagy a gyakorlati szakemberek által ezeknek az elemeknek a címkézésére? Használja és finomítsa ezeket az irányelveket, hogy útmutatást készítsen a kézi jegyzők számára.

A bemeneti annotáció folyamatának kísérlete

A beviteli annotáció folyamatának tesztelésekor vegye figyelembe a következőket:

Tekintse át az utasításokat az annotátorokkal és gyakorlati szakemberekkel – Az utasításoknak tömörnek és konkrétnak kell lenniük. Kérjen visszajelzést a felhasználóktól (pontosak az utasítások? Áttekinthetünk-e bármilyen utasítást, hogy megbizonyosodjunk arról, hogy a nem gyakorlati szakemberek is érthetőek?) és a kommentátoroktól (Minden érthető? Világos a feladat?). Ha lehetséges, adjon hozzá példát a jó és rossz címkézésű adatokra, hogy segítsen a jegyzőknek megállapítani, hogy mi várható, és hogyan nézhetnek ki a gyakori címkézési hibák.
Gyűjtsön adatokat a megjegyzésekhez – Tekintse át az adatokat ügyfelével, hogy megbizonyosodjon arról, hogy azok megfelelnek-e az elvárt szabványoknak, és hogy igazodjanak a kézi megjegyzések várható eredményeihez.
Példákat adjon a kézi jegyzők készletéhez próbaüzemként – Mekkora a tipikus eltérés az annotátorok között ebben a példasorozatban? Tanulmányozza az egyes megjegyzések eltérését egy adott képen belül, hogy azonosítsa az annotátorok közötti konzisztencia-trendeket. Ezután hasonlítsa össze a képek vagy videokockák eltéréseit, hogy azonosítsa, mely címkék elhelyezése nehéz.

A megjegyzések minőségellenőrzése

Az annotáció minőségének ellenőrzése két fő összetevőből áll: az annotátorok közötti konzisztencia értékelése, valamint maguknak a megjegyzések minőségének felmérése.

Több annotátort is hozzárendelhet ugyanahhoz a feladathoz (például három jegyző jelöli meg ugyanazon a képen a kulcspontokat), és mérheti az átlagértéket a címkék szórása mellett az annotátorok között. Ez segít azonosítani a kiugró megjegyzéseket (helytelenül használt vagy az átlagos kommentártól távol eső címke), amelyek irányíthatóak lehetnek a végrehajtható eredményekhez, például az utasítások finomításához vagy bizonyos magyarázók további képzéséhez.

Maguk az annotációk minőségének értékelése az annotátor változékonyságától és (ha elérhető) a tartományszakértők vagy az alapigazság információinak elérhetőségétől függ. Vannak bizonyos címkék (az összes képen), ahol az annotátorok közötti átlagos szórás állandóan magas? Vannak olyan címkék, amelyek távol állnak az elvárásaitól, hogy hol legyenek, vagy hogyan nézzenek ki?

Tapasztalataink alapján az adatfeljegyzések tipikus minőségellenőrzési köre így nézhet ki:

Ismételje meg az utasításokat vagy állítsa be a képeket a tesztfutás eredményei alapján – Vannak-e tárgyak elzárva, vagy a képbeállítás nem felel meg az annotátorok vagy felhasználók elvárásainak? Félrevezetőek az utasítások, vagy kihagyott néhány címkét vagy gyakori hibát a példaképeiről? Finomítani tudnád az annotátorok utasításait?
Ha meggyőződött arról, hogy a tesztfutás során felmerülő problémákat megoldotta, készítsen egy csomó megjegyzést – A köteg eredményeinek teszteléséhez kövesse ugyanazt a minőségértékelési megközelítést, amely a jegyzetek és a képek közötti címkék közötti eltéréseket értékeli.

Következtetés

Ez a bejegyzés útmutatóként szolgál az üzleti érdekelt felek számára, hogy megértsék az AI/ML-alkalmazásokhoz szükséges adatok létrehozásának bonyolultságát. A leírt folyamatok útmutatóként is szolgálnak a műszaki szakemberek számára, hogy minőségi adatokat állítsanak elő, miközben optimalizálják az üzleti korlátokat, például a személyzetet és a költségeket. Ha nem sikerül jól, az adatlétrehozási és címkézési folyamat akár 4-6 hónapig is eltarthat.

Az ebben a bejegyzésben ismertetett iránymutatásokkal és javaslatokkal megelőzheti az akadályokat, csökkentheti a befejezéshez szükséges időt, és minimalizálhatja a költségeket a jó minőségű adatok létrehozásához vezető úton.

A szerzőkről

Jasleen Grewal az Amazon Web Services alkalmazott tudósa, ahol az AWS-ügyfelekkel dolgozik, hogy valós problémákat oldjanak meg gépi tanulás segítségével, különös tekintettel a precíziós orvostudományra és a genomikára. Erős bioinformatikai, onkológiai és klinikai genomika múlttal rendelkezik. Szenvedélyesen használja az AI/ML és a felhőszolgáltatásokat a betegellátás javítása érdekében.

Borisz Aroncsik menedzser az Amazon AI Machine Learning Solutions Labnál, ahol ML tudósokból és mérnökökből álló csapatot vezet, hogy segítse az AWS ügyfeleit az AI/ML megoldások felhasználásával megvalósítani üzleti céljaikat.

Miguel Romero Calvo Alkalmazott tudósként dolgozik a Amazon ML Solutions Lab ahol együttműködik az AWS belső csapataival és stratégiai ügyfelekkel, hogy felgyorsítsa üzletüket az ML és a felhő bevezetésével.

Lin Lee Cheong az Amazon Web Services Amazon ML Solutions Lab csapatának vezető tudósa és menedzsere. Stratégiai AWS-ügyfeleivel dolgozik a mesterséges intelligencia és a gépi tanulás felfedezése és alkalmazása érdekében, hogy új felismeréseket fedezzen fel és összetett problémákat oldjon meg.

Időbélyeg: Október 3, 2022Október 3, 2022

Időbélyeg: 17. november 2022.

Hozzon létre kiváló minőségű adatokat az ML modellekhez az Amazon SageMaker Ground Truth segítségével

Újra kiadta Platón

Az adatalkotás folyamata

Tervezés

Forrás adatok létrehozása

A létrehozott adatok minőségellenőrzése és minőségbiztosítása

Magyarázatok

A bemeneti annotáció folyamatának kísérlete

A megjegyzések minőségellenőrzése

Következtetés

A szerzőkről

Még több AWS gépi tanulás

Az Amazon SageMaker JumpStart mostantól Amazon Comprehend notebookokat kínál az egyéni osztályozáshoz és az egyéni entitások észleléséhez

Élő ügynöki segítséget nyújthat chatbot-felhasználóinak az Amazon Lex és a Talkdesk felhőalapú kapcsolattartó központ segítségével | Amazon webszolgáltatások

Javítsa a keresési pontosságot az Amazon Kendra Helyesírás-ellenőrzőjével

Határozza meg az anomáliák helyét az Amazon Lookout for Vision segítségével, GPU használata nélkül

Nagyszabású funkciótervezés érzékeny adatvédelemmel az AWS Glue interaktív munkamenetek és az Amazon SageMaker Studio segítségével

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók