A globális pénzügyi válság óta a kockázatkezelés jelentős szerepet kapott a bankok döntéshozatalának alakításában, beleértve a potenciális ügyfelek hitelállapotának előrejelzését. Ez gyakran egy adatigényes gyakorlat, amely gépi tanulást (ML) igényel. Nem minden szervezet rendelkezik azonban az adattudományi erőforrásokkal és szakértelemmel a kockázatkezelési ML munkafolyamat létrehozásához.
Amazon SageMaker egy teljesen felügyelt ML platform, amely lehetővé teszi az adatmérnökök és üzleti elemzők számára, hogy gyorsan és egyszerűen építsenek, képezzenek és telepítsenek ML modelleket. Az adatmérnökök és az üzleti elemzők együttműködhetnek a SageMaker kód nélküli/alacsony kód nélküli képességeivel. Az adatmérnökök használhatják Amazon SageMaker Data Wrangler az adatok gyors összesítése és előkészítése a modellkészítéshez kódírás nélkül. Ezután az üzleti elemzők használhatják a vizuális point-and-click felületet Amazon SageMaker Canvas hogy önmagukban pontos ML előrejelzéseket generáljanak.
Ebben a bejegyzésben bemutatjuk, milyen egyszerű az adatmérnökök és az üzleti elemzők együttműködése egy olyan ML munkafolyamat felépítésében, amely magában foglalja az adatok előkészítését, modellépítését és kódírás nélküli következtetéseket.
Megoldás áttekintése
Bár az ML-fejlesztés összetett és ismétlődő folyamat, az ML-munkafolyamat általánosítható az adat-előkészítési, a modellfejlesztési és a modelltelepítési szakaszokra.
A Data Wrangler és a Canvas elvonatkoztatja az adat-előkészítés és a modellfejlesztés bonyolultságát, így Ön arra összpontosíthat, hogy értéket biztosítson vállalkozása számára azáltal, hogy betekintést nyer adataiból anélkül, hogy szakértője lenne a kódfejlesztésben. A következő architektúra diagram kiemeli a kód nélküli/alacsony kódú megoldás összetevőit.
Amazon egyszerű tárolási szolgáltatás (Amazon S3) a nyers adatok, a tervezett adatok és a modelltermékek adattárhelyeként működik. Kiválaszthatja az adatok importálását is Amazon RedShift, Amazon Athéné, Databricks és Snowflake.
Adattudósként a Data Wranglert használjuk feltáró adatelemzésre és funkciótervezésre. Bár a Canvas képes funkciótervezési feladatokat futtatni, a szolgáltatástervezés általában bizonyos statisztikai és tartományi ismereteket igényel, hogy az adatkészletet a modellfejlesztéshez megfelelő formába gazdagítsa. Ezért ezt a felelősséget az adatmérnökökre ruházzuk, hogy a Data Wranglerrel kódírás nélkül is átalakíthassák az adatokat.
Az adatok előkészítése után átadjuk a modellépítési feladatokat az adatelemzőknek, akik a Canvas segítségével kódírás nélkül betaníthatják a modellt.
Végül egyedi és kötegelt előrejelzéseket készítünk közvetlenül a Canvason belül az eredményül kapott modellből anélkül, hogy magunknak kellene telepítenünk a modell végpontjait.
Adatkészlet áttekintése
A SageMaker funkcióit használjuk a kölcsön állapotának előrejelzésére a Lending Club módosított verziójával nyilvánosan elérhető hitelelemzési adatkészlet. Az adatállomány a 2007–2011 között kibocsátott hitelek hiteladatait tartalmazza. A kölcsönt és a hitelfelvevőt leíró oszlopok a mi jellemzőink. A hitel_állapota oszlop a célváltozó, ezt próbáljuk megjósolni.
A Data Wranglerben való bemutatáshoz az adatkészletet két CSV-fájlra osztottuk: első rész és a második rész. A bemutató egyszerűsítése érdekében eltávolítottunk néhány oszlopot a Lending Club eredeti adatkészletéből. Adatkészletünk több mint 37,000 21 sort és XNUMX jellemzőoszlopot tartalmaz, amint azt a következő táblázat ismerteti.
Oszlop neve | Leírás |
loan_status |
A kölcsön jelenlegi állapota (célváltozó). |
loan_amount |
A hitelfelvevő által igényelt kölcsön felsorolt összege. Ha a hitelosztály csökkenti a kölcsön összegét, az megjelenik ebben az értékben. |
funded_amount_by_investors |
A befektetők által az adott hitelre akkor vállalt teljes összeg. |
term |
A kölcsön kifizetéseinek száma. Az értékek hónapban értendők, és lehetnek 36 vagy 60. |
interest_rate |
A kölcsön kamata. |
installment |
A kölcsönfelvevő havi törlesztőrészlete, ha a kölcsön keletkezik. |
grade |
LC hozzárendelt kölcsön fokozatot. |
sub_grade |
LC hozzárendelt kölcsön alosztályzat. |
employment_length |
Munkaviszony időtartama években. A lehetséges értékek 0 és 10 között vannak, ahol a 0 egy évnél rövidebb, a 10 pedig tíz vagy több évet jelent. |
home_ownership |
A kölcsönvevő által a regisztráció során megadott lakástulajdoni állapot. Értékeink: BÉRLET, SAJÁT, JELZÁLOG és EGYÉB. |
annual_income |
A kölcsönfelvevő által a regisztráció során megadott önbevallott éves bevétel. |
verification_status |
Azt jelzi, hogy a bevételt az LC igazolta-e vagy sem. |
issued_amount |
Az a hónap, amikor a kölcsönt finanszírozták. |
purpose |
A hitelfelvevő által a kölcsönigényléshez megadott kategória. |
dti |
A hitelfelvevő havi adósságtörlesztésének az összes adósságkötelezettségre (a jelzáloghitel és az igényelt LC-hitel nélkül) számított hányadosa, osztva a hitelfelvevő saját bevallott havi jövedelmével. |
earliest_credit_line |
Az a hónap, amikor a hitelfelvevő legkorábban bejelentett hitelkerete megnyílt. |
inquiries_last_6_months |
A megkeresések száma az elmúlt 6 hónapban (az autó- és jelzáloghitel-megkeresések nélkül). |
open_credit_lines |
A nyitott hitelkeretek száma a hitelfelvevő hitelfájljában. |
derogatory_public_records |
A becsmérlő nyilvános nyilvántartások száma. |
revolving_line_utilization_rate |
A rulírozó sor felhasználási aránya, vagy a hitelfelvevő által használt hitelösszeg az összes rendelkezésre álló rulírozó hitelhez viszonyítva. |
total_credit_lines |
A hitelfelvevő hitelfájljában jelenleg található hitelkeretek teljes száma. |
Ezt az adatkészletet adat-előkészítésünkhöz és modellképzésünkhöz használjuk.
Előfeltételek
Hajtsa végre a következő előfeltétel lépéseket:
- Töltse fel mindkét kölcsönfájlt az Ön által választott S3-as vödörhöz.
- Győződjön meg arról, hogy rendelkezik a szükséges engedélyekkel. További információkért lásd: Ismerkedjen meg a Data Wranglerrel.
- Állítson be egy SageMaker-tartományt, amely Data Wrangler használatára van konfigurálva. Az utasításokat lásd Bekapcsolva az Amazon SageMaker domainbe.
Importálja az adatokat
Hozzon létre egy új Data Wrangler adatfolyamot tól Amazon SageMaker Studio UI.
Importáljon adatokat az Amazon S3-ból úgy, hogy kiválasztja a CSV-fájlokat abból az S3-tárolóból, ahová az adatkészletet elhelyezte. Miután mindkét fájlt importálta, két külön munkafolyamatot láthat a fájlban Adatáramlás Kilátás.
Több mintavételi beállítás közül választhat az adatok Data Wrangler folyamatba való importálásakor. A mintavétel akkor segíthet, ha túl nagy adatkészlettel rendelkezik az interaktív előkészítéshez, vagy ha meg szeretné őrizni a ritka események arányát a mintavételezett adatkészletben. Mivel az adatkészletünk kicsi, nem használunk mintavételt.
Készítse elő az adatokat
A mi használati esetünkben két adatkészletünk van egy közös oszloppal: id
. Az adat-előkészítés első lépéseként ezeket a fájlokat egyesíteni kívánjuk egyesítve. Az utasításokat lásd Adatok átalakítása.
Az általunk használt Csatlakozik adatátalakítási lépést, és használja a Belső csatlakozás típusa a id
oszlop.
A csatlakozási átalakításunk eredményeként a Data Wrangler két további oszlopot hoz létre: id_0
és a id_1
. Ezek az oszlopok azonban szükségtelenek a modellépítéshez. Ezeket a redundáns oszlopokat a Oszlopok kezelése átalakulási lépés.
Importáltuk adatkészleteinket, egyesítettük őket, és eltávolítottuk a szükségtelen oszlopokat. Most már készen állunk arra, hogy bővítsük adatainkat a funkciótervezés révén, és felkészüljünk a modellépítésre.
Hajtsa végre a funkciótervezést
Az adatok elkészítéséhez Data Wranglert használtunk. Használhatja a Adatminőség és Insights jelentés funkció a Data Wrangleren belül, hogy ellenőrizze az adatok minőségét és észlelje az adatok rendellenességeit. Az adattudósoknak gyakran fel kell használniuk ezeket az adatok betekintést, hogy hatékonyan alkalmazzák a megfelelő tartományi ismereteket a mérnöki jellemzőkre. Ennél a bejegyzésnél feltételezzük, hogy elvégeztük ezeket a minőségértékeléseket, és továbbléphetünk a funkciók tervezésére.
Ebben a lépésben néhány átalakítást alkalmazunk a numerikus, kategorikus és szöveges oszlopokra.
Először normalizáljuk a kamatlábat, hogy az értékeket 0 és 1 között skálázzuk. Ezt a Numerikus folyamat átméretezni a interest_rate
oszlopban min-max skálázó segítségével. A normalizálás (vagy szabványosítás) célja a torzítás megszüntetése a modellünkből. A különböző skálákon mért változók nem járulnak hozzá egyformán a modelltanulási folyamathoz. Ezért egy olyan transzformációs függvény, mint a min-max skálázó transzformáció, segít normalizálni a jellemzőket.
Egy kategoriális változó numerikus értékké való konvertálásához one-hot kódolást használunk. Mi választjuk a Kategorikus kódolás átalakítani, majd választani Egyszeri kódolás. Az egyszeri kódolás javítja az ML-modell előrejelző képességét. Ez a folyamat egy kategorikus értéket új jellemzővé alakít át úgy, hogy 1 vagy 0 bináris értéket rendel a jellemzőhöz. Egyszerű példaként, ha van egy oszlopa, amely valamelyik értéket tartalmazza yes
or no
, a one-hot kódolás az oszlopot két oszlopra alakítja át: a Yes
oszlop és a No
oszlop. Az igen érték 1-et tartalmazna Yes
oszlopban és egy 0-val a No
oszlop. Az egyszeri kódolás hasznosabbá teszi adatainkat, mivel a numerikus értékek könnyebben meghatározhatják előrejelzéseink valószínűségét.
Végül bemutatjuk a employer_title
oszlopot, hogy a karakterlánc értékeit numerikus vektorokká alakítsa. Alkalmazzuk a Gróf Vectorizer és egy szabványos tokenizátor a Vektorosítani átalakítani. A tokenizálás egy mondatot vagy szövegsorozatot szavakra bont, míg a vektorizáló a szöveges adatokat géppel olvasható formává alakítja. Ezek a szavak vektorokként vannak ábrázolva.
Az összes funkciótervezési lépés befejeztével exportálhatjuk az adatokat, és kiadhatjuk az eredményeket az S3 tárolóba. Alternatív megoldásként exportálhatja a folyamatot Python-kódként vagy Jupyter-jegyzetfüzetként, hogy létrehozzon egy folyamatot a nézetével Amazon SageMaker csővezetékek. Vegye ezt fontolóra, ha a funkciótervezési lépéseket nagy méretben vagy egy ML folyamat részeként szeretné futtatni.
Most már használhatjuk a Data Wrangler kimeneti fájlját a Canvas bemeneteként. Ezt a Canvas adatkészleteként hivatkozzuk meg az ML-modell elkészítéséhez.
Esetünkben az elkészített adatkészletünket az alapértelmezett Studio tárolóba exportáltuk egy output
előtag. Erre az adatkészlet-helyre hivatkozunk, amikor az adatokat a Canvasba töltjük be a következő modellkészítéshez.
Építsd meg és képezd ki ML-modelledet a Canvas segítségével
A SageMaker konzolon indítsa el a Canvas alkalmazást. Az előző szakaszban elkészített adatokból ML modell felépítéséhez a következő lépéseket hajtjuk végre:
- Importálja az előkészített adatkészletet a Canvasba az S3 tárolóból.
Ugyanarra az S3-útvonalra hivatkozunk, ahová az előző szakasz Data Wrangler eredményeit exportáltuk.
- Hozzon létre új modellt a Canvasban, és nevezze el
loan_prediction_model
. - Válassza ki az importált adatkészletet, és adja hozzá a modellobjektumhoz.
Ahhoz, hogy a Canvas modellt építsen, ki kell választanunk a céloszlopot.
- Mivel célunk az, hogy megjósoljuk a hitelező azon képességét, hogy vissza tudja fizetni a kölcsönt, ezért a
loan_status
oszlop.
A Canvas automatikusan azonosítja az ML problémanyilatkozat típusát. A cikk írásakor a Canvas támogatja a regressziós, osztályozási és idősoros előrejelzési problémákat. Megadhatja a probléma típusát, vagy beállíthatja, hogy a Canvas automatikusan következtessen a problémára az adatokból.
- Válassza ki a kívánt lehetőséget a modellépítési folyamat elindításához: Gyors felépítés or Szabványos felépítés.
A Gyors felépítés Az opció az adatkészletet használja a modell betanításához 2–15 percen belül. Ez akkor hasznos, ha új adatkészlettel kísérletezik annak meghatározására, hogy a rendelkezésre álló adatkészlet elegendő-e az előrejelzések készítéséhez. Ezt a lehetőséget használjuk ehhez a bejegyzéshez.
A Szabványos felépítés Az opció a pontosságot választja a sebesség helyett, és körülbelül 250 modelljelöltet használ a modell betanításához. A folyamat általában 1-2 órát vesz igénybe.
A modell elkészítése után áttekintheti a modell eredményeit. A Canvas becslése szerint az Ön modellje az esetek 82.9%-ában képes megjósolni a megfelelő eredményt. Saját eredményei változhatnak a képzési modellek változatossága miatt.
Ezenkívül mélyrehatóan belemerülhet a modell részleteinek elemzésébe, hogy többet tudjon meg a modellről.
A jellemző fontossága az egyes jellemzők becsült fontosságát jelenti a céloszlop előrejelzésében. Ebben az esetben a hitelkeret oszlopnak van a legjelentősebb hatása annak előrejelzésében, hogy az ügyfél visszafizeti-e a kölcsön összegét, ezt követi a kamatláb és az éves bevétel.
A zavaros mátrix a Speciális mutatók szakasz információkat tartalmaz azoknak a felhasználóknak, akik szeretnék jobban megérteni modelljük teljesítményét.
Mielőtt üzembe helyezné a modellt az éles munkaterhelésekhez, használja a Canvast a modell tesztelésére. A Canvas kezeli a modell végpontját, és lehetővé teszi számunkra, hogy előrejelzéseket készítsünk közvetlenül a Canvas felhasználói felületén.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Tippelje és tekintse át a megállapításokat vagy a Kötegelt előrejelzés or Egyetlen jóslat Tab.
A következő példában egyetlen előrejelzést készítünk az értékek módosításával, hogy előre jelezzük a célváltozónkat loan_status
valós időben
Kiválaszthatunk nagyobb adatkészletet is, és a Canvas kötegelt előrejelzéseket generál a nevünkben.
Következtetés
A végpontok közötti gépi tanulás összetett és iteratív, és gyakran több személyt, technológiát és folyamatot foglal magában. A Data Wrangler és a Canvas lehetővé teszi a csapatok közötti együttműködést anélkül, hogy a csapatoknak kódot kellene írniuk.
Az adatmérnökök könnyedén elkészíthetik az adatokat a Data Wrangler segítségével anélkül, hogy kódot írnának, és átadhatják az elkészített adatkészletet egy üzleti elemzőnek. Az üzleti elemző ezután egyszerűen, néhány kattintással pontos ML-modelleket készíthet a Canvas használatával, és valós időben vagy kötegesen pontos előrejelzéseket kaphat.
Kezdje el a Data Wrangler használatát ezeket az eszközöket anélkül, hogy bármilyen infrastruktúrát kellene kezelni. tudsz állítsa be a Canvast gyorsan és azonnal kezdje meg az ML modellek létrehozását üzleti igényeinek támogatására.
A szerzőkről
Peter Chung az AWS megoldástervezője, és szenvedélyesen segíti az ügyfeleket, hogy betekintést nyerjenek adataikból. Olyan megoldásokat épített, amelyek segítik a szervezeteket adatvezérelt döntések meghozatalában mind az állami, mind a magánszektorban. Az összes AWS-tanúsítvánnyal, valamint két GCP-tanúsítvánnyal rendelkezik.
Meenakshisundaram Thandavarayan vezető AI/ML specialista az AWS-vel. Segíti a hi-tech stratégiai fiókokat az AI és az ML útjukon. Nagyon szenvedélyes az adatvezérelt mesterséges intelligencia iránt.
Dan Ferguson az AWS Solutions Architect-je, székhelye New York, USA. A gépi tanulási szolgáltatások szakértőjeként Dan azon dolgozik, hogy támogassa az ügyfeleket az ML munkafolyamatok hatékony, eredményes és fenntartható integrálása felé vezető úton.
- Coinsmart. Európa legjobb Bitcoin- és kriptográfiai tőzsdéje.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. SZABAD HOZZÁFÉRÉS.
- CryptoHawk. Altcoin radar. Ingyenes próbaverzió.
- Forrás: https://aws.amazon.com/blogs/machine-learning/build-a-risk-management-machine-learning-workflow-on-amazon-sagemaker-with-no-code/
- "
- 000
- 10
- 100
- Rólunk
- KIVONAT
- pontos
- mellett
- További
- AI
- Minden termék
- Bár
- amazon
- összeg
- elemzés
- elemző
- évi
- Alkalmazás
- alkalmaz
- körülbelül
- építészet
- kijelölt
- auto
- elérhető
- AWS
- Banks
- hogy
- határ
- szünetek
- épít
- Épület
- üzleti
- jelöltek
- vászon
- képességek
- Kategória
- választás
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- besorolás
- kód
- együttműködik
- együttműködés
- Oszlop
- elkötelezett
- Közös
- bonyolult
- bonyodalmak
- zavar
- Konzol
- tartalmaz
- contribuer
- teremt
- teremt
- létrehozása
- hitel
- válság
- Jelenleg
- vevő
- Ügyfelek
- dátum
- adatelemzés
- adat-tudomány
- Adósság
- határozatok
- mélyebb
- átadó
- bizonyítani
- telepíteni
- bevetés
- leírt
- részletek
- Határozzuk meg
- Fejlesztés
- különböző
- közvetlenül
- domain
- le-
- rajz
- Csepp
- alatt
- könnyen
- eredményesen
- megszüntetése
- lehetővé
- Endpoint
- mérnök
- Mérnöki
- Mérnökök
- becsült
- becslések
- események
- példa
- Gyakorol
- szakértő
- szakvélemény
- Funkció
- Jellemzők
- pénzügyi
- pénzügyi válság
- vezetéknév
- áramlási
- Összpontosít
- következő
- forma
- funkció
- finanszírozott
- generál
- Globális
- cél
- tekintettel
- magasság
- segít
- segít
- segít
- tart
- Kezdőlap
- Hogyan
- azonban
- HTTPS
- Hatás
- fontosság
- importáló
- Beleértve
- Jövedelem
- információ
- Infrastruktúra
- bemenet
- meglátások
- kamat
- Felület
- Befektetők
- IT
- csatlakozik
- csatlakozott
- utazás
- tudás
- nagy
- nagyobb
- indít
- TANUL
- tanulás
- hitelezési
- vonal
- Listázott
- betöltés
- Hitelek
- elhelyezkedés
- gép
- gépi tanulás
- fontos
- KÉSZÍT
- kezelése
- sikerült
- vezetés
- Mátrix
- eszközök
- ML
- modell
- modellek
- Hónap
- hónap
- több
- a legtöbb
- mozog
- többszörös
- elengedhetetlen
- igények
- New York
- jegyzetfüzet
- szám
- kötvények
- nyitva
- opció
- Opciók
- szervezetek
- Más
- saját
- tulajdon
- rész
- szenvedélyes
- Fizet
- fizetés
- kifizetések
- teljesítmény
- emelvény
- lehetséges
- potenciális
- előre
- előrejelzés
- Tippek
- Készít
- előző
- magán
- Probléma
- problémák
- folyamat
- Folyamatok
- Termelés
- nyilvános
- cél
- célokra
- világítás
- Quick
- gyorsan
- Nyers
- nyilvántartások
- Bejegyzés
- Bérlés
- jelentést
- raktár
- képviselők
- jelentése
- kérni
- megköveteli,
- Tudástár
- felelősség
- felelősség
- Eredmények
- Kritika
- Kockázat
- kockázatkezelés
- futás
- Skála
- Tudomány
- tudósok
- ágazatok
- Series of
- Szolgáltatások
- számos
- jelentős
- Egyszerű
- kicsi
- So
- szilárd
- megoldások
- Megoldások
- néhány
- szakember
- sebesség
- osztott
- állapota
- standard
- kezdet
- kezdődött
- nyilatkozat
- statisztikai
- Állapot
- tárolás
- Stratégiai
- stúdió
- támogatás
- Támogatja
- cél
- feladatok
- Technologies
- teszt
- ebből adódóan
- Keresztül
- idő
- tokenizálás
- szerszámok
- Képzések
- Átalakítás
- Átalakítás
- megértés
- us
- USA
- használ
- Felhasználók
- rendszerint
- érték
- ellenőrzése
- változat
- Megnézem
- Mit
- WHO
- belül
- nélkül
- szavak
- művek
- lenne
- írás
- év
- év