Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren kód nélkül

A globális pénzügyi válság óta a kockázatkezelés jelentős szerepet kapott a bankok döntéshozatalának alakításában, beleértve a potenciális ügyfelek hitelállapotának előrejelzését. Ez gyakran egy adatigényes gyakorlat, amely gépi tanulást (ML) igényel. Nem minden szervezet rendelkezik azonban az adattudományi erőforrásokkal és szakértelemmel a kockázatkezelési ML munkafolyamat létrehozásához.

Amazon SageMaker egy teljesen felügyelt ML platform, amely lehetővé teszi az adatmérnökök és üzleti elemzők számára, hogy gyorsan és egyszerűen építsenek, képezzenek és telepítsenek ML modelleket. Az adatmérnökök és az üzleti elemzők együttműködhetnek a SageMaker kód nélküli/alacsony kód nélküli képességeivel. Az adatmérnökök használhatják Amazon SageMaker Data Wrangler az adatok gyors összesítése és előkészítése a modellkészítéshez kódírás nélkül. Ezután az üzleti elemzők használhatják a vizuális point-and-click felületet Amazon SageMaker Canvas hogy önmagukban pontos ML előrejelzéseket generáljanak.

Ebben a bejegyzésben bemutatjuk, milyen egyszerű az adatmérnökök és az üzleti elemzők együttműködése egy olyan ML munkafolyamat felépítésében, amely magában foglalja az adatok előkészítését, modellépítését és kódírás nélküli következtetéseket.

Megoldás áttekintése

Bár az ML-fejlesztés összetett és ismétlődő folyamat, az ML-munkafolyamat általánosítható az adat-előkészítési, a modellfejlesztési és a modelltelepítési szakaszokra.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

A Data Wrangler és a Canvas elvonatkoztatja az adat-előkészítés és a modellfejlesztés bonyolultságát, így Ön arra összpontosíthat, hogy értéket biztosítson vállalkozása számára azáltal, hogy betekintést nyer adataiból anélkül, hogy szakértője lenne a kódfejlesztésben. A következő architektúra diagram kiemeli a kód nélküli/alacsony kódú megoldás összetevőit.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Amazon egyszerű tárolási szolgáltatás (Amazon S3) a nyers adatok, a tervezett adatok és a modelltermékek adattárhelyeként működik. Kiválaszthatja az adatok importálását is Amazon RedShift, Amazon Athéné, Databricks és Snowflake.

Adattudósként a Data Wranglert használjuk feltáró adatelemzésre és funkciótervezésre. Bár a Canvas képes funkciótervezési feladatokat futtatni, a szolgáltatástervezés általában bizonyos statisztikai és tartományi ismereteket igényel, hogy az adatkészletet a modellfejlesztéshez megfelelő formába gazdagítsa. Ezért ezt a felelősséget az adatmérnökökre ruházzuk, hogy a Data Wranglerrel kódírás nélkül is átalakíthassák az adatokat.

Az adatok előkészítése után átadjuk a modellépítési feladatokat az adatelemzőknek, akik a Canvas segítségével kódírás nélkül betaníthatják a modellt.

Végül egyedi és kötegelt előrejelzéseket készítünk közvetlenül a Canvason belül az eredményül kapott modellből anélkül, hogy magunknak kellene telepítenünk a modell végpontjait.

Adatkészlet áttekintése

A SageMaker funkcióit használjuk a kölcsön állapotának előrejelzésére a Lending Club módosított verziójával nyilvánosan elérhető hitelelemzési adatkészlet. Az adatállomány a 2007–2011 között kibocsátott hitelek hiteladatait tartalmazza. A kölcsönt és a hitelfelvevőt leíró oszlopok a mi jellemzőink. A hitel_állapota oszlop a célváltozó, ezt próbáljuk megjósolni.

A Data Wranglerben való bemutatáshoz az adatkészletet két CSV-fájlra osztottuk: első rész és a második rész. A bemutató egyszerűsítése érdekében eltávolítottunk néhány oszlopot a Lending Club eredeti adatkészletéből. Adatkészletünk több mint 37,000 21 sort és XNUMX jellemzőoszlopot tartalmaz, amint azt a következő táblázat ismerteti.

Oszlop neve Leírás
loan_status A kölcsön jelenlegi állapota (célváltozó).
loan_amount A hitelfelvevő által igényelt kölcsön felsorolt ​​összege. Ha a hitelosztály csökkenti a kölcsön összegét, az megjelenik ebben az értékben.
funded_amount_by_investors A befektetők által az adott hitelre akkor vállalt teljes összeg.
term A kölcsön kifizetéseinek száma. Az értékek hónapban értendők, és lehetnek 36 vagy 60.
interest_rate A kölcsön kamata.
installment A kölcsönfelvevő havi törlesztőrészlete, ha a kölcsön keletkezik.
grade LC hozzárendelt kölcsön fokozatot.
sub_grade LC hozzárendelt kölcsön alosztályzat.
employment_length Munkaviszony időtartama években. A lehetséges értékek 0 és 10 között vannak, ahol a 0 egy évnél rövidebb, a 10 pedig tíz vagy több évet jelent.
home_ownership A kölcsönvevő által a regisztráció során megadott lakástulajdoni állapot. Értékeink: BÉRLET, SAJÁT, JELZÁLOG és EGYÉB.
annual_income A kölcsönfelvevő által a regisztráció során megadott önbevallott éves bevétel.
verification_status Azt jelzi, hogy a bevételt az LC igazolta-e vagy sem.
issued_amount Az a hónap, amikor a kölcsönt finanszírozták.
purpose A hitelfelvevő által a kölcsönigényléshez megadott kategória.
dti A hitelfelvevő havi adósságtörlesztésének az összes adósságkötelezettségre (a jelzáloghitel és az igényelt LC-hitel nélkül) számított hányadosa, osztva a hitelfelvevő saját bevallott havi jövedelmével.
earliest_credit_line Az a hónap, amikor a hitelfelvevő legkorábban bejelentett hitelkerete megnyílt.
inquiries_last_6_months A megkeresések száma az elmúlt 6 hónapban (az autó- és jelzáloghitel-megkeresések nélkül).
open_credit_lines A nyitott hitelkeretek száma a hitelfelvevő hitelfájljában.
derogatory_public_records A becsmérlő nyilvános nyilvántartások száma.
revolving_line_utilization_rate A rulírozó sor felhasználási aránya, vagy a hitelfelvevő által használt hitelösszeg az összes rendelkezésre álló rulírozó hitelhez viszonyítva.
total_credit_lines A hitelfelvevő hitelfájljában jelenleg található hitelkeretek teljes száma.

Ezt az adatkészletet adat-előkészítésünkhöz és modellképzésünkhöz használjuk.

Előfeltételek

Hajtsa végre a következő előfeltétel lépéseket:

  1. Töltse fel mindkét kölcsönfájlt az Ön által választott S3-as vödörhöz.
  2. Győződjön meg arról, hogy rendelkezik a szükséges engedélyekkel. További információkért lásd: Ismerkedjen meg a Data Wranglerrel.
  3. Állítson be egy SageMaker-tartományt, amely Data Wrangler használatára van konfigurálva. Az utasításokat lásd Bekapcsolva az Amazon SageMaker domainbe.

Importálja az adatokat

Hozzon létre egy új Data Wrangler adatfolyamot tól Amazon SageMaker Studio UI.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Importáljon adatokat az Amazon S3-ból úgy, hogy kiválasztja a CSV-fájlokat abból az S3-tárolóból, ahová az adatkészletet elhelyezte. Miután mindkét fájlt importálta, két külön munkafolyamatot láthat a fájlban Adatáramlás Kilátás.

Több mintavételi beállítás közül választhat az adatok Data Wrangler folyamatba való importálásakor. A mintavétel akkor segíthet, ha túl nagy adatkészlettel rendelkezik az interaktív előkészítéshez, vagy ha meg szeretné őrizni a ritka események arányát a mintavételezett adatkészletben. Mivel az adatkészletünk kicsi, nem használunk mintavételt.

Készítse elő az adatokat

A mi használati esetünkben két adatkészletünk van egy közös oszloppal: id. Az adat-előkészítés első lépéseként ezeket a fájlokat egyesíteni kívánjuk egyesítve. Az utasításokat lásd Adatok átalakítása.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Az általunk használt Csatlakozik adatátalakítási lépést, és használja a Belső csatlakozás típusa a id oszlop.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

A csatlakozási átalakításunk eredményeként a Data Wrangler két további oszlopot hoz létre: id_0 és a id_1. Ezek az oszlopok azonban szükségtelenek a modellépítéshez. Ezeket a redundáns oszlopokat a Oszlopok kezelése átalakulási lépés.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.
Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Importáltuk adatkészleteinket, egyesítettük őket, és eltávolítottuk a szükségtelen oszlopokat. Most már készen állunk arra, hogy bővítsük adatainkat a funkciótervezés révén, és felkészüljünk a modellépítésre.

Hajtsa végre a funkciótervezést

Az adatok elkészítéséhez Data Wranglert használtunk. Használhatja a Adatminőség és Insights jelentés funkció a Data Wrangleren belül, hogy ellenőrizze az adatok minőségét és észlelje az adatok rendellenességeit. Az adattudósoknak gyakran fel kell használniuk ezeket az adatok betekintést, hogy hatékonyan alkalmazzák a megfelelő tartományi ismereteket a mérnöki jellemzőkre. Ennél a bejegyzésnél feltételezzük, hogy elvégeztük ezeket a minőségértékeléseket, és továbbléphetünk a funkciók tervezésére.

Ebben a lépésben néhány átalakítást alkalmazunk a numerikus, kategorikus és szöveges oszlopokra.

Először normalizáljuk a kamatlábat, hogy az értékeket 0 és 1 között skálázzuk. Ezt a Numerikus folyamat átméretezni a interest_rate oszlopban min-max skálázó segítségével. A normalizálás (vagy szabványosítás) célja a torzítás megszüntetése a modellünkből. A különböző skálákon mért változók nem járulnak hozzá egyformán a modelltanulási folyamathoz. Ezért egy olyan transzformációs függvény, mint a min-max skálázó transzformáció, segít normalizálni a jellemzőket.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Egy kategoriális változó numerikus értékké való konvertálásához one-hot kódolást használunk. Mi választjuk a Kategorikus kódolás átalakítani, majd választani Egyszeri kódolás. Az egyszeri kódolás javítja az ML-modell előrejelző képességét. Ez a folyamat egy kategorikus értéket új jellemzővé alakít át úgy, hogy 1 vagy 0 bináris értéket rendel a jellemzőhöz. Egyszerű példaként, ha van egy oszlopa, amely valamelyik értéket tartalmazza yes or no, a one-hot kódolás az oszlopot két oszlopra alakítja át: a Yes oszlop és a No oszlop. Az igen érték 1-et tartalmazna Yes oszlopban és egy 0-val a No oszlop. Az egyszeri kódolás hasznosabbá teszi adatainkat, mivel a numerikus értékek könnyebben meghatározhatják előrejelzéseink valószínűségét.

Végül bemutatjuk a employer_title oszlopot, hogy a karakterlánc értékeit numerikus vektorokká alakítsa. Alkalmazzuk a Gróf Vectorizer és egy szabványos tokenizátor a Vektorosítani átalakítani. A tokenizálás egy mondatot vagy szövegsorozatot szavakra bont, míg a vektorizáló a szöveges adatokat géppel olvasható formává alakítja. Ezek a szavak vektorokként vannak ábrázolva.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Az összes funkciótervezési lépés befejeztével exportálhatjuk az adatokat, és kiadhatjuk az eredményeket az S3 tárolóba. Alternatív megoldásként exportálhatja a folyamatot Python-kódként vagy Jupyter-jegyzetfüzetként, hogy létrehozzon egy folyamatot a nézetével Amazon SageMaker csővezetékek. Vegye ezt fontolóra, ha a funkciótervezési lépéseket nagy méretben vagy egy ML folyamat részeként szeretné futtatni.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Most már használhatjuk a Data Wrangler kimeneti fájlját a Canvas bemeneteként. Ezt a Canvas adatkészleteként hivatkozzuk meg az ML-modell elkészítéséhez.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Esetünkben az elkészített adatkészletünket az alapértelmezett Studio tárolóba exportáltuk egy output előtag. Erre az adatkészlet-helyre hivatkozunk, amikor az adatokat a Canvasba töltjük be a következő modellkészítéshez.

Építsd meg és képezd ki ML-modelledet a Canvas segítségével

A SageMaker konzolon indítsa el a Canvas alkalmazást. Az előző szakaszban elkészített adatokból ML modell felépítéséhez a következő lépéseket hajtjuk végre:

  1. Importálja az előkészített adatkészletet a Canvasba az S3 tárolóból.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Ugyanarra az S3-útvonalra hivatkozunk, ahová az előző szakasz Data Wrangler eredményeit exportáltuk.

  1. Hozzon létre új modellt a Canvasban, és nevezze el loan_prediction_model.
  2. Válassza ki az importált adatkészletet, és adja hozzá a modellobjektumhoz.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Ahhoz, hogy a Canvas modellt építsen, ki kell választanunk a céloszlopot.

  1. Mivel célunk az, hogy megjósoljuk a hitelező azon képességét, hogy vissza tudja fizetni a kölcsönt, ezért a loan_status oszlop.

A Canvas automatikusan azonosítja az ML problémanyilatkozat típusát. A cikk írásakor a Canvas támogatja a regressziós, osztályozási és idősoros előrejelzési problémákat. Megadhatja a probléma típusát, vagy beállíthatja, hogy a Canvas automatikusan következtessen a problémára az adatokból.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

  1. Válassza ki a kívánt lehetőséget a modellépítési folyamat elindításához: Gyors felépítés or Szabványos felépítés.

A Gyors felépítés Az opció az adatkészletet használja a modell betanításához 2–15 percen belül. Ez akkor hasznos, ha új adatkészlettel kísérletezik annak meghatározására, hogy a rendelkezésre álló adatkészlet elegendő-e az előrejelzések készítéséhez. Ezt a lehetőséget használjuk ehhez a bejegyzéshez.

A Szabványos felépítés Az opció a pontosságot választja a sebesség helyett, és körülbelül 250 modelljelöltet használ a modell betanításához. A folyamat általában 1-2 órát vesz igénybe.

A modell elkészítése után áttekintheti a modell eredményeit. A Canvas becslése szerint az Ön modellje az esetek 82.9%-ában képes megjósolni a megfelelő eredményt. Saját eredményei változhatnak a képzési modellek változatossága miatt.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Ezenkívül mélyrehatóan belemerülhet a modell részleteinek elemzésébe, hogy többet tudjon meg a modellről.

A jellemző fontossága az egyes jellemzők becsült fontosságát jelenti a céloszlop előrejelzésében. Ebben az esetben a hitelkeret oszlopnak van a legjelentősebb hatása annak előrejelzésében, hogy az ügyfél visszafizeti-e a kölcsön összegét, ezt követi a kamatláb és az éves bevétel.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

A zavaros mátrix a Speciális mutatók szakasz információkat tartalmaz azoknak a felhasználóknak, akik szeretnék jobban megérteni modelljük teljesítményét.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Mielőtt üzembe helyezné a modellt az éles munkaterhelésekhez, használja a Canvast a modell tesztelésére. A Canvas kezeli a modell végpontját, és lehetővé teszi számunkra, hogy előrejelzéseket készítsünk közvetlenül a Canvas felhasználói felületén.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Tippelje és tekintse át a megállapításokat vagy a Kötegelt előrejelzés or Egyetlen jóslat Tab.

A következő példában egyetlen előrejelzést készítünk az értékek módosításával, hogy előre jelezzük a célváltozónkat loan_status valós időben

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Kiválaszthatunk nagyobb adatkészletet is, és a Canvas kötegelt előrejelzéseket generál a nevünkben.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.

Következtetés

A végpontok közötti gépi tanulás összetett és iteratív, és gyakran több személyt, technológiát és folyamatot foglal magában. A Data Wrangler és a Canvas lehetővé teszi a csapatok közötti együttműködést anélkül, hogy a csapatoknak kódot kellene írniuk.

Az adatmérnökök könnyedén elkészíthetik az adatokat a Data Wrangler segítségével anélkül, hogy kódot írnának, és átadhatják az elkészített adatkészletet egy üzleti elemzőnek. Az üzleti elemző ezután egyszerűen, néhány kattintással pontos ML-modelleket készíthet a Canvas használatával, és valós időben vagy kötegesen pontos előrejelzéseket kaphat.

Kezdje el a Data Wrangler használatát ezeket az eszközöket anélkül, hogy bármilyen infrastruktúrát kellene kezelni. tudsz állítsa be a Canvast gyorsan és azonnal kezdje meg az ML modellek létrehozását üzleti igényeinek támogatására.


A szerzőkről

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.Peter Chung az AWS megoldástervezője, és szenvedélyesen segíti az ügyfeleket, hogy betekintést nyerjenek adataikból. Olyan megoldásokat épített, amelyek segítik a szervezeteket adatvezérelt döntések meghozatalában mind az állami, mind a magánszektorban. Az összes AWS-tanúsítvánnyal, valamint két GCP-tanúsítvánnyal rendelkezik.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai. Meenakshisundaram Thandavarayan vezető AI/ML specialista az AWS-vel. Segíti a hi-tech stratégiai fiókokat az AI és az ML útjukon. Nagyon szenvedélyes az adatvezérelt mesterséges intelligencia iránt.

Kockázatkezelési gépi tanulási munkafolyamat létrehozása az Amazon SageMakeren PlatoBlockchain Data Intelligence kód nélkül. Függőleges keresés. Ai.Dan Ferguson az AWS Solutions Architect-je, székhelye New York, USA. A gépi tanulási szolgáltatások szakértőjeként Dan azon dolgozik, hogy támogassa az ügyfeleket az ML munkafolyamatok hatékony, eredményes és fenntartható integrálása felé vezető úton.

Időbélyeg:

Még több AWS gépi tanulás