Rakenna, jaa, ota käyttöön: Kuinka yritysanalyytikot ja datatieteilijät saavuttavat nopeamman markkinoille tulon käyttämällä kooditonta ML:ää ja Amazon SageMaker Canvasia

Julkaissut Platon

seuraajia: 0

Koneoppiminen (ML) auttaa organisaatioita kasvattamaan tuloja, edistämään liiketoiminnan kasvua ja alentamaan kustannuksia optimoimalla ydinliiketoimintaa useilla eri toimialoilla, kuten kysynnän ennustaminen, luottopisteet, hinnoittelu, asiakkaiden vaihtuvuuden ennustaminen, seuraavaksi parhaiden tarjousten tunnistaminen, myöhästyneiden toimitusten ennustaminen ja valmistuslaadun parantaminen. Perinteiset ML-kehityssyklit kestävät kuukausia ja vaativat niukkoja datatieteitä ja ML-insinööritaitoja. Analyytikoiden ML-malleja koskevat ideat ovat usein pitkissä ruuhkassa odottaen datatieteen tiimin kaistanleveyttä, kun taas datatieteilijät keskittyvät monimutkaisempiin ML-projekteihin, jotka vaativat heidän täyden osaamisensa.

Auttaaksemme pääsemään tästä pattitilanteesta esitteli Amazon SageMaker Canvasin, kooditon ML-ratkaisu, joka voi auttaa yrityksiä nopeuttamaan ML-ratkaisujen toimittamista tunteihin tai päiviin. SageMaker Canvasin avulla analyytikot voivat helposti käyttää saatavilla olevia tietoja datajärvissä, tietovarastoissa ja operatiivisissa tietovarastoissa; rakentaa ML-malleja; ja käyttää niitä ennusteiden tekemiseen vuorovaikutteisesti ja joukkopisteiden tekemiseen joukkotietosarjoissa – kaikki ilman yhden koodirivin kirjoittamista.

Tässä postauksessa näytämme, kuinka SageMaker Canvas mahdollistaa datatieteilijöiden ja yritysanalyytikoiden välisen yhteistyön, mikä nopeuttaa markkinoilletuloa ja nopeuttaa ML-ratkaisujen kehitystä. Analyytikot saavat oman koodittoman ML-työtilan SageMaker Canvasissa ilman, että heidän täytyy ryhtyä ML-asiantuntijaksi. Analyytikot voivat sitten jakaa mallinsa Canvasista muutamalla napsautuksella, joiden kanssa datatutkijat voivat työskennellä Amazon SageMaker Studio, päästä päähän integroitu ML-kehitysympäristö (IDE). Yhdessä työskentelemällä yritysanalyytikot voivat tuoda oman alueensa tietämyksen ja kokeilun tulokset, kun taas datatieteilijät voivat luoda tehokkaasti putkia ja virtaviivaistaa prosessia.

Pohditaanpa syvästi, miltä työnkulku näyttäisi.

Yritysanalyytikot rakentavat mallin ja jakavat sen sitten

Ymmärtääksemme, kuinka SageMaker Canvas yksinkertaistaa yhteistyötä liiketoimintaanalyytikkojen ja datatieteilijöiden (tai ML-insinöörien) välillä, lähestymme prosessia ensin liiketoimintaanalyytikona. Ennen kuin aloitat, katso Amazon SageMaker Canvas julkistetaan – visuaalinen, kooditon koneoppimisominaisuus yritysanalyytikoille ohjeita mallin rakentamiseen ja testaamiseen SageMaker Canvasilla.

Tässä viestissä käytämme muokattua versiota Luottokorttipetosten havaitsemisen tietojoukko Kagglesta, hyvin tunnetusta binääriluokitteluongelman tietojoukosta. Tietojoukko on alun perin erittäin epätasapainoinen – siinä on hyvin vähän negatiiviseen luokkaan luokiteltuja merkintöjä (poikkeavat tapahtumat). Kohdeominaisuuden jakautumisesta huolimatta voimme silti käyttää tätä tietojoukkoa, koska SageMaker Canvas käsittelee tätä epätasapainoa harjoittaessaan ja virittäessään mallia automaattisesti. Tämä tietojoukko koostuu noin 9 miljoonasta solusta. Voit myös ladata a tämän tietojoukon alennettu versio. Tietojoukon koko on paljon pienempi, noin 500,000 0 solua, koska se on satunnaisesti alinäytteistetty ja sitten ylinäytteistetty SMOTE-tekniikalla sen varmistamiseksi, että mahdollisimman vähän tietoa menetetään tämän prosessin aikana. Koko kokeilun suorittaminen tällä pienennetyllä tietojoukolla maksaa XNUMX dollaria SageMaker Canvas Free Tier -tasolla.

Kun malli on luotu, analyytikot voivat käyttää sitä ennusteiden tekemiseen suoraan Canvasissa joko yksittäisille pyynnöille tai koko syötetietojoukolle joukkona.

Canvas Standard Buildilla rakennetut mallit voidaan myös helposti jakaa yhdellä napin painalluksella SageMaker Studiota käyttävien datatieteilijöiden ja ML-insinöörien kanssa. Näin datatieteilijä voi vahvistaa rakentamasi mallin suorituskyvyn ja antaa palautetta. ML-insinöörit voivat poimia mallisi ja integroida sen olemassa oleviin työnkulkuihin ja tuotteisiin, jotka ovat yrityksesi ja asiakkaidesi käytettävissä. Huomaa, että tätä kirjoitettaessa ei ole mahdollista jakaa Canvas Quick Buildilla rakennettua mallia tai aikasarjan ennustemallia.

Mallin jakaminen Canvas-käyttöliittymän kautta on yksinkertaista:

Valitse malli sivulta, joka näyttää luomasi mallit.
Valita Jaa:.
Valitse yksi tai useampi versio mallista, jonka haluat jakaa.
Voit halutessasi lisätä muistiinpanon, joka antaa lisätietoja mallista tai etsimäsi ohjeesta.
Valita Luo SageMaker Studio -linkki.
Kopioi luotu linkki.

Ja siinä se! Voit nyt jakaa linkin kollegoidesi kanssa Slackin, sähköpostin tai millä tahansa muulla haluamallasi tavalla. Datatieteilijän on oltava samassa SageMaker Studio -verkkotunnuksessa voidakseen käyttää malliasi, joten varmista, että tämä koskee organisaatiosi järjestelmänvalvojaa.

Datatieteilijät pääsevät mallitietoihin SageMaker Studiosta

Otetaan nyt datatieteilijän tai ML-insinöörin rooli ja katsotaan asioita heidän näkökulmastaan SageMaker Studion avulla.

Analyytikon jakama linkki vie meidät SageMaker Studioon, joka on ensimmäinen pilvipohjainen IDE päästä päähän ML-työnkulkuun.

Välilehti avautuu automaattisesti ja näyttää yleiskatsauksen SageMaker Canvasissa analyytikon luomasta mallista. Näet nopeasti mallin nimen, ML-ongelman tyypin, malliversion ja mallin luoneen käyttäjän (Canvas user ID -kentän alla). Sinulla on myös pääsy tietoihin syötetietojoukosta ja parhaasta mallista, jonka SageMaker pystyi tuottamaan. Sukellaan siihen myöhemmin postauksessa.

On Syötä tietojoukko -välilehti, voit myös nähdä tietovirran lähteestä syöttötietojoukkoon. Tässä tapauksessa käytetään vain yhtä tietolähdettä eikä liitostoimintoja ole käytetty, joten näytetään yksi lähde. Voit analysoida tilastoja ja tietoja tietojoukosta valitsemalla Avoin tiedonhakumuistikirja. Tämän muistikirjan avulla voit tutkia tietoja, jotka olivat saatavilla ennen mallin harjoittelua, ja se sisältää kohdemuuttujan analyysin, näytteen syötetiedoista, tilastot ja sarakkeiden ja rivien kuvaukset sekä muuta hyödyllistä tietoa datatieteilijälle. tietää enemmän tietojoukosta. Lisätietoja tästä raportista on kohdassa Tietojen kartoitusraportti.

Syöttötietojoukon analysoinnin jälkeen siirrytään mallin yleiskatsauksen toiseen välilehteen, AutoML työ. Tämä välilehti sisältää kuvauksen AutoML-työstä, kun valitsit Standard Build -vaihtoehdon SageMaker Canvasissa.

SageMaker Canvasin alla oleva AutoML-tekniikka eliminoi ML-mallien rakentamisen raskaan noston. Se rakentaa, kouluttaa ja virittää automaattisesti parhaan ML-mallin tietojesi perusteella käyttämällä automaattista lähestymistapaa, ja samalla voit säilyttää täyden hallinnan ja näkyvyyden. Tämä näkyvyys luoduissa ehdokasmalleissa sekä AutoML-prosessin aikana käytetyissä hyperparametreissä on sisällytetty ehdokassukupolven muistikirja, joka on saatavilla tällä välilehdellä.

- AutoML työ -välilehti sisältää myös luettelon kaikista AutoML-prosessin osana rakennetuista malleista F1-tavoitteen mukaan lajiteltuna. Parhaan mallin korostamiseksi käynnistetyistä koulutustöistä käytetään vihreällä ympyrällä varustettua tunnistetta Paras malli sarakkeessa. Voit myös visualisoida helposti muita koulutus- ja arviointivaiheessa käytettyjä mittareita, kuten tarkkuuspisteitä ja käyrän alla olevaa pinta-alaa (AUC). Saat lisätietoja malleista, joita voit kouluttaa AutoML-työn aikana, ja mittareista, joita käytetään koulutetun mallin suorituskyvyn arvioinnissa, katso Mallin tuki, mittarit ja validointi.

Saat lisätietoja mallista napsauttamalla hiiren kakkospainikkeella parasta mallia ja valitsemalla sen Avaa mallitiedot. Vaihtoehtoisesti voit valita Paras malli linkki yläosassa Mallin yleiskatsaus osio, jossa kävit ensimmäisenä.

Mallin tiedot -sivulla on runsaasti hyödyllistä tietoa mallista, joka suoriutui parhaiten näillä syöttötiedoilla. Keskitytään ensin sivun yläosassa olevaan yhteenvetoon. Edellisessä esimerkkikuvakaappauksessa näkyy, että sadoista malliharjoitteluajoista XGBoost-malli toimi parhaiten syötetietojoukossa. Tätä kirjoitettaessa SageMaker Canvas voi kouluttaa kolmen tyyppisiä ML-algoritmeja: lineaarinen oppija, XGBoost ja monikerroksinen perceptron (MLP), joista jokaisella on laaja valikoima esikäsittelyputkia ja hyperparametreja. Lisätietoja kustakin algoritmista on kohdassa tuetut algoritmit -sivu.

SageMaker sisältää myös selittävän toiminnon skaalautuvan ja tehokkaan toteutuksen ansiosta KernelSHAP, joka perustuu Shapley-arvon käsitteeseen yhteistyöpeliteorian alalta, joka määrittää kullekin ominaisuudelle tärkeysarvon tietylle ennusteelle. Tämä mahdollistaa läpinäkyvyyden siitä, kuinka malli päätyi ennusteisiinsa, ja on erittäin hyödyllistä määrittää ominaisuuden tärkeys. Täydellinen selitettävyysraportti, joka sisältää ominaisuuksien tärkeyden, on ladattavissa PDF-, muistikirja- tai raakadatamuodossa. Raportissa näytetään laajempi joukko mittareita sekä täydellinen luettelo AutoML-työn aikana käytetyistä hyperparametreista. Lisätietoja siitä, kuinka SageMaker tarjoaa integroituja selitettävyystyökaluja AutoML-ratkaisuille ja tavallisille ML-algoritmeille, on kohdassa Käytä integroituja selitettävyystyökaluja ja paranna mallin laatua Amazon SageMaker Autopilotin avulla.

Lopuksi tämän näkymän muut välilehdet näyttävät tietoja suorituskyvyn tiedoista (sekoitusmatriisi, tarkkuuskutsukäyrä, ROC-käyrä), syötteissä käytetyistä ja AutoML-työn aikana luoduista artefakteista sekä verkon tiedoista.

Tässä vaiheessa datatieteilijällä on kaksi vaihtoehtoa: ottaa malli suoraan käyttöön tai luoda koulutusputkisto, joka voidaan ajoittaa tai käynnistää manuaalisesti tai automaattisesti. Seuraavat osiot tarjoavat joitain käsityksiä molemmista vaihtoehdoista.

Ota malli käyttöön suoraan

Jos datatieteilijä on tyytyväinen AutoML-työn tuloksiin, hän voi ottaa mallin suoraan käyttöön Mallin tiedot sivu. Se on yhtä yksinkertaista kuin valinta Ota malli käyttöön mallin nimen vieressä.

SageMaker näyttää kaksi vaihtoehtoa käyttöönottoa varten: reaaliaikainen päätepiste, jonka tehonlähteenä on Amazon SageMaker -päätepisteet, ja eräpäätelmä, powered by Amazon SageMaker -erämuunnos.

SageMaker tarjoaa myös muita päättelytapoja. Lisätietoja on kohdassa Ota mallit käyttöön johtopäätösten tekemiseen.

Ota reaaliaikainen ennustetila käyttöön antamalla päätepisteelle nimi, ilmentymän tyyppi ja esiintymien lukumäärä. Koska tämä malli ei vaadi raskaita laskentaresursseja, voit käyttää CPU-pohjaista ilmentymää, jonka alkuluku on 1. Saat lisätietoja erilaisista saatavilla olevista ilmentymistä ja niiden teknisistä tiedoista Amazon SageMaker -hinnoittelusivu (vuonna On-demand -hinnoittelu -osiossa Reaaliaikainen johtopäätös välilehti). Jos et tiedä, mikä ilmentymä sinun pitäisi valita käyttöönotolle, voit myös pyytää SageMakeria etsimään sinulle sopivimman KPI-arvojesi perusteella käyttämällä SageMakerin päättelysuositus. Voit myös antaa valinnaisia lisäparametreja, jotka koskevat sitä, haluatko kaapata pyyntö- ja vastaustiedot päätepisteeseen tai päätepisteestä. Tämä voi osoittautua hyödylliseksi, jos suunnittelet seurata malliasi. Voit myös valita, mitä sisältöä haluat tarjota osana vastaustasi – onko se vain ennuste tai ennusteen todennäköisyys, kaikkien luokkien todennäköisyys ja kohdetunnisteet.

Jos haluat suorittaa eräpisteytystyön ja saada ennusteita koko syötteelle kerralla, voit käynnistää erämuunnostyön AWS-hallintakonsoli tai SageMaker Python SDK:n kautta. Lisätietoja erämuuntamisesta on kohdassa Käytä erämuunnos ja esimerkkimuistikirjat.

Määrittele koulutusputki

ML-malleja voidaan hyvin harvoin, jos koskaan, pitää staattisina ja muuttumattomina, koska ne poikkeavat perusviivasta, johon ne on koulutettu. Reaalimaailman data kehittyy ajan myötä, ja siitä syntyy enemmän malleja ja oivalluksia, jotka voivat olla tai jääneet vangitsematta alkuperäiseen historialliseen dataan opetettuun malliin. Voit ratkaista tämän ongelman määrittämällä koulutusputken, joka kouluttaa mallisi automaattisesti uudelleen uusimpien saatavilla olevien tietojen perusteella.

Tätä putkilinjaa määriteltäessä yksi datatieteilijän vaihtoehdoista on jälleen käyttää AutoML:ää koulutusputkeen. Voit käynnistää AutoML-työn ohjelmallisesti kutsumalla create_auto_ml_job() API:n AWS Boto3 SDK. Voit soittaa tähän toimintoon osoitteesta AWS Lambda toiminto sisällä AWS-vaihetoiminnot työnkulussa tai LambdaStep in -toiminnolla Amazon SageMaker -putkistot.

Vaihtoehtoisesti datatieteilijä voi käyttää AutoML-työstä saatuja tietoja, artefakteja ja hyperparametreja määrittääkseen täydellisen koulutusputken. Tarvitset seuraavat resurssit:

Algoritmi, joka toimi parhaiten käyttötapauksessa – Olet jo saanut nämä tiedot Canvasin luoman mallin yhteenvedosta. Tässä käyttötapauksessa se on sisäänrakennettu XGBoost-algoritmi. Katso ohjeet SageMaker Python SDK:n käyttämisestä XGBoost-algoritmin opettamiseen SageMakerilla Käytä XGBoostia SageMaker Python SDK:n kanssa.

AutoML-työn johdetut hyperparametrit – Nämä ovat saatavilla osoitteessa Selitettävyys -osio. Voit käyttää niitä syötteinä määriteltäessä harjoitustyötä SageMaker Python SDK:lla.

Artefaktit-osiossa annettu ominaisuuden suunnittelukoodi – Voit käyttää tätä koodia sekä tietojen esikäsittelyyn ennen harjoittelua (esimerkiksi Amazon SageMaker Processingin kautta) että ennen päättelyä (esimerkiksi osana SageMaker-päätelmäputkia).

Voit yhdistää nämä resurssit osaksi SageMaker-putkia. Jätämme huomioimatta toteutustiedot tästä viestistä – pysy kuulolla, jotta tästä aiheesta tulee lisää sisältöä.

Yhteenveto

SageMaker Canvas antaa sinun käyttää ML:ää ennusteiden luomiseen ilman koodin kirjoittamista. Yritysanalyytikko voi itsenäisesti alkaa käyttää sitä paikallisten tietojoukkojen sekä jo tallennettujen tietojen kanssa Amazonin yksinkertainen tallennuspalvelu (Amazon S3), Amazonin punainen siirtotai Lumihiutale. Muutamalla napsautuksella he voivat valmistella ja liittää tietojoukkojaan, analysoida arvioitua tarkkuutta, varmistaa, mitkä sarakkeet ovat vaikuttavia, kouluttaa parhaiten toimivia malleja ja luoda uusia yksittäisiä tai eräitä ennusteita ilman asiantuntijan tietotieteilijää. Sitten he voivat tarvittaessa jakaa mallin datatieteilijöiden tai MLOps-insinöörien kanssa, jotka tuovat mallit SageMaker Studioon ja työskentelevät yhdessä analyytikon kanssa tuotantoratkaisun toimittamiseksi.

Liiketoimintaanalyytikot voivat itsenäisesti saada näkemyksiä tiedoistaan ilman ML-tutkintoa ja ilman, että heidän tarvitsee kirjoittaa yhtä koodiriviä. Datatieteilijöillä on nyt lisäaikaa työskennellä haastavampien projektien parissa, jotka voivat hyödyntää paremmin heidän laajaa tietämystään tekoälystä ja ML:stä.

Uskomme, että tämä uusi yhteistyö avaa oven monien tehokkaampien ML-ratkaisujen rakentamiseen yrityksellesi. Sinulla on nyt analyytikot, jotka tuottavat arvokkaita liiketoiminnan oivalluksia, samalla kun datatieteilijät ja ML-insinöörit voivat auttaa jalostamaan, virittämään ja laajentamaan toimintaansa tarpeen mukaan.

Lisäresurssit

Lisätietoja siitä, kuinka SageMaker voi auttaa yritysanalyytikoita, on osoitteessa Amazon SageMaker yritysanalyytikoille.
Saat lisätietoja siitä, kuinka SageMaker antaa datatieteilijöille mahdollisuuden kehittää, kouluttaa ja ottaa käyttöön ML-mallejaan, tutustumalla Amazon SageMaker datatieteilijöille.
Lisätietoja siitä, kuinka SageMaker voi auttaa MLOps-insinöörejä virtaviivaistamaan ML-elinkaaria MLOpsin avulla, on osoitteessa Amazon SageMaker MLOps-insinööreille.

Tietoja Tekijät

Davide Gallitelli on AI/ML:n erikoisratkaisuarkkitehti EMEA-alueella. Hänen kotipaikkansa on Bryssel ja työskentelee tiiviisti asiakkaiden kanssa kaikkialla Benelux-maissa. Hän on ollut kehittäjä pienestä pitäen, aloitti koodaamisen 7-vuotiaana. Hän aloitti tekoälyn/ML:n opiskelun yliopistossa ja on siitä lähtien rakastunut siihen.

Mark Roy on AWS: n johtava koneoppimisarkkitehti, joka auttaa asiakkaita suunnittelemaan ja rakentamaan tekoälyn / ML-ratkaisuja. Markin työ kattaa laajan valikoiman ML-käyttötapauksia, ja ensisijainen kiinnostus tietokoneiden näkemiseen, syvälliseen oppimiseen ja ML: n laajentamiseen koko yrityksessä. Hän on auttanut yrityksiä monilla aloilla, mukaan lukien vakuutukset, rahoituspalvelut, media ja viihde, terveydenhuolto, yleishyödylliset palvelut ja valmistus. Markilla on kuusi AWS-sertifikaattia, mukaan lukien ML Specialty -sertifikaatti. Ennen AWS: ään tuloaan Mark oli arkkitehti, kehittäjä ja teknologiajohtaja yli 25 vuotta, joista 19 vuotta rahoituspalveluissa.

Aikaleima: Maaliskuussa 10, 2022

Aikaleima: Heinäkuu 20, 2022

Julkaissut Platon

Whitepaper: Koneoppimisen parhaat käytännöt terveydenhuollossa ja biotieteissä

Vähennä kustannuksia ja kehitysaikaa Amazon SageMaker Pipelinesin paikallistilan avulla

MLOps eräpäätelmiä varten mallien seurannassa ja uudelleenkoulutuksessa Amazon SageMakerin, HashiCorp Terraformin ja GitLab CI/CD:n avulla | Amazon Web Services

Datakokemuksen uudistaminen: Käytä luovaa tekoälyä ja modernia dataarkkitehtuuria saadaksesi oivalluksia | Amazon Web Services

Valvo, luokittele ja käsittele asiakirjoja Amazon Rekognitionin ja Amazon Textractin avulla

Luo taksonomiaan perustuva asiayhteyteen kohdistus AWS Media Intelligencen ja Hugging Face BERTin avulla

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili