Los zakelijke problemen end-to-end op via machine learning in Amazon SageMaker JumpStart-oplossingen

Heruitgegeven door Plato

volgers: 0

Amazon SageMaker JumpStart biedt vooraf getrainde, open-sourcemodellen voor een breed scala aan probleemtypen om u op weg te helpen met machine learning (ML). JumpStart biedt ook oplossingssjablonen die een infrastructuur opzetten voor veelvoorkomende gebruiksscenario's, en uitvoerbare voorbeeldnotebooks voor ML met Amazon Sage Maker.

Als zakelijke gebruiker kunt u het volgende doen met JumpStart-oplossingen:

Verken de oplossingen en evalueer welke goed aansluiten bij uw zakelijke behoeften.
Lanceer oplossingen met een enkele klik in Amazon SageMaker Studio. Dit lanceert een AWS CloudFormatie sjabloon om de vereiste bronnen te maken.
Pas de oplossing aan uw behoeften aan met toegang tot onderliggende notebook- en modelactiva.
Verwijder de verworven middelen zodra u klaar bent.

Dit bericht richt zich op de vijf ML-oplossingen die onlangs zijn toegevoegd om vijf verschillende zakelijke uitdagingen aan te pakken. Op het moment van schrijven biedt JumpStart 23 zakelijke oplossingen, variërend van het opsporen van fraude bij financiële transacties tot het herkennen van handschrift. Het aantal oplossingen dat via JumpStart wordt aangeboden, neemt regelmatig toe naarmate er meer oplossingen aan worden toegevoegd.

Overzicht oplossingen

De vijf nieuwe oplossingen zijn als volgt:

Prijsoptimalisatie – Biedt aanpasbare ML-modellen om u te helpen optimale beslissingen te nemen voor het bepalen van de prijs van uw product of dienst om uw bedrijfsdoelstelling te bereiken, zoals het maximaliseren van inkomsten, winst of andere aangepaste statistieken.
Voorspelling van vogelsoorten – Laat zien hoe u een objectdetectiemodel kunt trainen en verfijnen. Het demonstreert modelafstemming door middel van vergroting van het trainingsbeeld en brengt de nauwkeurigheidsverbeteringen in kaart die optreden in de iteraties (tijdperken) van de trainingstaak.
Voorspelling van de overleving van longkanker - Laat zien hoe u 2D- en 3D-radiomic-functies en demografische gegevens van patiënten kunt invoeren in een ML-algoritme om de overlevingskansen van een patiënt voor longkanker te voorspellen. De resultaten van deze voorspelling kunnen aanbieders helpen om passende proactieve maatregelen te nemen.
Classificatie van financiële betalingen – Laat zien hoe u een ML-model traint en implementeert om financiële transacties te classificeren op basis van transactie-informatie. U kunt deze oplossing ook gebruiken als tussenstap bij fraudedetectie, personalisatie of anomaliedetectie.
Churn-voorspelling voor klanten van mobiele telefoons - Demonstreert hoe u snel een churn-voorspellingsmodel kunt ontwikkelen met behulp van een dataset voor mobiele oproeptransacties. Dit is een eenvoudig voorbeeld voor gebruikers die nieuw zijn bij ML.

Voorwaarden

Om deze oplossingen te gebruiken, moet u ervoor zorgen dat u toegang hebt tot Studio met een uitvoeringsrol waarmee u SageMaker-functionaliteit kunt uitvoeren. Zorg er voor uw gebruikersrol binnen Studio voor dat de SageMaker-projecten en JumpStart optie is ingeschakeld.

In de volgende paragrafen nemen we elk van de vijf nieuwe oplossingen door en bespreken we in detail hoe het werkt, samen met enkele aanbevelingen over hoe u het voor uw eigen zakelijke behoeften kunt gebruiken.

Prijsoptimalisatie

Bedrijven gebruiken graag verschillende hefbomen om de beste resultaten te behalen. De prijs van een product of een dienst is bijvoorbeeld een hefboom die een bedrijf kan beheersen. De vraag is hoe te beslissen tegen welke prijs een product of dienst moet worden vastgesteld om een bedrijfsdoel, zoals winst of omzet, te maximaliseren.

Deze oplossing biedt aanpasbare ML-modellen om u te helpen optimale beslissingen te nemen voor het bepalen van de prijs van uw product of dienst om uw doel te bereiken, zoals het maximaliseren van inkomsten, winst of andere aangepaste statistieken. De oplossing maakt gebruik van ML en causale inferentiebenaderingen om prijs-volumerelaties uit historische gegevens te leren en is in staat om in realtime dynamische prijsaanbevelingen te doen om de aangepaste objectieve statistieken te optimaliseren.

De volgende schermafbeelding toont de voorbeeldinvoergegevens.

De oplossing bestaat uit drie delen:

Prijselasticiteit schatting – Dit wordt geschat door causale gevolgtrekking via een dubbel ML-algoritme
Volumeprognose – Dit wordt voorspeld met behulp van het Prophet-algoritme
Prijsoptimalisatie – Dit wordt bereikt door een wat-als-simulatie via verschillende prijsscenario's

De oplossing biedt de aanbevolen prijs voor de volgende dag voor het maximaliseren van de omzet. Daarnaast omvatten de outputs de geschatte prijselasticiteit, een waarde die het effect van de prijs op het volume aangeeft, en een voorspellingsmodel dat het volume van de volgende dag kan voorspellen. De volgende grafiek laat zien hoe een causaal model waarin de berekende prijselasticiteit is verwerkt, veel beter presteert onder een wat-als-analyse (met grote afwijkingen van de gedragsprijs) dan een voorspellend model dat Prophet gebruikt voor het voorspellen van volume met behulp van tijdreeksgegevens.

U kunt deze oplossing toepassen op uw bedrijf voor de volgende gebruikssituaties:

Bepaal de optimale prijs van goederen voor een winkel
Schat het effect van kortingsbonnen op de aankopen van klanten
Voorspel het effect van verschillende stimuleringsmethoden in elk bedrijf

Voorspelling van vogelsoorten

Er zijn tegenwoordig verschillende computer vision (CV) toepassingen voor bedrijven. Een van die toepassingen is objectdetectie, waarbij een ML-algoritme de locatie van een object in een afbeelding detecteert door er een selectiekader omheen te tekenen, en het type object identificeert. Het leren toepassen van een objectdetectiemodel en het verfijnen ervan kan van grote waarde zijn voor een organisatie die CV-behoeften heeft.

Deze oplossing biedt een voorbeeld van hoe u de specificaties van begrenzingsvakken kunt vertalen bij het leveren van afbeeldingen aan het SageMaker-algoritme. Deze oplossing laat ook zien hoe u een objectdetectiemodel kunt verbeteren door trainingsafbeeldingen toe te voegen die horizontaal worden omgedraaid (spiegelafbeeldingen).

Er is een notebook voorzien om te experimenteren met objectdetectie-uitdagingen wanneer er een groot aantal klassen is (200 vogelsoorten). Het notitieboekje laat ook zien hoe u de nauwkeurigheidsverbeteringen in kaart kunt brengen die zich voordoen in de verschillende tijdperken van de trainingstaak. De volgende afbeelding toont voorbeeldafbeeldingen uit de dataset vogels.

Deze oplossing bevat vijf stappen:

Bereid de gegevens voor, inclusief download en RecordIO het genereren van bestanden.
Maak en train een objectdetectiemodel.
Implementeer een eindpunt en evalueer de modelprestaties.
Maak en train opnieuw een objectdetectiemodel met de uitgebreide gegevensset.
Implementeer een eindpunt en evalueer de prestaties van het uitgebreide model.

Je krijgt het volgende als output:

Objectdetectieresultaten met bonding boxes tegen uw testbeeld
Een getraind objectdetectiemodel
Een getraind objectdetectiemodel met een extra uitgebreide (omgedraaide) dataset
Twee afzonderlijke eindpunten geïmplementeerd met een van elk model

De volgende grafiek toont modelverbetering ten opzichte van modeliteraties (epochs) tijdens de training.

De volgende voorbeelden zijn uitvoer van twee testbeelden.

U kunt deze oplossing toepassen op uw bedrijf voor de volgende gebruikssituaties:

Detecteer objecten op een lopende band in een verpakkingsindustrie
Detecteer toppings op een pizza
Implementeer operationele supply chain-applicaties die objectdetectie omvatten

Voorspelling van de overleving van longkanker

COVID-19 bracht veel meer aandacht voor longgerelateerde medische uitdagingen. Het heeft ook veel druk gelegd op ziekenhuizen, artsen, verpleegkundigen en radiologen. Stel je een mogelijkheid voor waarbij je ML kunt toepassen als een krachtig hulpmiddel om artsen te helpen en hen te helpen hun werk te versnellen. In deze oplossing laten we zien hoe 2D- en 3D-radiomische kenmerken en demografische gegevens van patiënten kunnen worden ingevoerd in een ML-algoritme om de overlevingskansen van een patiënt voor longkanker te voorspellen. Resultaten van deze voorspelling kunnen providers helpen om passende proactieve maatregelen te nemen.

Deze oplossing laat zien hoe u een schaalbare ML-pijplijn kunt bouwen voor de niet-kleincellige longkanker (NSCLC) Radiogenomics-dataset, die bestaat uit RNA-sequencinggegevens, klinische gegevens (een afspiegeling van EPD-gegevens) en medische beelden. Het gebruik van meerdere soorten gegevens om een machinemodel te maken, wordt aangeduid als: multimodale ML. Deze oplossing voorspelt de overlevingsresultaten van patiënten met de diagnose niet-kleincellige longkanker.

De volgende afbeelding toont een voorbeeld van de invoergegevens van de niet-kleincellige longkanker (NSCLC) Radiogenomics-dataset.

Als onderdeel van de oplossing werd totaal RNA uit het tumorweefsel geëxtraheerd en geanalyseerd met RNA-sequencing-technologie. Hoewel de oorspronkelijke gegevens meer dan 22,000 genen bevatten, behouden we 21 genen van 10 sterk tot co-expressie gebrachte genclusters (metagenen) die werden geïdentificeerd, gevalideerd in openbaar beschikbare genexpressiecohorten en gecorreleerd met de prognose.

De klinische dossiers worden opgeslagen in CSV-formaat. Elke rij komt overeen met een patiënt en de kolommen bevatten informatie over de patiënten, inclusief demografie, tumorstadium en overlevingsstatus.

Voor genomische gegevens bewaren we 21 genen van 10 sterk tot co-expressie gebrachte genclusters (metagenen) die werden geïdentificeerd, gevalideerd in openbaar beschikbare genexpressiecohorten en gecorreleerd met de prognose.

Voor medische beeldvormingsgegevens creëren we 3D-radiomic-kenmerken op patiëntniveau die de grootte, vorm en visuele kenmerken van de tumoren die in de CT-scans worden waargenomen, verklaren. Voor elk patiëntenonderzoek worden de volgende stappen uitgevoerd:

Lees de 2D DICOM-slicebestanden voor zowel de CT-scan als de tumorsegmentatie, combineer ze tot 3D-volumes, sla de volumes op in NIfTI-indeling.
Lijn CT-volume en tumorsegmentatie uit, zodat we de berekening in de tumor kunnen concentreren.
Bereken radiomic-functies die het tumorgebied beschrijven met behulp van de pyradiomics-bibliotheek.
Extraheer 120 radiomische kenmerken van acht klassen, zoals statistische representaties van de distributie en het gelijktijdig optreden van de intensiteit binnen het tumorgebied van belang, en op vorm gebaseerde metingen die de tumor morfologisch beschrijven.

Om een multimodaal beeld van een patiënt voor modeltraining te creëren, voegen we de kenmerkvectoren van drie modaliteiten samen. Wij verwerken de gegevens vervolgens. Eerst normaliseren we het bereik van onafhankelijke functies met behulp van functieschaling. Vervolgens voeren we hoofdcomponentenanalyse (PCA) uit op de kenmerken om de dimensionaliteit te verminderen en de meest discriminerende kenmerken te identificeren die 95% variantie in de gegevens bijdragen.

Dit resulteert in een reductie van de dimensionaliteit van 215 kenmerken tot 45 hoofdcomponenten, die kenmerken vormen voor de begeleide leerling.

De oplossing levert een ML-model op dat de overlevingsstatus van NSCLC-patiënten (dood of levend) in een vorm van waarschijnlijkheid voorspelt. Naast het model en de voorspelling genereren we ook rapportages om het model toe te lichten. De pijplijn voor medische beeldvorming produceert 3D-long-CT-volumes en tumorsegmentatie voor visualisatiedoeleinden.

U kunt deze oplossing toepassen op use cases in de gezondheidszorg en life sciences.

Classificatie van financiële betalingen

Het kan heel nuttig zijn om alle financiële transacties van een bedrijf of een consument te rangschikken in verschillende categorieën. Het kan de gebruiker helpen te weten te komen hoeveel ze in welke categorie hebben uitgegeven, en het kan ook waarschuwingen geven wanneer transacties of uitgaven in een bepaalde categorie onverwacht omhoog of omlaag gaan.

Deze oplossing laat zien hoe u een ML-model traint en implementeert om financiële transacties te classificeren op basis van transactie-informatie. Veel banken bieden dit aan als een service om hun eindgebruikers een overzicht te geven van hun bestedingspatroon. U kunt deze oplossing ook gebruiken als tussenstap bij fraudedetectie, personalisatie of anomaliedetectie. We gebruiken SageMaker om een XGBoost-model met de vereiste onderliggende infrastructuur te trainen en te implementeren.

De synthetische dataset waarmee we deze oplossing demonstreren, heeft de volgende kenmerken:

transactiecategorie – De categorie van de transactie, uit de volgende 19 opties: Uncategorized, Entertainment, Education, Shopping, Personal Care, Health and Fitness, Food and Dining, Gifts and Donations, Investments, Bills and Utilities, Auto and Transport, Travel, Fees and Charges, Business Services, Personal Services, Taxes, Gambling, Home en Pension and insurances.
ontvanger_id – Een identificatie voor de ontvangende partij. De identifier bestaat uit 16 cijfers.
zender ID – Een identificatie voor de verzendende partij. De identifier bestaat uit 16 cijfers.
bedragen – Het bedrag dat wordt overgemaakt.
tijdstempel – Het tijdstempel van de transactie in de indeling JJJJ-MM-DD UU:MM:SS.

De eerste vijf observaties van de dataset zijn als volgt:

Voor deze oplossing gebruiken we XGBoost, een populaire en efficiënte open-source implementatie van het algoritme voor gradiënt versterkte bomen. Gradient boosting is een begeleid leeralgoritme dat probeert een doelvariabele nauwkeurig te voorspellen door een ensemble van schattingen van een reeks eenvoudigere en zwakkere modellen te combineren. De implementatie ervan is beschikbaar in de ingebouwde algoritmen van SageMaker.

De classificatieoplossing voor financiële betalingen omvat vier stappen:

Bereid de gegevens voor.
Bouw een functiewinkel.
Maak en train een XGBoost-model.
Implementeer een eindpunt en evalueer de modelprestaties.

We krijgen de volgende uitvoer:

Een getraind XGBoost-model op basis van onze voorbeelddataset
Een SageMaker-eindpunt dat de transactiecategorie kan voorspellen

Nadat u deze oplossing hebt uitgevoerd, zou u een classificatierapport moeten zien dat er ongeveer als volgt uitziet.

Mogelijke toepassingen voor uw bedrijf zijn onder meer:

Diverse financiële toepassingen in retail- en investeringsbankieren
Wanneer transacties moeten worden geclassificeerd in een gebruikssituatie (niet alleen financieel)

Churn-voorspelling voor klanten van mobiele telefoons

Het voorspellen van klantverloop is een veel voorkomende zakelijke behoefte. Talrijke studies tonen aan dat de kosten van het behouden van een bestaande klant veel lager zijn dan het verwerven van een nieuwe klant. De uitdaging komt vaak van bedrijven die moeite hebben om te begrijpen waarom een klant karnen of een model bouwen dat karnen voorspelt.

In dit voorbeeld kunnen gebruikers die nieuw zijn in ML ervaren hoe snel een churn-voorspellingsmodel kan worden ontwikkeld met behulp van een dataset voor mobiele gesprekstransacties. Deze oplossing maakt gebruik van SageMaker om een XGBoost-model te trainen en te implementeren op een klantprofieldataset om te voorspellen of een klant waarschijnlijk een mobiele telefoonoperator verlaat.

De dataset die deze oplossing gebruikt is publiekelijk beschikbaar en wordt genoemd in het boek Discovering Knowledge in Data van Daniel T. Larose. Het wordt door de auteur toegeschreven aan de University of California Irvine Repository of Machine Learning Datasets.

Deze dataset gebruikt de volgende 21 kenmerken om het profiel van een klant van een onbekende Amerikaanse mobiele provider te beschrijven.

Staat: de Amerikaanse staat waarin de klant woont, aangegeven door een tweeletterige afkorting; bijvoorbeeld OH of NJ
Accountlengte: het aantal dagen dat dit account actief is
Netnummer: het driecijferige netnummer van het corresponderende telefoonnummer van de klant;
Telefoon: het resterende zevencijferige telefoonnummer
Int'l Plan: of de klant een internationaal belplan heeft: ja/nee
VMail Plan: of de klant een voicemailfunctie heeft: ja/nee
VMail Message: het gemiddelde aantal voicemailberichten per maand
Dagminuten: het totale aantal belminuten dat gedurende de dag is gebruikt
Dagoproepen: het totale aantal oproepen gedurende de dag
Dagtarief: de gefactureerde kosten van gesprekken overdag
Eve Mins, Eve Calls, Eve Charge: de gefactureerde kosten voor gesprekken die 's avonds worden geplaatst
Nachtminuten, Nachtgesprekken, Nachtkosten: de gefactureerde kosten voor gesprekken die 's nachts worden geplaatst
Intl Mins, Intl Calls, Intl Charge: de gefactureerde kosten voor internationale gesprekken
CustServ-oproepen: het aantal oproepen naar de klantenservice
Churn?: of de klant de service heeft verlaten: waar/onwaar

Deze oplossing bevat drie fasen:

Bereid de gegevens voor.
Maak en train een XGBoost-model.
Implementeer een eindpunt en evalueer de modelprestaties.

We krijgen de volgende uitvoer:

Een getraind XGBoost-model op basis van onze voorbeelddataset om gebruikersverloop te voorspellen
Een SageMaker-eindpunt dat gebruikersverloop kan voorspellen

Dit model helpt bij het inschatten hoeveel van de 5,000 gsm-klanten waarschijnlijk zullen stoppen met het gebruik van hun huidige gsm-operator.

De volgende grafiek toont een kansverdeling van de churn als output van het model.

U kunt dit toepassen op uw bedrijf voor de volgende gebruikssituaties:

Voorspel klantverloop in uw eigen bedrijf
Classificeren welke klanten uw marketing-e-mail mogen openen en wie niet (binaire classificatie)
Voorspel welke studenten waarschijnlijk zullen afhaken bij een cursus

Ruim middelen op

Nadat u klaar bent met het uitvoeren van een oplossing in JumpStart, moet u ervoor zorgen dat u kiest: Alle bronnen verwijderen dus alle bronnen die u tijdens het proces hebt gemaakt, worden verwijderd en uw facturering wordt stopgezet.

Samengevat

Dit bericht liet je zien hoe je verschillende zakelijke problemen kunt oplossen door ML toe te passen, op basis van JumpStart-oplossingen. Hoewel dit bericht gericht was op de vijf nieuwe oplossingen die onlangs aan JumpStart zijn toegevoegd, zijn er in totaal 23 beschikbare oplossingen. We raden u aan om in Studio in te loggen en zelf naar de JumpStart-oplossingen te kijken en er direct waarde uit te halen. Voor meer informatie, zie: Amazon SageMaker Studio en SageMaker JumpStart.

Opmerking: als u niet alle bovenstaande vijf oplossingen ziet in de JumpStart-console van uw AWS-regio, wacht dan een week en controleer het opnieuw. We geven ze gefaseerd vrij in verschillende regio's.

Over de auteurs

Dr Raju Penmatcha is een AI/ML Specialist Solutions Architect in AI Platforms bij AWS. Hij werkt aan de low-code/no-code suite van services in SageMaker waarmee klanten eenvoudig modellen en oplossingen voor machine learning kunnen bouwen en implementeren. Als hij geen klanten helpt, reist hij graag naar nieuwe plaatsen.

Manan Sjah is een Software Development Manager bij Amazon Web Services. Hij is een ML-enthousiasteling en richt zich op het bouwen van no-code/low-code AI/ML-producten. Hij streeft ernaar andere getalenteerde, technische mensen in staat te stellen geweldige software te bouwen.

Tijdstempel: 31 oktober 20221 november 2022

Tijdstempel: Juni 6, 2023

Los bedrijfsproblemen end-to-end op via machine learning in Amazon SageMaker JumpStart-oplossingen

Heruitgegeven door Plato

Overzicht oplossingen

Voorwaarden

Prijsoptimalisatie

Voorspelling van vogelsoorten

Voorspelling van de overleving van longkanker

Classificatie van financiële betalingen

Churn-voorspelling voor klanten van mobiele telefoons

Ruim middelen op

Samengevat

Over de auteurs

Meer van AWS-machine learning

Gebruik de AWS CDK om levenscyclusconfiguraties van Amazon SageMaker Studio te implementeren | Amazon-webservices

Wekelijkse voorspellingen kunnen nu op zondag beginnen met Amazon Forecast

Amazon SageMaker Automatic Model Tuning biedt nu tot drie keer snellere hyperparameter-tuning met Hyperband

Versnel de tijd tot zakelijke inzichten met de Amazon SageMaker Data Wrangler directe verbinding met Snowflake | Amazon-webservices

De productiviteit van ontwikkelaars verhogen: hoe Deloitte Amazon SageMaker Canvas gebruikt voor machine learning zonder/low-code | Amazon-webservices

Krijg slimmere zoekresultaten met de Amazon Kendra Intelligent Ranking en OpenSearch-plug-in

Realtime fraudedetectie met behulp van AWS serverloze en machine learning-services

Verbetering van de stabiliteit en flexibiliteit van ML-pijplijnen bij Amazon Packaging Innovation met Amazon SageMaker Pipelines

Bouw machine learning-ready datasets uit de Amazon SageMaker offline Feature Store met behulp van de Amazon SageMaker Python SDK | Amazon-webservices

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account