Amazon SageMaker JumpStart tilbyr nå Amazon Comprehend-notatbøker for tilpasset klassifisering og tilpasset enhetsdeteksjon PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Amazon SageMaker JumpStart tilbyr nå Amazon Comprehend-notatbøker for tilpasset klassifisering og tilpasset enhetsdeteksjon

Amazon Comprehend er en naturlig språkbehandlingstjeneste (NLP) som bruker maskinlæring (ML) for å oppdage innsikt fra tekst. Amazon Comprehend tilbyr tilpassede funksjoner, tilpasset enhetsgjenkjenning, tilpasset klassifiseringog forhåndstrente APIer slik som utvinning av nøkkelsetninger, sentimentanalyse, enhetsgjenkjenning og mer, slik at du enkelt kan integrere NLP i applikasjonene dine.

Vi har nylig lagt til Amazon Comprehend-relaterte notatbøker Amazon SageMaker JumpStart notatbøker som kan hjelpe deg raskt å komme i gang med å bruke Amazon Comprehends tilpassede klassifisering og tilpasset enhetsgjenkjenner. Du kan bruke tilpasset klassifisering til å organisere dokumenter i kategorier (klasser) som du definerer. Egendefinert enhetsgjenkjenning utvider muligheten til Amazon Comprehend forhåndstrente enhetsdeteksjons-API ved å hjelpe deg med å identifisere enhetstyper som er unike for ditt domene eller virksomhet som ikke er i den forhåndsinnstilte generiske enhetstyper.

I dette innlegget viser vi deg hvordan du bruker JumpStart til å bygge Amazon Comprehend tilpasset klassifisering og tilpassede enhetsdeteksjonsmodeller som en del av bedriftens NLP-behov.

SageMaker JumpStart

De Amazon SageMaker Studio landingssiden gir muligheten til å bruke JumpStart. JumpStart gir en rask måte å komme i gang ved å tilby forhåndsopplærte modeller for en rekke problemtyper. Du kan trene og tune disse modellene. JumpStart gir også andre ressurser som notatbøker, blogger og videoer.

JumpStart-notatbøker er i hovedsak eksempelkode som du kan bruke som utgangspunkt for å komme raskt i gang. For øyeblikket gir vi deg over 40 notatbøker som du kan bruke som de er eller tilpasse etter behov. Du kan finne notatbøkene dine ved å bruke søk eller visningspanelet med faner. Etter at du har funnet den bærbare datamaskinen du vil bruke, kan du importere den, tilpasse den etter dine behov og velge infrastrukturen og miljøet du vil kjøre den på.

Kom i gang med JumpStart-notatbøker

For å komme i gang med JumpStart, gå til Amazon SageMaker konsollen og åpne Studio. Referere til Kom i gang med SageMaker Studio for instruksjoner om hvordan du kommer i gang med Studio. Fullfør deretter følgende trinn:

  1. I Studio går du til startsiden til JumpStart og velger Gå til SageMaker JumpStart.

Du tilbys flere måter å søke på. Du kan enten bruke faner på toppen for å komme til det du vil ha, eller bruke søkeboksen som vist i følgende skjermbilde.

  1. For å finne notatbøker, går vi til Notatbøker fanen.

Gå til fanen Notatbøker

I skrivende stund tilbyr JumpStart 47 notatbøker. Du kan bruke filtre for å finne Amazon Comprehend-relaterte notatbøker.

  1. Innholdstype rullegardinmenyen, velg bærbare.

Som du kan se i følgende skjermbilde, har vi for øyeblikket to Amazon Comprehend-notatbøker.

Finn Comprehend Notebooks

I de følgende delene utforsker vi begge notatbøkene.

Amazon Comprehend Custom Classifier

I denne notatboken viser vi hvordan du bruker tilpasset klassifiserings-API å lage en dokumentklassifiseringsmodell.

Den tilpassede klassifiseringen er en fullt administrert Amazon Comprehend-funksjon som lar deg bygge tilpassede tekstklassifiseringsmodeller som er unike for virksomheten din, selv om du har liten eller ingen ML-ekspertise. Den tilpassede klassifiseringen bygger på de eksisterende egenskapene til Amazon Comprehend, som allerede er trent på titalls millioner dokumenter. Den abstraherer mye av kompleksiteten som kreves for å bygge en NLP-klassifiseringsmodell. Den tilpassede klassifikatoren laster og inspiserer automatisk treningsdataene, velger de riktige ML-algoritmene, trener modellen din, finner de optimale hyperparametrene, tester modellen og gir modellytelsesmålinger. Amazon Comprehend tilpasset klassifisering gir også en brukervennlig konsoll for hele ML-arbeidsflyten, inkludert merking av tekst ved hjelp av Amazon SageMaker Ground Truth, opplæring og distribusjon av en modell, og visualisering av testresultatene. Med en tilpasset Amazon Comprehend-klassifiser kan du bygge følgende modeller:

  • Klassifiseringsmodell i flere klasse – I flerklasseklassifisering kan hvert dokument ha én og bare én klasse tilordnet. De enkelte klassene utelukker hverandre. For eksempel kan en film klassifiseres som en dokumentar eller som science fiction, men ikke begge deler samtidig.
  • Multi-label klassifiseringsmodell – I multi-label klassifisering representerer individuelle klasser forskjellige kategorier, men disse kategoriene er på en eller annen måte relaterte og utelukker ikke hverandre. Som et resultat har hvert dokument tildelt minst én klasse, men kan ha flere. For eksempel kan en film ganske enkelt være en actionfilm, eller det kan være en actionfilm, en science fiction-film og en komedie, alt på samme tid.

Denne notatboken krever ingen ML-ekspertise for å trene en modell med eksempeldatasettet eller med ditt eget forretningsspesifikke datasett. Du kan bruke API-operasjonene som er omtalt i denne notatboken i dine egne applikasjoner.

Amazon Custom Entity Recognizer

I denne notatboken viser vi hvordan du bruker tilpasset enhetsgjenkjennings-API å lage en enhetsgjenkjenningsmodell.

Tilpasset enhetsgjenkjenning utvider mulighetene til Amazon Comprehend ved å hjelpe deg med å identifisere dine spesifikke enhetstyper som ikke er i de forhåndsinnstilte generiske enhetstypene. Dette betyr at du kan analysere dokumenter og trekke ut enheter som produktkoder eller forretningsspesifikke enheter som passer dine spesielle behov.

Å bygge en nøyaktig tilpasset enhetsgjenkjenner på egen hånd kan være en kompleks prosess, som krever forberedelse av store sett med manuelt kommenterte opplæringsdokumenter og valg av riktige algoritmer og parametere for modelltrening. Amazon Comprehend hjelper til med å redusere kompleksiteten ved å tilby automatisk merknad og modellutvikling for å lage en tilpasset enhetsgjenkjenningsmodell.

Eksempelnotisboken tar opplæringsdatasettet i CSV-format og kjører inferens mot tekstinndata. Amazon Comprehend støtter også en avansert brukstilfelle som tar Ground Truth-annoterte data for opplæring og lar deg kjøre slutninger direkte på PDF-er og Word-dokumenter. For mer informasjon, se Bygg en tilpasset enhetsgjenkjenner for PDF-dokumenter ved å bruke Amazon Comprehend.

Amazon Comprehend har senket merknadsgrensene og tillatt deg å få mer stabile resultater, spesielt for underprøver med få skudd. For mer informasjon om denne forbedringen, se Amazon Comprehend kunngjør lavere merknadsgrenser for egendefinert enhetsgjenkjenning.

Denne notatboken krever ingen ML-ekspertise for å trene en modell med eksempeldatasettet eller med ditt eget forretningsspesifikke datasett. Du kan bruke API-operasjonene som er omtalt i denne notatboken i dine egne applikasjoner.

Bruk, tilpass og distribuer Amazon Comprehend JumpStart-notatbøker

Etter at du har valgt Amazon Comprehend-notisboken du vil bruke, velger du Importer notatbok. Mens du gjør det, kan du se notisbokkjernen starte.

Importer notatbok

Import av notatboken utløser valg av notatbokforekomsten, kjernen og bildet som brukes til å kjøre notatboken. Etter at standardinfrastrukturen er klargjort, kan du endre valgene i henhold til dine krav.

Notebook i SageMaker Studio

Gå nå gjennom omrisset av notatboken og les nøye avsnittene for forutsetningsoppsett, dataoppsett, trening av modellen, løpende slutning og stopp av modellen. Tilpass den genererte koden til dine behov.

Basert på dine krav, kan det være lurt å tilpasse følgende seksjoner:

  • Tillatelser – For en produksjonsapplikasjon anbefaler vi å begrense tilgangspolicyer til bare de som er nødvendige for å kjøre applikasjonen. Tillatelser kan begrenses basert på brukstilfellet, for eksempel opplæring eller slutning, og spesifikke ressursnavn, for eksempel en fullstendig Amazon enkel lagringstjeneste (Amazon S3) bøttenavn eller et S3-bøttenavnmønster. Du bør også begrense tilgangen til den tilpassede klassifisereren eller SageMaker-operasjonene til bare de som applikasjonen din trenger.
  • Data og plassering – Eksempelnotisboken gir deg eksempeldata og S3-plasseringer. Basert på dine krav kan du bruke dine egne data til opplæring, validering og testing, og bruke forskjellige S3-plasseringer etter behov. På samme måte, når modellen er opprettet, kan du velge å beholde modellen på forskjellige steder. Bare sørg for at du har gitt de riktige tillatelsene for å få tilgang til S3-bøtter.
  • Forbehandlingstrinn – Hvis du bruker forskjellige data for trening og testing, kan det være lurt å justere forbehandlingstrinnene i henhold til dine krav.
  • Tester data – Du kan ta med dine egne slutningsdata for testing.
  • Rydd opp – Slett ressursene som ble lansert av den bærbare datamaskinen for å unngå gjentakende kostnader.

konklusjonen

I dette innlegget viste vi deg hvordan du bruker JumpStart for å lære og raskere bruk av Amazon Comprehend APIer ved å gjøre det praktisk å finne og kjøre Amazon Comprehend-relaterte notatbøker fra Studio mens du har muligheten til å endre koden etter behov. Notatbøkene bruker eksempeldatasett med AWS-produktkunngjøringer og eksempler på nyhetsartikler. Du kan bruke denne notatboken til å lære hvordan du bruker Amazon Comprehend API-er i en Python-notisbok, eller du kan bruke den som et utgangspunkt og utvide koden ytterligere for dine unike krav og produksjonsdistribusjoner.

Du kan begynne å bruke JumpStart og dra nytte av over 40 notatblokker i ulike emner i alle regioner der Studio er tilgjengelig uten ekstra kostnad.


Om forfatterne

Forfatter - Lana ZhangLana Zhang er senior løsningsarkitekt ved AWS WWSO AI Services-teamet med ekspertise innen AI og ML for innholdsmoderering og -gjenkjenning. Hun brenner for å promotere AWS AI-tjenester og hjelpe kunder med å transformere sine forretningsløsninger.

Forfatter - Meenakshisundaram ThandavarayanMeenakshisundaram Thandavarayan er en senior AI/ML-spesialist med AWS. Han hjelper høyteknologiske strategiske kontoer på deres AI- og ML-reise. Han er veldig lidenskapelig opptatt av datadrevet AI

Forfatter - Rachna ChadhaRachna Chadha er en hovedløsningsarkitekt AI/ML i strategiske kontoer hos AWS. Rachna er en optimist som tror at etisk og ansvarlig bruk av AI kan forbedre samfunnet i fremtiden og bringe økonomisk og sosial velstand. På fritiden liker Rachna å tilbringe tid med familien, gå på tur og høre på musikk.

Tidstempel:

Mer fra AWS maskinlæring