Amazon SageMaker JumpStart tilbyder nu Amazon Comprehend Notebooks til tilpasset klassificering og tilpasset enhedsdetektion

Genudgivet af Platon

Abonnenter: 0

Amazon Comprehend er en NLP-tjeneste (natural language processing), der bruger maskinlæring (ML) til at opdage indsigt fra tekst. Amazon Comprehend tilbyder tilpassede funktioner, tilpasset enhedsgenkendelse, tilpasset klassificeringog forudtrænede API'er såsom nøglesætningsudtrækning, sentimentanalyse, enhedsgenkendelse og mere, så du nemt kan integrere NLP i dine applikationer.

Vi har for nylig tilføjet Amazon Comprehend-relaterede notesbøger Amazon SageMaker JumpStart notesbøger, der kan hjælpe dig med hurtigt at komme i gang med at bruge Amazon Comprehends brugerdefinerede klassificering og brugerdefinerede enhedsgenkendelse. Du kan bruge tilpasset klassificering til at organisere dokumenter i kategorier (klasser), som du definerer. Brugerdefineret enhedsgenkendelse udvider mulighederne for Amazon Comprehend præ-trænede enhedsdetektions-API ved at hjælpe dig med at identificere enhedstyper, der er unikke for dit domæne eller virksomhed, som ikke er i den forudindstillede generiske enhedstyper.

I dette indlæg viser vi dig, hvordan du bruger JumpStart til at bygge Amazon Comprehend tilpasset klassificering og brugerdefinerede enhedsdetekteringsmodeller som en del af dine NLP-behov.

SageMaker JumpStart

Amazon SageMaker Studio landingsside giver mulighed for at bruge JumpStart. JumpStart giver en hurtig måde at komme i gang på ved at levere forudtrænede modeller til en række forskellige problemtyper. Du kan træne og tune disse modeller. JumpStart giver også andre ressourcer såsom notesbøger, blogs og videoer.

JumpStart-notebooks er i det væsentlige eksempelkode, som du kan bruge som udgangspunkt for at komme hurtigt i gang. I øjeblikket giver vi dig over 40 notesbøger, som du kan bruge som de er eller tilpasse efter behov. Du kan finde dine notesbøger ved at bruge søgning eller visningspanelet med faner. Når du har fundet den notesbog, du vil bruge, kan du importere den, tilpasse den til dine krav og vælge den infrastruktur og det miljø, du vil køre notebooken på.

Kom godt i gang med JumpStart-notebooks

For at komme i gang med JumpStart skal du gå til Amazon SageMaker konsol og åbn Studio. Henvise til Kom godt i gang med SageMaker Studio for instruktioner om, hvordan du kommer i gang med Studio. Udfør derefter følgende trin:

I Studio skal du gå til startsiden for JumpStart og vælge Gå til SageMaker JumpStart.

Du tilbydes flere måder at søge på. Du kan enten bruge faner på toppen for at komme til det, du ønsker, eller bruge søgefeltet som vist på det følgende skærmbillede.

For at finde notesbøger går vi til Notebooks fane.

Gå til fanen Notesbøger

I skrivende stund tilbyder JumpStart 47 notesbøger. Du kan bruge filtre til at finde Amazon Comprehend-relaterede notesbøger.

På Indholdstype rullemenu, vælg Notesbog.

Som du kan se på det følgende skærmbillede, har vi i øjeblikket to Amazon Comprehend-notesbøger.

Find Comprehend Notebooks

I de følgende afsnit udforsker vi begge notesbøger.

Amazon Comprehend Custom Classifier

I denne notesbog viser vi, hvordan du bruger brugerdefineret klassificerings-API at oprette en dokumentklassifikationsmodel.

Den brugerdefinerede klassificering er en fuldt administreret Amazon Comprehend-funktion, der lader dig bygge brugerdefinerede tekstklassificeringsmodeller, der er unikke for din virksomhed, selvom du har ringe eller ingen ML-ekspertise. Den brugerdefinerede klassificering bygger på de eksisterende muligheder i Amazon Comprehend, som allerede er trænet på titusinder af dokumenter. Det abstraherer meget af den kompleksitet, der kræves for at bygge en NLP-klassificeringsmodel. Den brugerdefinerede klassifikator indlæser og inspicerer automatisk træningsdataene, vælger de rigtige ML-algoritmer, træner din model, finder de optimale hyperparametre, tester modellen og leverer modelpræstationsmålinger. Amazon Comprehend brugerdefinerede klassificering giver også en brugervenlig konsol til hele ML-workflowet, inklusive mærkning af tekst ved hjælp af Amazon SageMaker Ground Truth, træning og implementering af en model og visualisering af testresultaterne. Med en tilpasset Amazon Comprehend klassificering kan du bygge følgende modeller:

Multi-klasse klassifikationsmodel – I multi-class klassificering kan hvert dokument have én og kun én klasse tildelt. De enkelte klasser udelukker hinanden. For eksempel kan en film klassificeres som en dokumentar eller som science fiction, men ikke begge dele på samme tid.
Multi-label klassificeringsmodel – I multi-label klassificering repræsenterer individuelle klasser forskellige kategorier, men disse kategorier er på en eller anden måde relaterede og udelukker ikke hinanden. Som et resultat har hvert dokument mindst én klasse tildelt, men kan have flere. For eksempel kan en film simpelthen være en actionfilm, eller det kan være en actionfilm, en science fiction-film og en komedie, alt sammen på samme tid.

Denne notesbog kræver ingen ML-ekspertise for at træne en model med eksempeldatasættet eller med dit eget virksomhedsspecifikke datasæt. Du kan bruge API-handlingerne, der er beskrevet i denne notesbog, i dine egne applikationer.

Amazon Custom Entity Recognizer

I denne notesbog viser vi, hvordan du bruger tilpasset enhedsgenkendelses-API at skabe en enhedsgenkendelsesmodel.

Brugerdefineret enhedsgenkendelse udvider Amazon Comprehends muligheder ved at hjælpe dig med at identificere dine specifikke enhedstyper, der ikke er i de forudindstillede generiske enhedstyper. Det betyder, at du kan analysere dokumenter og udtrække enheder som produktkoder eller forretningsspecifikke enheder, der passer til dine særlige behov.

Opbygning af en nøjagtig brugerdefineret enhedsgenkendelse på egen hånd kan være en kompleks proces, der kræver forberedelse af store sæt manuelt annoterede træningsdokumenter og valg af de rigtige algoritmer og parametre til modeltræning. Amazon Comprehend hjælper med at reducere kompleksiteten ved at levere automatisk annotering og modeludvikling for at skabe en tilpasset enhedsgenkendelsesmodel.

Eksempelnotesbogen tager træningsdatasættet i CSV-format og kører inferens mod tekstinput. Amazon Comprehend understøtter også en avanceret use case, der tager Ground Truth annoterede data til træning og giver dig mulighed for direkte at køre inferens på PDF'er og Word-dokumenter. For mere information, se Byg en brugerdefineret enhedsgenkendelse til PDF-dokumenter ved hjælp af Amazon Comprehend.

Amazon Comprehend har sænket annotationsgrænserne og givet dig mulighed for at få mere stabile resultater, især for få-skuds delprøver. For mere information om denne forbedring, se Amazon Comprehend annoncerer lavere annotationsgrænser for tilpasset enhedsgenkendelse.

Brug, tilpas og implementer Amazon Comprehend JumpStart-notebooks

Når du har valgt den Amazon Comprehend notesbog, du vil bruge, skal du vælge Importer notesbog. Mens du gør det, kan du se notebookkernen starte.

Importer notesbog

Import af din notesbog udløser valg af den notesbogsforekomst, kerne og billede, der bruges til at køre notesbogen. Når standardinfrastrukturen er klargjort, kan du ændre valgene i henhold til dine krav.

Notesbog i dit SageMaker Studio

Gå nu over omridset af notesbogen og læs omhyggeligt afsnittene for forudsætningsopsætning, dataopsætning, træning af modellen, kørsel af konklusioner og stop af modellen. Du er velkommen til at tilpasse den genererede kode efter dine behov.

Baseret på dine krav vil du måske tilpasse følgende sektioner:

Tilladelser – For en produktionsapplikation anbefaler vi at begrænse adgangspolitikker til kun dem, der er nødvendige for at køre applikationen. Tilladelser kan begrænses baseret på brugssituationen, såsom træning eller inferens, og specifikke ressourcenavne, såsom en fuld Amazon Simple Storage Service (Amazon S3) spandnavn eller et S3-spandnavnemønster. Du bør også begrænse adgangen til den brugerdefinerede klassificering eller SageMaker-operationer til netop dem, som din applikation har brug for.
Data og placering – Eksempelnotebooken giver dig eksempler på data og S3-placeringer. Baseret på dine krav kan du bruge dine egne data til træning, validering og test og bruge forskellige S3-lokationer efter behov. På samme måde kan du, når modellen er oprettet, vælge at beholde modellen på forskellige steder. Bare sørg for, at du har givet de rigtige tilladelser til at få adgang til S3 buckets.
Forbehandlingstrin – Hvis du bruger forskellige data til træning og test, kan det være en god idé at justere forbehandlingstrinnene efter dine krav.
Testdata – Du kan medbringe dine egne slutningsdata til test.
Ryd op – Slet de ressourcer, der er lanceret af notesbogen for at undgå tilbagevendende gebyrer.

Konklusion

I dette indlæg viste vi dig, hvordan du bruger JumpStart til at lære og fastholde brugen af Amazon Comprehend API'er ved at gøre det praktisk at finde og køre Amazon Comprehend-relaterede notebooks fra Studio, mens du har mulighed for at ændre koden efter behov. Notebooks bruger eksempeldatasæt med AWS-produktmeddelelser og eksempler på nyhedsartikler. Du kan bruge denne notesbog til at lære, hvordan du bruger Amazon Comprehend API'er i en Python-notesbog, eller du kan bruge den som udgangspunkt og udvide koden yderligere til dine unikke krav og produktionsimplementeringer.

Du kan begynde at bruge JumpStart og drage fordel af over 40 notesbøger inden for forskellige emner i alle regioner, hvor Studio er tilgængeligt uden ekstra omkostninger.

Om forfatterne

Forfatter - Lana Zhang Lana Zhang er en Sr. Solutions Architect hos AWS WWSO AI Services-teamet med ekspertise i AI og ML for Content Moderation and Recognition. Hun brænder for at promovere AWS AI-tjenester og hjælpe kunder med at transformere deres forretningsløsninger.

Forfatter - Meenakshisundaram Thandavarayan Meenakshisundaram Thandavarayan er senior AI/ML specialist med AWS. Han hjælper hi-tech strategiske konti på deres AI og ML rejse. Han er meget passioneret omkring datadrevet AI

Forfatter - Rachna Chadha Rachna Chadha er Principal Solution Architect AI/ML i Strategic Accounts hos AWS. Rachna er en optimist, der mener, at etisk og ansvarlig brug af kunstig intelligens kan forbedre samfundet i fremtiden og bringe økonomisk og social velstand. I sin fritid kan Rachna godt lide at bruge tid med sin familie, vandreture og lytte til musik.

Tidsstempel: 12. December, 202213. December, 2022

Tidsstempel: April 19, 2023

Amazon SageMaker JumpStart tilbyder nu Amazon Comprehend notesbøger til brugerdefineret klassificering og brugerdefineret enhedsdetektion

Genudgivet af Platon

SageMaker JumpStart

Kom godt i gang med JumpStart-notebooks

Amazon Comprehend Custom Classifier

Amazon Custom Entity Recognizer

Brug, tilpas og implementer Amazon Comprehend JumpStart-notebooks

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Maksimer stabil diffusionsydelse og sænk slutningsomkostninger med AWS Inferentia2 | Amazon Web Services

Billedforøgelsespipeline til Amazon Lookout for Vision

Opret en HCLS dokumentopsummeringsapplikation med Falcon ved hjælp af Amazon SageMaker JumpStart | Amazon Web Services

Generer billeder fra tekst med den stabile diffusionsmodel på Amazon SageMaker JumpStart

Udforsk Amazon SageMaker Data Wrangler-funktioner med eksempeldatasæt

Boost din indholdsredigering med Contentful og Amazon Bedrock | Amazon Web Services

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto