Amazon SageMaker JumpStart erbjuder nu Amazon Comprehend-anteckningsböcker för anpassad klassificering och anpassad enhetsdetektering PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Amazon SageMaker JumpStart erbjuder nu Amazon Comprehend-anteckningsböcker för anpassad klassificering och identifiering av anpassade enheter

Amazon Comprehend är en NLP-tjänst (natural language processing) som använder maskininlärning (ML) för att upptäcka insikter från text. Amazon Comprehend erbjuder anpassade funktioner, anpassad enhetsigenkänning, anpassad klassificeringoch förutbildade API:er såsom nyckelfrasextraktion, sentimentanalys, enhetsigenkänning och mer så att du enkelt kan integrera NLP i dina applikationer.

Vi har nyligen lagt till Amazon Comprehend-relaterade anteckningsböcker Amazon SageMaker JumpStart anteckningsböcker som kan hjälpa dig att snabbt komma igång med Amazon Comprehends anpassade klassificerare och anpassade enhetsidentifierare. Du kan använda anpassad klassificering för att organisera dokument i kategorier (klasser) som du definierar. Anpassad enhetsigenkänning utökar kapaciteten hos Amazon Comprehend förutbildade enhetsdetekterings-API genom att hjälpa dig att identifiera enhetstyper som är unika för din domän eller verksamhet som inte finns i den förinställda generiska enhetstyper.

I det här inlägget visar vi dig hur du använder JumpStart för att bygga Amazon Comprehend anpassad klassificering och anpassade enhetsdetekteringsmodeller som en del av ditt företags NLP-behov.

SageMaker JumpStart

Smakämnen Amazon SageMaker Studio landningssidan ger möjlighet att använda JumpStart. JumpStart ger ett snabbt sätt att komma igång genom att tillhandahålla förutbildade modeller för en mängd olika problemtyper. Du kan träna och trimma dessa modeller. JumpStart tillhandahåller också andra resurser som anteckningsböcker, bloggar och videor.

JumpStart-anteckningsböcker är i huvudsak exempelkod som du kan använda som utgångspunkt för att snabbt komma igång. För närvarande förser vi dig med över 40 bärbara datorer som du kan använda som de är eller anpassa efter behov. Du kan hitta dina anteckningsböcker genom att använda sökfunktionen eller vypanelen med flikar. När du har hittat den anteckningsbok du vill använda kan du importera den, anpassa den efter dina krav och välja infrastruktur och miljö att köra den på.

Kom igång med JumpStart-anteckningsböcker

För att komma igång med JumpStart, gå till Amazon SageMaker konsolen och öppna Studio. Hänvisa till Kom igång med SageMaker Studio för instruktioner om hur du kommer igång med Studio. Slutför sedan följande steg:

  1. I Studio, gå till startsidan för JumpStart och välj Gå till SageMaker JumpStart.

Du erbjuds flera sätt att söka. Du kan antingen använda flikar på toppen för att komma till det du vill ha, eller använda sökrutan som visas i följande skärmdump.

  1. För att hitta anteckningsböcker går vi till bärbara datorer fliken.

Gå till fliken Anteckningsböcker

I skrivande stund erbjuder JumpStart 47 anteckningsböcker. Du kan använda filter för att hitta Amazon Comprehend-relaterade anteckningsböcker.

  1. Innehållstyp rullgardinsmeny, välj Notebook.

Som du kan se i följande skärmdump har vi för närvarande två Amazon Comprehend-anteckningsböcker.

Hitta Comprehend Notebooks

I de följande avsnitten utforskar vi båda anteckningsböckerna.

Amazon Comprehend Custom Classifier

I den här anteckningsboken visar vi hur man använder anpassad klassificerare API för att skapa en dokumentklassificeringsmodell.

Den anpassade klassificeraren är en fullt hanterad Amazon Comprehend-funktion som låter dig bygga anpassade textklassificeringsmodeller som är unika för ditt företag, även om du har liten eller ingen ML-expertis. Den anpassade klassificeraren bygger på de befintliga funktionerna hos Amazon Comprehend, som redan är utbildade på tiotals miljoner dokument. Den abstraherar mycket av den komplexitet som krävs för att bygga en NLP-klassificeringsmodell. Den anpassade klassificeraren laddar och inspekterar automatiskt träningsdata, väljer rätt ML-algoritmer, tränar din modell, hittar de optimala hyperparametrarna, testar modellen och tillhandahåller modellprestandamått. Den anpassade klassificeraren Amazon Comprehend tillhandahåller också en lättanvänd konsol för hela ML-arbetsflödet, inklusive märkning av text med Amazon SageMaker Ground Sannhet, utbildning och implementering av en modell och visualisering av testresultaten. Med en anpassad klassificerare från Amazon Comprehend kan du bygga följande modeller:

  • Flerklassig klassificeringsmodell – I flerklassklassificering kan varje dokument ha en och endast en klass tilldelad. De enskilda klasserna utesluter varandra. Till exempel kan en film klassas som en dokumentär eller som science fiction, men inte båda samtidigt.
  • Klassificeringsmodell för flera etiketter – I multi-label-klassificering representerar enskilda klasser olika kategorier, men dessa kategorier är på något sätt relaterade och utesluter inte varandra. Som ett resultat har varje dokument minst en klass tilldelad, men kan ha fler. Till exempel kan en film helt enkelt vara en actionfilm, eller det kan vara en actionfilm, en science fiction-film och en komedi, allt på samma gång.

Den här anteckningsboken kräver ingen ML-expertis för att träna en modell med exempeldatauppsättningen eller med din egen företagsspecifika datauppsättning. Du kan använda API-operationerna som diskuteras i den här anteckningsboken i dina egna applikationer.

Amazon Custom Entity Recognizer

I den här anteckningsboken visar vi hur man använder anpassad enhetsigenkännings-API att skapa en enhetsidentifieringsmodell.

Anpassad enhetsigenkänning utökar funktionerna hos Amazon Comprehend genom att hjälpa dig att identifiera dina specifika entitetstyper som inte finns i de förinställda generiska entitetstyperna. Det betyder att du kan analysera dokument och extrahera enheter som produktkoder eller affärsspecifika enheter som passar just dina behov.

Att bygga en exakt anpassad enhetsidentifierare på egen hand kan vara en komplex process, som kräver förberedelser av stora uppsättningar av manuellt kommenterade utbildningsdokument och val av rätt algoritmer och parametrar för modellträning. Amazon Comprehend hjälper till att minska komplexiteten genom att tillhandahålla automatisk annotering och modellutveckling för att skapa en anpassad enhetsigenkänningsmodell.

Exempelanteckningsboken tar träningsdatauppsättningen i CSV-format och kör slutledning mot textinmatning. Amazon Comprehend stöder också ett avancerat användningsfall som tar med Ground Truth-kommentarer för utbildning och låter dig köra slutsatser direkt på PDF-filer och Word-dokument. För mer information, se Bygg en anpassad enhetsidentifierare för PDF-dokument med Amazon Comprehend.

Amazon Comprehend har sänkt anteckningsgränserna och gjort det möjligt för dig att få mer stabila resultat, särskilt för delprover med få skott. För mer information om denna förbättring, se Amazon Comprehend tillkännager lägre anteckningsgränser för anpassad enhetsigenkänning.

Den här anteckningsboken kräver ingen ML-expertis för att träna en modell med exempeldatauppsättningen eller med din egen företagsspecifika datauppsättning. Du kan använda API-operationerna som diskuteras i den här anteckningsboken i dina egna applikationer.

Använd, anpassa och distribuera Amazon Comprehend JumpStart-anteckningsböcker

När du har valt Amazon Comprehend-anteckningsboken du vill använda väljer du Importera anteckningsbok. När du gör det kan du se notebook-kärnan starta.

Importera anteckningsbok

När du importerar din anteckningsbok utlöses valet av anteckningsbokens instans, kärna och bild som används för att köra anteckningsboken. När standardinfrastrukturen har tillhandahållits kan du ändra valen enligt dina krav.

Notebook i din SageMaker Studio

Gå nu igenom konturerna av anteckningsboken och läs noggrant avsnitten för förutsättningsinställning, datainställning, träning av modellen, körning av slutledning och stopp av modellen. Känn dig fri att anpassa den genererade koden efter dina behov.

Baserat på dina krav kanske du vill anpassa följande avsnitt:

  • behörigheter – För en produktionsapplikation rekommenderar vi att du begränsar åtkomstpolicyer till endast de som behövs för att köra applikationen. Behörigheter kan begränsas baserat på användningsfallet, såsom utbildning eller slutledning, och specifika resursnamn, såsom en fullständig Amazon enkel lagringstjänst (Amazon S3) hinknamn eller ett S3-hinknamnsmönster. Du bör också begränsa åtkomsten till den anpassade klassificeraren eller SageMaker-operationerna till just de som din applikation behöver.
  • Data och plats – Exempelanteckningsboken ger dig exempeldata och S3-platser. Baserat på dina krav kan du använda din egen data för utbildning, validering och testning och använda olika S3-platser efter behov. På samma sätt, när modellen skapas, kan du välja att behålla modellen på olika platser. Se bara till att du har angett rätt behörigheter för att komma åt S3-hinkar.
  • Förbehandlingssteg – Om du använder olika data för träning och testning, kanske du vill justera förbearbetningsstegen efter dina krav.
  • Testdata – Du kan ta med din egen slutledningsdata för testning.
  • Städa upp – Ta bort resurserna som lanserats av den bärbara datorn för att undvika återkommande avgifter.

Slutsats

I det här inlägget visade vi dig hur du använder JumpStart för att lära dig och snabba upp användningen av Amazon Comprehend API:er genom att göra det bekvämt att hitta och köra Amazon Comprehend-relaterade anteckningsböcker från Studio samtidigt som du har möjlighet att ändra koden efter behov. Anteckningsböckerna använder exempeldatauppsättningar med AWS-produktmeddelanden och exempelnyhetsartiklar. Du kan använda den här anteckningsboken för att lära dig hur du använder Amazon Comprehend API:er i en Python-anteckningsbok, eller så kan du använda den som utgångspunkt och utöka koden ytterligare för dina unika krav och produktionsinstallationer.

Du kan börja använda JumpStart och dra nytta av över 40 bärbara datorer inom olika ämnen i alla regioner där Studio är tillgängligt utan extra kostnad.


Om författarna

Författare - Lana ZhangLana Zhang är Sr. Solutions Architect på AWS WWSO AI Services-teamet med expertis inom AI och ML för innehållsmoderering och erkännande. Hon brinner för att marknadsföra AWS AI-tjänster och hjälpa kunder att förändra sina affärslösningar.

Författare - Meenakshisundaram ThandavarayanMeenakshisundaram Thandavarayan är senior AI/ML-specialist med AWS. Han hjälper högteknologiska strategiska konton på deras AI- och ML-resa. Han brinner mycket för datadriven AI

Författare - Rachna ChadhaRachna Chadha är en Principal Solution Architect AI/ML i Strategic Accounts på AWS. Rachna är en optimist som tror att etisk och ansvarsfull användning av AI kan förbättra samhället i framtiden och ge ekonomiskt och socialt välstånd. På fritiden gillar Rachna att umgås med sin familj, vandra och lyssna på musik.

Tidsstämpel:

Mer från AWS maskininlärning