Tips til at forbedre din Amazon-genkendelsesmodel med tilpassede etiketter

Genudgivet af Platon

Abonnenter: 0

I dette indlæg diskuterer vi bedste praksis for at forbedre ydeevnen af dine computervisionsmodeller ved hjælp af Tilpassede etiketter til Amazon-genkendelse. Rekognition Custom Labels er en fuldt administreret tjeneste til at bygge brugerdefinerede computervisionsmodeller til billedklassificering og objektdetektering. Rekognition Custom Labels bygger på de fortrænede modeller i Amazon-anerkendelse, som allerede er trænet på titusinder af billeder på tværs af mange kategorier. I stedet for tusindvis af billeder, kan du komme i gang med et lille sæt træningsbilleder (et par hundrede eller mindre), der er specifikke for din use case. Tilpassede etiketter for anerkendelse fjerner kompleksiteten, der er forbundet med at bygge en tilpasset model. Den inspicerer automatisk træningsdataene, vælger de rigtige ML-algoritmer, vælger instanstypen, træner flere kandidatmodeller med forskellige hyperparametreindstillinger og udsender den bedst trænede model. Rekognition Custom Labels giver også en brugervenlig grænseflade fra AWS Management Console til styring af hele ML-workflowet, herunder mærkning af billeder, træning af modellen, implementering af modellen og visualisering af testresultaterne.

Der er tidspunkter, hvor en models nøjagtighed ikke er den bedste, og du har ikke mange muligheder for at justere modellens konfigurationsparametre. Bag kulisserne er der flere faktorer, der spiller en nøglerolle for at bygge en højtydende model, såsom følgende:

Billedvinkel
Billedopløsning
Billedformatforhold
Lyseksponering
Klarhed og livagtig baggrund
Farvekontrast
Eksempel på datastørrelse

Følgende er de generelle trin, der skal følges for at træne en produktionskvalitetsmodel med anerkendelse af brugerdefinerede etiketter:

Gennemgå taksonomi – Dette definerer listen over attributter/elementer, som du ønsker at identificere i et billede.
Indsamle relevante data – Dette er det vigtigste trin, hvor du skal samle relevante billeder, der skal ligne det, du ville se i et produktionsmiljø. Dette kan involvere billeder af objekter med varierende baggrunde, belysning eller kameravinkler. Du opretter derefter et trænings- og testdatasæt ved at opdele de indsamlede billeder. Du bør kun inkludere billeder fra den virkelige verden som en del af testdatasættet og bør ikke inkludere nogen syntetisk genererede billeder. Annoteringer af de data, du har indsamlet, er afgørende for modellens ydeevne. Sørg for, at afgrænsningskasserne er tætte omkring objekterne, og at etiketterne er nøjagtige. Vi diskuterer nogle tips, som du kan overveje, når du bygger et passende datasæt senere i dette indlæg.
Gennemgå træningsmålinger – Brug de foregående datasæt til at træne en model og gennemgå træningsmålingerne for F1-score, præcision og genkaldelse. Vi vil diskutere i detaljer om, hvordan man analyserer træningsmålingerne senere i dette indlæg.
Evaluer den trænede model – Brug et sæt usete billeder (ikke brugt til træning af modellen) med kendte etiketter til at evaluere forudsigelserne. Dette trin skal altid udføres for at sikre, at modellen fungerer som forventet i et produktionsmiljø.
Omtræning (valgfrit) – Generelt er træning af enhver maskinlæringsmodel en iterativ proces for at opnå de ønskede resultater, en computervisionsmodel er ikke anderledes. Gennemgå resultaterne i trin 4 for at se, om der skal tilføjes flere billeder til træningsdataene, og gentag ovenstående trin 3 – 5.

I dette indlæg fokuserer vi på bedste praksis omkring indsamling af relevante data (trin 2) og evaluering af dine trænede metrics (trin 3) for at forbedre din models ydeevne.

Indsamle relevante data

Dette er det mest kritiske trin i træningen af en produktions-grade Rekognition Custom Labels-model. Konkret er der to datasæt: træning og test. Træningsdata bruges til at træne modellen, og du skal bruge kræfterne på at opbygge et passende træningssæt. Anerkendelse Custom Labels modeller er optimeret til f1 score på testdatasættet for at vælge den mest nøjagtige model til dit projekt. Derfor er det vigtigt at sammensætte et testdatasæt, der ligner den virkelige verden.

Antal billeder

Vi anbefaler at have minimum 15-20 billeder pr. etiket. Hvis du har flere billeder med flere variationer, der afspejler din brugssituation, forbedres modellens ydeevne.

Balanceret datasæt

Ideelt set bør hver etiket i datasættet have et tilsvarende antal prøver. Der bør ikke være en massiv forskel i antallet af billeder pr. etiket. Et datasæt, hvor det højeste antal billeder for en etiket er 1,000 vs. 50 billeder for en anden etiket, ligner f.eks. et ubalanceret datasæt. Vi anbefaler at undgå scenarier med skævt forhold på 1:50 mellem etiketten med det mindste antal billeder og etiketten med det højeste antal billeder.

Forskellige typer billeder

Inkluder billeder i trænings- og testdatasættet, der ligner det, du vil bruge i den virkelige verden. For eksempel, hvis du vil klassificere billeder af stuer vs. soveværelser, bør du inkludere tomme og møblerede billeder af begge rum.

Det følgende er et eksempelbillede af en møbleret stue.

I modsætning hertil er det følgende et eksempel på en umøbleret stue.

Det følgende er et eksempelbillede af et møbleret soveværelse.

Det følgende er et eksempelbillede af et umøbleret soveværelse.

Forskellige baggrunde

Inkluder billeder med forskellige baggrunde. Billeder med naturlig kontekst kan give bedre resultater end almindelig baggrund.

Det følgende er et eksempelbillede af forhaven til et hus.

Det følgende er et eksempelbillede af forhaven til et andet hus med en anden baggrund.

Forskellige lysforhold

Medtag billeder med varierende belysning, så det dækker de forskellige lysforhold, der opstår under inferens (f.eks. med og uden blitz). Du kan også inkludere billeder med varierende mætning, farvetone og lysstyrke.

Det følgende er et eksempelbillede af en blomst under normalt lys.

I modsætning hertil er det følgende billede af den samme blomst under stærkt lys.

Varierende vinkler

Inkluder billeder taget fra forskellige vinkler af objektet. Dette hjælper modellen med at lære forskellige egenskaber ved objekterne.

De følgende billeder er af det samme soveværelse fra forskellige vinkler.

Tips til at forbedre din Amazon Rekognition Custom Labels-model PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Der kan være tilfælde, hvor det ikke er muligt at erhverve billeder af forskellige typer. I disse scenarier kan syntetiske billeder genereres som en del af træningsdatasættet. For mere information om almindelige billedforstærkningsteknikker, se Dataforøgelse.

Tilføj negative etiketter

Til billedklassificering kan tilføjelse af negative etiketter hjælpe med at øge modellens nøjagtighed. Du kan f.eks. tilføje en negativ etiket, som ikke matcher nogen af de påkrævede etiketter. Følgende billede repræsenterer de forskellige etiketter, der bruges til at identificere fuldt udvoksede blomster.

Tilføjelse af den negative etiket not_fully_grown hjælper modellen med at lære karakteristika, der ikke er en del af fully_grown etiket.

Håndtering af etiketforvirring

Analyser resultaterne på testdatasættet for at genkende eventuelle mønstre, der savnes i trænings- eller testdatasættet. Nogle gange er det nemt at få øje på sådanne mønstre ved visuelt at undersøge billederne. På det følgende billede kæmper modellen for at finde en løsning mellem en baggård vs. terrasselabel.

I dette scenarie kan tilføjelse af flere billeder til disse etiketter i datasættet og også redefinere etiketterne, så hver etiket er særskilt, hjælpe med at øge modellens nøjagtighed.

Dataforøgelse

Inde i Rekognition Custom Labels udfører vi forskellige dataforstørrelser til modeltræning, herunder tilfældig beskæring af billedet, farverysten, tilfældige Gauss-støj og mere. Baseret på dine specifikke use cases, kan det også være en fordel at tilføje mere eksplicitte dataforstørrelser til dine træningsdata. For eksempel, hvis du er interesseret i at opdage dyr i både farve- og sort/hvidbilleder, kan du potentielt få bedre nøjagtighed ved at tilføje sort/hvid og farveversioner af de samme billeder til træningsdataene.

Vi anbefaler ikke forøgelser af testdata, medmindre forøgelserne afspejler dine produktionsanvendelsessager.

Gennemgå træningsmålinger

F1-score, præcision, genkaldelse og antaget tærskel er målinger der genereres som et output af træning af en model ved hjælp af Rekognition Custom Labels. Modellerne er optimeret til den bedste F1-score baseret på det testdatasæt, der leveres. Den antagne tærskel er også genereret baseret på testdatasættet. Du kan justere tærsklen baseret på dit forretningsbehov med hensyn til præcision eller tilbagekaldelse.

Fordi de antagne tærskler er indstillet på testdatasættet, bør et passende testsæt afspejle den virkelige produktionsanvendelse. Hvis testdatasættet ikke er repræsentativt for brugssagen, kan du se kunstigt høje F1-score og dårlig modelydelse på dine billeder fra den virkelige verden.

Disse målinger er nyttige, når du udfører en indledende evaluering af modellen. For et produktionssystem anbefaler vi at evaluere modellen mod et eksternt datasæt (500-1,000 usete billeder), der er repræsentativt for den virkelige verden. Dette hjælper med at evaluere, hvordan modellen ville fungere i et produktionssystem og også identificere eventuelle manglende mønstre og rette dem ved at omskole modellen. Hvis du ser et misforhold mellem F1-score og ekstern evaluering, foreslår vi, at du undersøger, om dine testdata afspejler den virkelige brugssituation.

Konklusion

I dette indlæg ledte vi dig gennem de bedste fremgangsmåder til at forbedre Rekognition Custom Labels-modeller. Vi opfordrer dig til at lære mere om Brugerdefinerede etiketter for anerkendelse og prøv det til dine virksomhedsspecifikke datasæt.

Om forfatterne

Amit Gupta er senior AI Services Solutions Architect hos AWS. Han brænder for at give kunderne veldesignede maskinlæringsløsninger i stor skala.

Yogesh Chaturvedi er Solutions Architect hos AWS med fokus på computervision. Han arbejder med kunder for at løse deres forretningsmæssige udfordringer ved hjælp af cloud-teknologier. Uden for arbejdet nyder han at vandre, rejse og se sport.

Hao Yang er Senior Applied Scientist hos Amazon Rekognition Custom Labels-teamet. Hans vigtigste forskningsinteresser er objektdetektion og læring med begrænsede annotationer. Udenfor arbejder, nyder Hao at se film, fotografering og udendørs aktiviteter.

Pashmeen Mistry er Senior Product Manager for Amazon Rekognition Custom Labels. Uden for arbejdet nyder Pashmeen eventyrlige vandreture, fotografering og at tilbringe tid med sin familie.

Tidsstempel: September 9, 2022September 10, 2022

Mere fra AWS maskinindlæring

Hvordan Mendix transformerer kundeoplevelser med generativ kunstig intelligens og Amazon Bedrock | Amazon Web Services

AWS maskinindlæring

Kildeknude: 1913698

Tidsstempel: November 15, 2023

Skaler LLM'er med PyTorch 2.0 FSDP på Amazon EKS – Del 2 | Amazon Web Services

Kildeklynge:

AWS maskinindlæring

Kildeknude: 1960833

Tidsstempel: April 1, 2024

Tips til at forbedre din Amazon Rekognition Custom Labels-model

Genudgivet af Platon

Indsamle relevante data

Antal billeder

Balanceret datasæt

Forskellige typer billeder

Forskellige baggrunde

Forskellige lysforhold

Varierende vinkler

Tilføj negative etiketter

Håndtering af etiketforvirring

Dataforøgelse

Gennemgå træningsmålinger

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Overfør læring til TensorFlow-billedklassificeringsmodeller i Amazon SageMaker

Genoplær automatisk neurale netværk med Renate

Reducer madspild for at forbedre bæredygtighed og økonomiske resultater i detailhandlen med Amazon Forecast

Forbered data fra Amazon EMR til maskinlæring ved hjælp af Amazon SageMaker Data Wrangler

Kør ensemble ML-modeller på Amazon SageMaker

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto