Tips for å forbedre Amazon-gjenkjenningsmodellen for tilpassede etiketter

Publisert av Platon

Følgere: 0

I dette innlegget diskuterer vi beste praksis for å forbedre ytelsen til datasynsmodellene dine Amazon Rekognition Egendefinerte etiketter. Rekognition Custom Labels er en fullstendig administrert tjeneste for å bygge tilpassede datasynsmodeller for bildeklassifisering og brukstilfeller for gjenkjenning av objekter. Rekognition Custom Labels bygger på de forhåndstrente modellene i Amazon-anerkjennelse, som allerede er trent på titalls millioner bilder i mange kategorier. I stedet for tusenvis av bilder, kan du komme i gang med et lite sett med treningsbilder (noen hundre eller færre) som er spesifikke for ditt bruksområde. Egendefinerte etiketter for anerkjennelse abstraherer kompleksiteten som er involvert i å bygge en tilpasset modell. Den inspiserer automatisk treningsdataene, velger de riktige ML-algoritmene, velger forekomsttypen, trener flere kandidatmodeller med ulike hyperparameterinnstillinger og gir ut den best trente modellen. Egendefinerte etiketter for anerkjennelse gir også et brukervennlig grensesnitt fra AWS-administrasjonskonsoll for å administrere hele ML-arbeidsflyten, inkludert merking av bilder, opplæring av modellen, distribusjon av modellen og visualisering av testresultatene.

Det er tider når en modells nøyaktighet ikke er den beste, og du har ikke mange alternativer for å justere konfigurasjonsparametrene til modellen. Bak kulissene er det flere faktorer som spiller en nøkkelrolle for å bygge en høyytende modell, for eksempel følgende:

Bildevinkel
Bildeoppløsning
Bildesideforhold
Lyseksponering
Klarhet og liv i bakgrunnen
Fargekontrast
Eksempel på datastørrelse

Følgende er de generelle trinnene som skal følges for å trene en produksjonskvalitetsmodell for egendefinerte etiketter:

Gjennomgå taksonomi – Dette definerer listen over attributter/elementer som du ønsker å identifisere i et bilde.
Samle inn relevante data – Dette er det viktigste trinnet, der du må samle relevante bilder som skal ligne på det du ville sett i et produksjonsmiljø. Dette kan innebære bilder av objekter med ulik bakgrunn, lyssetting eller kameravinkler. Du lager deretter et opplærings- og testdatasett ved å dele de innsamlede bildene. Du bør bare inkludere bilder fra den virkelige verden som en del av testdatasettet, og bør ikke inkludere noen syntetisk genererte bilder. Merknader til dataene du har samlet inn er avgjørende for modellens ytelse. Sørg for at avgrensningsboksene er tette rundt objektene og at etikettene er nøyaktige. Vi diskuterer noen tips du kan vurdere når du bygger et passende datasett senere i dette innlegget.
Gjennomgå treningsberegninger – Bruk de foregående datasettene til å trene en modell og gjennomgå treningsmålingene for F1-poengsum, presisjon og tilbakekalling. Vi vil diskutere i detaljer om hvordan du analyserer treningsberegningene senere i dette innlegget.
Evaluer den trente modellen – Bruk et sett med usynlige bilder (brukes ikke til å trene modellen) med kjente etiketter for å evaluere spådommene. Dette trinnet bør alltid utføres for å sikre at modellen fungerer som forventet i et produksjonsmiljø.
Omtrening (valgfritt) – Generelt er trening av en maskinlæringsmodell en iterativ prosess for å oppnå de ønskede resultatene, en datasynsmodell er ikke annerledes. Se gjennom resultatene i trinn 4, for å se om flere bilder må legges til treningsdataene og gjenta trinn 3 – 5 ovenfor.

I dette innlegget fokuserer vi på de beste fremgangsmåtene rundt innsamling av relevante data (trinn 2) og evaluering av de trente beregningene dine (trinn 3) for å forbedre modellens ytelse.

Samle inn relevante data

Dette er det mest kritiske stadiet for opplæring av en produksjonskvalitetsmodell for egendefinerte etiketter. Konkret er det to datasett: opplæring og testing. Treningsdata brukes til å trene modellen, og du må bruke kreftene på å bygge et passende treningssett. Anerkjennelse tilpassede etikettmodeller er optimalisert for F1-poengsum på testdatasettet for å velge den mest nøyaktige modellen for prosjektet ditt. Derfor er det viktig å kurere et testdatasett som ligner den virkelige verden.

Antall bilder

Vi anbefaler å ha minimum 15-20 bilder per etikett. Å ha flere bilder med flere variasjoner som gjenspeiler brukssaken din, vil forbedre modellens ytelse.

Balansert datasett

Ideelt sett bør hver etikett i datasettet ha et tilsvarende antall prøver. Det bør ikke være store forskjeller i antall bilder per etikett. Et datasett der det høyeste antallet bilder for en etikett er 1,000 mot 50 bilder for en annen etikett, ligner for eksempel på et ubalansert datasett. Vi anbefaler å unngå scenarier med skjevt forhold på 1:50 mellom etiketten med minst antall bilder og etiketten med høyest antall bilder.

Ulike typer bilder

Inkluder bilder i trenings- og testdatasettet som ligner det du skal bruke i den virkelige verden. For eksempel, hvis du ønsker å klassifisere bilder av stuer vs. soverom, bør du inkludere tomme og møblerte bilder av begge rommene.

Følgende er et eksempelbilde av en møblert stue.

I kontrast er følgende et eksempel på en umøblert stue.

Følgende er et eksempelbilde av et møblert soverom.

Følgende er et eksempelbilde av et umøblert soverom.

Varierende bakgrunn

Ta med bilder med forskjellig bakgrunn. Bilder med naturlig kontekst kan gi bedre resultater enn vanlig bakgrunn.

Følgende er et eksempelbilde av forgården til et hus.

Følgende er et eksempelbilde av forgården til et annet hus med en annen bakgrunn.

Varierende lysforhold

Inkluder bilder med varierende belysning slik at det dekker de forskjellige lysforholdene som oppstår under inferens (for eksempel med og uten blits). Du kan også inkludere bilder med varierende metning, fargetone og lysstyrke.

Følgende er et eksempelbilde av en blomst under normalt lys.

I kontrast er det følgende bildet av samme blomst under sterkt lys.

Varierende vinkler

Ta med bilder tatt fra ulike vinkler av objektet. Dette hjelper modellen med å lære ulike egenskaper ved objektene.

Følgende bilder er av det samme soverommet fra forskjellige vinkler.

Tips for å forbedre din Amazon Rekognition Custom Labels-modell PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Det kan være tilfeller hvor det ikke er mulig å få bilder av forskjellige typer. I disse scenariene kan syntetiske bilder genereres som en del av opplæringsdatasettet. For mer informasjon om vanlige bildeforstørrelsesteknikker, se Dataforsterkning.

Legg til negative etiketter

For bildeklassifisering kan det å legge til negative etiketter bidra til å øke modellens nøyaktighet. Du kan for eksempel legge til en negativ etikett som ikke samsvarer med noen av de nødvendige etikettene. Følgende bilde representerer de forskjellige etikettene som brukes til å identifisere fullvoksne blomster.

Legger til den negative etiketten not_fully_grown hjelper modellen å lære egenskaper som ikke er en del av fully_grown merkelapp.

Håndtering av etikettforvirring

Analyser resultatene på testdatasettet for å gjenkjenne eventuelle mønstre som mangler i trenings- eller testdatasettet. Noen ganger er det lett å oppdage slike mønstre ved å visuelt undersøke bildene. I det følgende bildet sliter modellen med å finne en løsning mellom en bakgård og en terrasseetikett.

I dette scenariet kan det å legge til flere bilder til disse etikettene i datasettet og redefinere etikettene slik at hver etikett er forskjellig bidra til å øke nøyaktigheten til modellen.

Dataforstørrelse

Inne i Rekognition Custom Labels utfører vi ulike dataforsterkninger for modelltrening, inkludert tilfeldig beskjæring av bildet, fargerysting, tilfeldige gaussiske lyder og mer. Basert på dine spesifikke brukstilfeller, kan det også være fordelaktig å legge til mer eksplisitte dataforsterkninger til treningsdataene dine. Hvis du for eksempel er interessert i å oppdage dyr i både farge- og svart-hvitt-bilder, kan du potensielt få bedre nøyaktighet ved å legge til svart-hvitt- og fargeversjoner av de samme bildene til treningsdataene.

Vi anbefaler ikke utvidelser av testdata med mindre utvidelsene gjenspeiler dine produksjonstilfeller.

Gjennomgå treningsberegninger

F1-poengsum, presisjon, tilbakekalling og antatt terskel er beregninger som genereres som et resultat av opplæring av en modell ved bruk av egendefinerte etiketter for anerkjennelse. Modellene er optimalisert for den beste F1-score basert på testdatasettet som er gitt. Den antatte terskelen genereres også basert på testdatasettet. Du kan justere terskelen basert på forretningsbehovet ditt når det gjelder presisjon eller tilbakekalling.

Fordi de antatte tersklene er satt på testdatasettet, bør et passende testsett gjenspeile den virkelige produksjonsbruken. Hvis testdatasettet ikke er representativt for brukstilfellet, kan du se kunstig høye F1-score og dårlig modellytelse på bildene dine i den virkelige verden.

Disse beregningene er nyttige når du utfører en innledende evaluering av modellen. For et system med produksjonsgrad anbefaler vi å evaluere modellen mot et eksternt datasett (500–1,000 usette bilder) som er representativt for den virkelige verden. Dette hjelper til med å evaluere hvordan modellen vil fungere i et produksjonssystem og også identifisere eventuelle manglende mønstre og korrigere dem ved å omskolere modellen. Hvis du ser et misforhold mellom F1-poengsum og ekstern evaluering, foreslår vi at du undersøker om testdataene dine gjenspeiler den virkelige brukssaken.

konklusjonen

I dette innlegget ledet vi deg gjennom de beste fremgangsmåtene for å forbedre Rekognition Custom Labels-modeller. Vi oppfordrer deg til å lære mer om Egendefinerte etiketter for anerkjennelse og prøv det ut for dine bedriftsspesifikke datasett.

Om forfatterne

Amit Gupta er senior AI Services Solutions Architect hos AWS. Han er lidenskapelig opptatt av å gjøre det mulig for kunder med velutviklede maskinlæringsløsninger i stor skala.

Yogesh Chaturvedi er løsningsarkitekt ved AWS med fokus på datasyn. Han jobber med kunder for å møte deres forretningsutfordringer ved hjelp av skyteknologier. Utenom jobben liker han å gå tur, reise og se på sport.

Hao Yang er Senior Applied Scientist ved Amazon Rekognition Custom Labels-teamet. Hans viktigste forskningsinteresser er objektdeteksjon og læring med begrensede merknader. Utenfor jobber liker Hao å se filmer, fotografere og utendørsaktiviteter.

Pashmeen Mistry er Senior Product Manager for Amazon Rekognition Custom Labels. Utenom jobben liker Pashmeen eventyrlige fotturer, fotografering og å tilbringe tid med familien.

Tidstempel: September 9, 2022September 10, 2022

Mer fra AWS maskinlæring

Hvordan Mendix transformerer kundeopplevelser med generativ AI og Amazon Bedrock | Amazon Web Services

AWS maskinlæring

Kilde node: 1913698

Tidstempel: November 15, 2023

Skaler LLM-er med PyTorch 2.0 FSDP på Amazon EKS – Del 2 | Amazon Web Services

Kildeklynge:

AWS maskinlæring

Kilde node: 1960833

Tidstempel: April 1, 2024

Tips for å forbedre Amazon Rekognition Custom Labels-modellen

Publisert av Platon

Samle inn relevante data

Antall bilder

Balansert datasett

Ulike typer bilder

Varierende bakgrunn

Varierende lysforhold

Varierende vinkler

Legg til negative etiketter

Håndtering av etikettforvirring

Dataforstørrelse

Gjennomgå treningsberegninger

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Overfør læring for TensorFlow bildeklassifiseringsmodeller i Amazon SageMaker

Tren automatisk om nevrale nettverk med Renate

Reduser matsvinn for å forbedre bærekraft og økonomiske resultater i detaljhandelen med Amazon Forecast

Forbered data fra Amazon EMR for maskinlæring ved hjelp av Amazon SageMaker Data Wrangler

Kjør ensemble ML-modeller på Amazon SageMaker

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn