Esittelyssä kuvasta puheeksi luovan tekoälysovelluksen, joka käyttää Amazon SageMakeria ja halaa kasvoja

Julkaissut Platon

seuraajia: 0

Näön menetys tulee eri muodoissa. Joillekin se johtuu syntymästä, toisille se on hidasta laskeutumista ajan myötä, ja siihen liittyy monia vanhentumispäiviä: Päivä, jolloin et näe kuvia, et tunnista itseäsi tai läheistesi kasvoja tai edes lue postiasi. Edellisessä blogikirjoituksessamme Salli näkövammaisten kuulla asiakirjoja Amazon Textractin ja Amazon Pollyn avulla, näytimme sinulle tekstistä puheeksi -sovelluksemme nimeltä "Lue minulle". Esteettömyys on edennyt pitkälle, mutta entä kuvat?

2022 AWS re:Invent -konferenssissa Las Vegasissa osoitimme "Kuvaile minulle" AWS Builders' Fair -sivustolla, joka auttaa näkövammaisia ymmärtämään kuvia kuvatekstien, kasvojentunnistuksen ja tekstistä puheeksi -tekniikan avulla, jota kutsumme "kuvasta puheeksi". Useita tekoäly/ML-palveluita käyttämällä "Describe For Me" luo syöttökuvan kuvatekstin ja lukee sen takaisin selkeällä, luonnolliselta kuulostavalla äänellä useilla kielillä ja murteilla.

Tässä blogikirjoituksessa opastamme sinut "Describe For Me" -ratkaisun arkkitehtuuriin ja ratkaisumme suunnittelunäkökohtiin.

Ratkaisun yleiskatsaus

Seuraava viitearkkitehtuuri näyttää työnkulun, jossa käyttäjä ottaa kuvan puhelimella ja toistaa kuvan kuvatekstin MP3-tiedostoa.

Kuvatun ratkaisun viitearkkitehtuuri.

Työnkulku sisältää seuraavat vaiheet,

AWS vahvistaa jakaa DescribeForMe-verkkosovelluksen, joka koostuu HTML:stä, JavaScriptistä ja CSS:stä loppukäyttäjien mobiililaitteisiin.
- Amazon Cognito Identity pool antaa väliaikaisen pääsyn Amazon S3 ämpäri.
Käyttäjä lataa kuvatiedoston Amazon S3 ämpäri käyttäen AWS SDK verkkosovelluksen kautta.
DescribeForMe-verkkosovellus kutsuu AI-taustapalvelut lähettämällä Amazon S3 object Syötä hyötykuorma kohteeseen Amazon API -yhdyskäytävä
Amazon API -yhdyskäytävä instantoi an AWS-vaihetoiminnot työnkulku. Osavaltion kone järjestää tekoäly/koneoppimispalvelut (AI/ML). Amazonin tunnistus, Amazon Sage Maker, Amazonin teksti, Amazon-kääntäjä, ja Amazon Polly käyttämällä AWS lambda toiminnot.
- AWS-vaihetoiminnot työnkulku luo äänitiedoston tulosteena ja tallentaa sen Amazon S3 MP3-muodossa.
Valmiiksi allekirjoitettu URL-osoite, johon on tallennettu äänitiedoston sijainti Amazon S3 lähetetään takaisin käyttäjän selaimeen kautta Amazon API -yhdyskäytävä. Käyttäjän mobiililaite toistaa äänitiedoston käyttämällä ennalta allekirjoitettua URL-osoitetta.

Ratkaisun esittely

Tässä osiossa keskitymme suunnittelunäkökohtiin, miksi valitsimme

rinnakkainen käsittely an AWS-vaihetoiminnot työnkulku
yhtenäinen sekvenssistä sekvenssiin esikoulutettu koneoppimismalli OFA (One For All) alkaen Halaaminen kasvot että Amazon Sage Maker kuvan kuvatekstiä varten
Amazonin tunnistus kasvojentunnistusta varten

Jos haluat tarkemman yleiskatsauksen siitä, miksi valitsimme palvelimettoman arkkitehtuurin, synkronisen työnkulun, pikavaihetoimintojen työnkulun, päättömän arkkitehtuurin ja saavutetut edut, lue aikaisempi blogiviestimme Salli näkövammaisten kuulla asiakirjoja Amazon Textractin ja Amazon Pollyn avulla.

Rinnakkaiskäsittely

Rinnakkaiskäsittelyn käyttö Step Functions -työnkulussa lyhensi laskenta-aikaa jopa 48 %. Kun käyttäjä lataa kuvan S3-säihöön, Amazon API Gateway luo AWS Step Functions -työnkulun. Sitten alla olevat kolme lambda-funktiota käsittelevät kuvaa Step Functions -työnkulussa rinnakkain.

Ensimmäinen lambda-funktio ns describe_image analysoi kuvan käyttämällä OFA_IMAGE_CAPTION malli isännöi SageMakerin reaaliaikaisessa päätepisteessä kuvan kuvatekstin tarjoamiseksi.
Toinen lambda-funktio nimeltään describe_faces tarkistaa ensin, onko kasvoja Amazon Rekognitionin avulla Tunnista kasvot API, ja jos totta, se kutsuu Compare Faces API -sovellusliittymää. Syy tähän on, että Vertaa kasvoja antaa virheilmoituksen, jos kuvasta ei löydy kasvoja. Lisäksi Detect Faces first -kutsu on nopeampaa kuin pelkkä Vertaa kasvoja ja käsittelyvirheitä, joten kuvien, joissa ei ole kasvoja, käsittelyaika on nopeampi.
Kolmas lambda-funktio nimeltään extract_text käsittelee tekstistä puheeksi käyttämällä Amazon Textractia ja Amazon Comprehendia.

Lambda-toimintojen suorittaminen peräkkäin on sopivaa, mutta nopeampi ja tehokkaampi tapa tehdä tämä on rinnakkaiskäsittely. Seuraavassa taulukossa näkyy kolmen esimerkkikuvan tallennettu laskenta-aika.

Kuva	Ihmiset	Peräkkäinen aika	Rinnakkaisaika	Ajansäästö (%)	Kuvateksti
	0	1869ms	1702ms	8%	Rabbi kissa käpertyneenä pörröiseen valkoiseen sänkyyn.
	1	4277ms	2197ms	48%	Nainen vihreässä puserossa ja mustassa neuletakissa hymyilee kameralle. Tunnistan yhden henkilön: Kanbon.
	4	6603ms	3904ms	40%	Ihmiset seisovat Amazonin sfäärien edessä. Tunnistan 3 ihmistä: Kanbo, Jack ja Ayman.

Kuvan kuvateksti

Hugging Face on avoimen lähdekoodin yhteisö- ja datatieteen alusta, jonka avulla käyttäjät voivat jakaa, rakentaa, kouluttaa ja ottaa käyttöön koneoppimismalleja. Tutkittuamme Hugging Face -mallikeskuksessa saatavilla olevia malleja, päätimme käyttää OFA malli koska, kuten kirjoittajat ovat kuvanneet, se on "tehtäväagnostinen ja modaalisuusagnostinen kehys, joka tukee tehtävän kattavuutta".

OFA on askel kohti "One For All", koska se on yhtenäinen multimodaalinen esikoulutettu malli, joka voi siirtyä tehokkaasti useisiin loppupään tehtäviin. Vaikka OFA-malli tukee monia tehtäviä, mukaan lukien visuaalinen maadoitus, kielen ymmärtäminen ja kuvan luominen, käytimme OFA-malli kuvien tekstitykseen Describe For Me -projektissa suorittaaksesi sovelluksen kuvasta tekstiksi -osan. Tutustu OFA:n viralliseen arkistoon (ICML 2022), paperi oppiaksesi OFA:n yhdistävistä arkkitehtuureista, tehtävistä ja menetelmistä yksinkertaisen sekvenssistä sekvenssiin -oppimiskehyksen avulla.

Integroidaksemme OFA:n sovellukseemme kloonasimme Hugging Facen repon ja varastoimme mallin ottaaksemme sen käyttöön SageMaker-päätepisteeseen. The muistikirja tässä repossa on erinomainen opas suuren OFA-mallin käyttöönottamiseksi Jupyter-muistikirjassa SageMakerissa. Kun päättelyskripti on säilytetty, malli on valmis otettavaksi käyttöön SageMaker-päätepisteen takana SageMakerissa kuvatulla tavalla. dokumentointi. Kun malli on otettu käyttöön, luo HTTPS-päätepiste, joka voidaan integroida "describe_image" lambda-funktioon, joka analysoi kuvan ja luo kuvan kuvatekstin. Otimme käyttöön pienen OFA-mallin, koska se on pienempi malli ja se voidaan ottaa käyttöön lyhyemmässä ajassa samalla kun saavutetaan sama suorituskyky.

Alla on esimerkkejä "Describe For Me" -sovelluksen luomasta kuvasta puheeksi -sisällöstä:

Aurora borealis eli revontulet täyttävät yötaivaan talon siluetin yläpuolella.

Koira nukkuu punaisella peitolla kovapuulattialla leluilla täytetyn avoimen matkalaukun vieressä.

Rabbi kissa käpertyneenä pörröiseen valkoiseen sänkyyn.

kasvojen tunnistus

Amazon Rekognition Image tarjoaa Tunnista kasvot toiminto, joka etsii tärkeimpiä kasvonpiirteitä, kuten silmiä, nenää ja suuta, tunnistaakseen kasvot syötekuvassa. Ratkaisussamme hyödynnämme tätä toimintoa tunnistaaksemme syöttökuvassa olevat ihmiset. Jos henkilö havaitaan, käytämme sitä Vertaa kasvoja -toiminto vertaa syöttökuvan kasvoja "Describe For Me" -koulutuksen saamiin kasvoihin ja kuvaile henkilöä nimellä. Valitsimme Rekognitionin käytön kasvojentunnistukseen, koska se oli erittäin tarkka ja kuinka helppoa se oli integroida sovellukseemme valmiiden ominaisuuksien ansiosta.

Ryhmä ihmisiä poseeraamassa kuvassa huoneessa. Tunnistan 4 henkilöä: Jack, Kanbo, Alak ja Trac. Kuvasta löytyi myös tekstiä. Siinä lukee: AWS re: Invent

Mahdollisia käyttötapauksia

Vaihtoehtoinen tekstin luominen verkkokuville

Kaikilla verkkosivuston kuvilla on oltava vaihtoehtoinen teksti, jotta näytönlukijat voivat puhua ne näkövammaisille. Se sopii myös hakukoneoptimointiin (SEO). Alt-tekstien luominen voi olla aikaa vievää, koska tekstinkirjoittajan tehtävänä on tarjota ne suunnitteluasiakirjassa. Describe For Me -sovellusliittymä voi automaattisesti luoda vaihtoehtoisen tekstin kuville. Sitä voitaisiin myös käyttää selainlaajennuksena, joka lisää automaattisesti kuvatekstin kuviin, joista puuttuu vaihtoehtoinen teksti millä tahansa verkkosivustolla.

Äänikuvaus videolle

Äänikuvaus tarjoaa videosisällölle selostusraidan, joka auttaa näkövammaisia seuraamaan elokuvia. Kun kuvatekstit muuttuvat vankemmiksi ja tarkempiksi, työnkulku, johon kuuluu ääniraidan luominen kohtauksen tärkeimpien osien kuvausten perusteella, voi olla mahdollista. Amazon Rekognition pystyy jo havaitsemaan kohtausten muutokset, logot ja tunnusjaksot sekä julkkisten havaitsemisen. Kuvauksen tuleva versio mahdollistaisi tämän elokuvien ja videoiden keskeisen ominaisuuden automatisoinnin.

Yhteenveto

Tässä viestissä keskustelimme siitä, kuinka käyttää AWS-palveluita, mukaan lukien tekoäly ja palvelimettomat palvelut, auttamaan näkövammaisia näkemään kuvia. Voit oppia lisää Describe For Me -projektista ja käyttää sitä käymällä osoitteessa descriptionforme.com. Lue lisää ainutlaatuisista ominaisuuksista Amazon Sage Maker, Amazon Rekognition ja AWS-yhteistyö Hugging Facen kanssa.

Kolmannen osapuolen ML-mallin vastuuvapauslauseke

Tämä opas on tarkoitettu vain tiedoksi. Sinun tulee silti suorittaa oma riippumaton arviosi ja ryhtyä toimenpiteisiin varmistaaksesi, että noudatat omia erityisiä laadunvalvontakäytäntöjäsi ja -standardejasi sekä sinua, sisältöäsi ja sisältöäsi koskevia paikallisia sääntöjä, lakeja, määräyksiä, lisenssejä ja käyttöehtoja. kolmannen osapuolen koneoppimismalli, johon tässä ohjeessa viitataan. AWS:llä ei ole valvontaa tai valtuuksia tässä ohjeessa mainittuun kolmannen osapuolen koneoppimismalliin nähden, eikä se takaa tai takaa, että kolmannen osapuolen koneoppimismalli on turvallinen, virukseton, toimiva tai yhteensopiva tuotantoympäristösi kanssa. ja standardeja. AWS ei anna mitään vakuutuksia, takuita tai takuita siitä, että tämän ohjeen tiedot johtavat tiettyyn lopputulokseen tai tulokseen.

Tietoja Tekijät

Jack Marchetti on AWS:n Senior Solutions -arkkitehti, joka keskittyy auttamaan asiakkaita modernisoimaan ja toteuttamaan palvelimettomia, tapahtumalähtöisiä arkkitehtuureja. Jack on laillisesti sokea ja asuu Chicagossa vaimonsa Erinin ja kissa Minoun kanssa. Hän on myös käsikirjoittaja ja ohjaaja, jonka pääpaino on jouluelokuvissa ja kauhussa. Katso Jackin filmografia hänen luonaan IMDb-sivu.

Alak Eswaradass on vanhempi ratkaisuarkkitehti AWS:ssä Chicagossa, Illinoisissa. Hän on intohimoinen auttaa asiakkaita suunnittelemaan pilviarkkitehtuuria hyödyntäen AWS-palveluita liiketoiminnan haasteiden ratkaisemiseksi. Alak on innostunut käyttämään SageMakeria useiden AWS-asiakkaiden ML-käyttötapausten ratkaisemiseen. Kun Alak ei ole töissä, hän viettää aikaa tyttäriensä kanssa ja ulkoilee koirien kanssa.

Kandyce Bohannon on vanhempi ratkaisuarkkitehti Minneapolisista, MN:stä. Tässä roolissa Kandyce toimii teknisenä neuvonantajana AWS-asiakkaille, kun he modernisoivat erityisesti dataan ja DevOpsiin liittyviä teknologiastrategioita ottaakseen käyttöön parhaat käytännöt AWS:ssä. Lisäksi Kandyce on intohimoinen tulevien tekniikkojen mentoroimisesta ja naisten esittelemisestä teknologiassa AWS She Builds Tech Skills -ohjelman kautta.

Trac Do Trac Do on ratkaisuarkkitehti AWS:ssä. Roolissaan Trac työskentelee yritysasiakkaiden kanssa tukeakseen heidän pilvisiirtojaan ja sovellusten modernisointihankkeita. Hän on intohimoinen asiakkaiden haasteiden oppimiseen ja niiden ratkaisemiseen vankilla ja skaalautuvilla ratkaisuilla AWS-palveluiden avulla. Trac asuu tällä hetkellä Chicagossa vaimonsa ja 3 poikansa kanssa. Hän on suuri ilmailun harrastaja ja viimeistelee parhaillaan yksityislentäjän lupakirjaansa.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoAiStream. Web3 Data Intelligence. Tietoa laajennettu. Pääsy tästä.
Tulevaisuuden lyöminen Adryenn Ashley. Pääsy tästä.
Osta ja myy osakkeita PRE-IPO-yhtiöissä PREIPO®:lla. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/introducing-an-image-to-speech-generative-ai-application-using-amazon-sagemaker-and-hugging-face/

Aikaleima: Voi 19, 2023

Aikaleima: Elokuu 8, 2022

2022H2 Amazon Textractin julkaisuyhteenveto

Lähde klusteri:

AWS-koneoppiminen

Lähdesolmu: 1780360

Aikaleima: Joulukuu 29, 2022

SageMaker Distribution on nyt saatavilla Amazon SageMaker Studio | Amazon Web Services

Lähde klusteri:

AWS-koneoppiminen

Lähdesolmu: 1870500

Aikaleima: Elokuu 2, 2023

Julkaissut Platon

Vähennä ML-esikäsittelyn kustannuksia ja monimutkaisuutta Amazon S3 Object Lambdan avulla

Esittelyssä Amazon Comprehend -vauhtipyörä MLOpsille

Pandan käyttäjän määrittämät toiminnot ovat nyt saatavilla Amazon SageMaker Data Wranglerissa

Amazon EC2 DL2q -instanssi kustannustehokkaaseen ja suorituskykyiseen tekoälypäätelmään on nyt yleisesti saatavilla | Amazon Web Services

Harjoittele aikasarjan ennustemallia nopeammin Amazon SageMaker Canvas Quick -version avulla

Ota suuria malleja käyttöön Amazon SageMakerissa käyttämällä DJLServing- ja DeepSpeed-mallin rinnakkaisjohtopäätöstä

MLOs reunassa Amazon SageMaker Edge Managerin ja AWS IoT Greengrassin avulla

2022H2 Amazon Textractin julkaisuyhteenveto

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili