Esittelyssä kuva puheeksi generoiva tekoälysovellus Amazon SageMakerilla ja Hugging Facella | Amazon Web Services

Esittelyssä kuva puheeksi generoiva tekoälysovellus Amazon SageMakerilla ja Hugging Facella | Amazon Web Services

Näön menetys tulee eri muodoissa. Joillekin se johtuu syntymästä, toisille se on hidasta laskeutumista ajan myötä, ja siihen liittyy monia vanhentumispäiviä: Päivä, jolloin et näe kuvia, et tunnista itseäsi tai läheistesi kasvoja tai edes lue postiasi. Edellisessä blogikirjoituksessamme Salli näkövammaisten kuulla asiakirjoja Amazon Textractin ja Amazon Pollyn avulla, näytimme sinulle tekstistä puheeksi -sovelluksemme nimeltä "Lue minulle". Esteettömyys on edennyt pitkälle, mutta entä kuvat?

2022 AWS re:Invent -konferenssissa Las Vegasissa osoitimme "Kuvaile minulle" AWS Builders' Fair -sivustolla, joka auttaa näkövammaisia ​​ymmärtämään kuvia kuvatekstien, kasvojentunnistuksen ja tekstistä puheeksi -tekniikan avulla, jota kutsumme "kuvasta puheeksi". Useita tekoäly/ML-palveluita käyttämällä "Describe For Me" luo syöttökuvan kuvatekstin ja lukee sen takaisin selkeällä, luonnolliselta kuulostavalla äänellä useilla kielillä ja murteilla.

Tässä blogikirjoituksessa opastamme sinut "Describe For Me" -ratkaisun arkkitehtuuriin ja ratkaisumme suunnittelunäkökohtiin.

Ratkaisun yleiskatsaus

Seuraava viitearkkitehtuuri näyttää työnkulun, jossa käyttäjä ottaa kuvan puhelimella ja toistaa kuvan kuvatekstin MP3-tiedostoa.

Kuvatun ratkaisun viitearkkitehtuuri.

Työnkulku sisältää seuraavat vaiheet,

  1. AWS vahvistaa jakaa DescribeForMe-verkkosovelluksen, joka koostuu HTML:stä, JavaScriptistä ja CSS:stä loppukäyttäjien mobiililaitteisiin.
  2. - Amazon Cognito Identity pool antaa väliaikaisen pääsyn Amazon S3 ämpäri.
  3. Käyttäjä lataa kuvatiedoston Amazon S3 ämpäri käyttäen AWS SDK verkkosovelluksen kautta.
  4. DescribeForMe-verkkosovellus kutsuu AI-taustapalvelut lähettämällä Amazon S3 object Syötä hyötykuorma kohteeseen Amazon API -yhdyskäytävä
  5. Amazon API -yhdyskäytävä instantoi an AWS-vaihetoiminnot työnkulku. Osavaltion kone järjestää tekoäly/koneoppimispalvelut (AI/ML). Amazonin tunnistus, Amazon Sage MakerAmazonin teksti, Amazon-kääntäjä, ja Amazon Polly  käyttämällä AWS lambda toiminnot.
  6. - AWS-vaihetoiminnot työnkulku luo äänitiedoston tulosteena ja tallentaa sen Amazon S3 MP3-muodossa.
  7. Valmiiksi allekirjoitettu URL-osoite, johon on tallennettu äänitiedoston sijainti Amazon S3 lähetetään takaisin käyttäjän selaimeen kautta Amazon API -yhdyskäytävä. Käyttäjän mobiililaite toistaa äänitiedoston käyttämällä ennalta allekirjoitettua URL-osoitetta.

Ratkaisun esittely

Tässä osiossa keskitymme suunnittelunäkökohtiin, miksi valitsimme

  1. rinnakkainen käsittely an AWS-vaihetoiminnot työnkulku
  2. yhtenäinen sekvenssistä sekvenssiin esikoulutettu koneoppimismalli OFA (One For All) alkaen Halaaminen kasvot että Amazon Sage Maker kuvan kuvatekstiä varten
  3. Amazonin tunnistus kasvojentunnistusta varten

Jos haluat tarkemman yleiskatsauksen siitä, miksi valitsimme palvelimettoman arkkitehtuurin, synkronisen työnkulun, pikavaihetoimintojen työnkulun, päättömän arkkitehtuurin ja saavutetut edut, lue aikaisempi blogiviestimme Salli näkövammaisten kuulla asiakirjoja Amazon Textractin ja Amazon Pollyn avulla

Rinnakkaiskäsittely

Rinnakkaiskäsittelyn käyttö Step Functions -työnkulussa lyhensi laskenta-aikaa jopa 48 %. Kun käyttäjä lataa kuvan S3-säihöön, Amazon API Gateway luo AWS Step Functions -työnkulun. Sitten alla olevat kolme lambda-funktiota käsittelevät kuvaa Step Functions -työnkulussa rinnakkain.

  • Ensimmäinen lambda-funktio ns describe_image analysoi kuvan käyttämällä OFA_IMAGE_CAPTION malli isännöi SageMakerin reaaliaikaisessa päätepisteessä kuvan kuvatekstin tarjoamiseksi.
  • Toinen lambda-funktio nimeltään describe_faces tarkistaa ensin, onko kasvoja Amazon Rekognitionin avulla Tunnista kasvot API, ja jos totta, se kutsuu Compare Faces API -sovellusliittymää. Syy tähän on, että Vertaa kasvoja antaa virheilmoituksen, jos kuvasta ei löydy kasvoja. Lisäksi Detect Faces first -kutsu on nopeampaa kuin pelkkä Vertaa kasvoja ja käsittelyvirheitä, joten kuvien, joissa ei ole kasvoja, käsittelyaika on nopeampi.
  • Kolmas lambda-funktio nimeltään extract_text käsittelee tekstistä puheeksi käyttämällä Amazon Textractia ja Amazon Comprehendia.

Lambda-toimintojen suorittaminen peräkkäin on sopivaa, mutta nopeampi ja tehokkaampi tapa tehdä tämä on rinnakkaiskäsittely. Seuraavassa taulukossa näkyy kolmen esimerkkikuvan tallennettu laskenta-aika.

Kuva Ihmiset Peräkkäinen aika Rinnakkaisaika Ajansäästö (%) Kuvateksti
Esittelyssä kuva puheeksi generoiva tekoälysovellus Amazon SageMakerilla ja Hugging Facella | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. 0 1869ms 1702ms 8% Rabbi kissa käpertyneenä pörröiseen valkoiseen sänkyyn.
Esittelyssä kuva puheeksi generoiva tekoälysovellus Amazon SageMakerilla ja Hugging Facella | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. 1 4277ms 2197ms 48% Nainen vihreässä puserossa ja mustassa neuletakissa hymyilee kameralle. Tunnistan yhden henkilön: Kanbon.
Esittelyssä kuva puheeksi generoiva tekoälysovellus Amazon SageMakerilla ja Hugging Facella | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. 4 6603ms 3904ms 40% Ihmiset seisovat Amazonin sfäärien edessä. Tunnistan 3 ihmistä: Kanbo, Jack ja Ayman.

Kuvan kuvateksti

Hugging Face on avoimen lähdekoodin yhteisö- ja datatieteen alusta, jonka avulla käyttäjät voivat jakaa, rakentaa, kouluttaa ja ottaa käyttöön koneoppimismalleja. Tutkittuamme Hugging Face -mallikeskuksessa saatavilla olevia malleja, päätimme käyttää OFA malli koska, kuten kirjoittajat ovat kuvanneet, se on "tehtäväagnostinen ja modaalisuusagnostinen kehys, joka tukee tehtävän kattavuutta".

OFA on askel kohti "One For All", koska se on yhtenäinen multimodaalinen esikoulutettu malli, joka voi siirtyä tehokkaasti useisiin loppupään tehtäviin. Vaikka OFA-malli tukee monia tehtäviä, mukaan lukien visuaalinen maadoitus, kielen ymmärtäminen ja kuvan luominen, käytimme OFA-malli kuvien tekstitykseen Describe For Me -projektissa suorittaaksesi sovelluksen kuvasta tekstiksi -osan. Tutustu OFA:n viralliseen arkistoon (ICML 2022), paperi oppiaksesi OFA:n yhdistävistä arkkitehtuureista, tehtävistä ja menetelmistä yksinkertaisen sekvenssistä sekvenssiin -oppimiskehyksen avulla.

Integroidaksemme OFA:n sovellukseemme kloonasimme Hugging Facen repon ja varastoimme mallin ottaaksemme sen käyttöön SageMaker-päätepisteeseen. The muistikirja tässä repossa on erinomainen opas suuren OFA-mallin käyttöönottamiseksi Jupyter-muistikirjassa SageMakerissa. Kun päättelyskripti on säilytetty, malli on valmis otettavaksi käyttöön SageMaker-päätepisteen takana SageMakerissa kuvatulla tavalla. dokumentointi. Kun malli on otettu käyttöön, luo HTTPS-päätepiste, joka voidaan integroida "describe_image" lambda-funktioon, joka analysoi kuvan ja luo kuvan kuvatekstin. Otimme käyttöön pienen OFA-mallin, koska se on pienempi malli ja se voidaan ottaa käyttöön lyhyemmässä ajassa samalla kun saavutetaan sama suorituskyky.

Alla on esimerkkejä "Describe For Me" -sovelluksen luomasta kuvasta puheeksi -sisällöstä:

Aurora borealis eli revontulet täyttävät yötaivaan talon siluetin yläpuolella.

Aurora borealis eli revontulet täyttävät yötaivaan talon siluetin yläpuolella.

Koira nukkuu punaisella peitolla kovapuulattialla leluilla täytetyn avoimen matkalaukun vieressä.

Koira nukkuu punaisella peitolla kovapuulattialla leluilla täytetyn avoimen matkalaukun vieressä.

Rabbi kissa käpertyneenä pörröiseen valkoiseen sänkyyn.

Rabbi kissa käpertyneenä pörröiseen valkoiseen sänkyyn.

kasvojen tunnistus

Amazon Rekognition Image tarjoaa Tunnista kasvot toiminto, joka etsii tärkeimpiä kasvonpiirteitä, kuten silmiä, nenää ja suuta, tunnistaakseen kasvot syötekuvassa. Ratkaisussamme hyödynnämme tätä toimintoa tunnistaaksemme syöttökuvassa olevat ihmiset. Jos henkilö havaitaan, käytämme sitä Vertaa kasvoja -toiminto vertaa syöttökuvan kasvoja "Describe For Me" -koulutuksen saamiin kasvoihin ja kuvaile henkilöä nimellä. Valitsimme Rekognitionin käytön kasvojentunnistukseen, koska se oli erittäin tarkka ja kuinka helppoa se oli integroida sovellukseemme valmiiden ominaisuuksien ansiosta.

Ryhmä ihmisiä poseeraamassa kuvassa huoneessa. Tunnistan 4 henkilöä: Jack, Kanbo, Alak ja Trac. Kuvasta löytyi myös tekstiä. Siinä lukee: AWS re: Invent

Ryhmä ihmisiä poseeraamassa kuvassa huoneessa. Tunnistan 4 henkilöä: Jack, Kanbo, Alak ja Trac. Kuvasta löytyi myös tekstiä. Siinä lukee: AWS re: Invent

Mahdollisia käyttötapauksia

Vaihtoehtoinen tekstin luominen verkkokuville

Kaikilla verkkosivuston kuvilla on oltava vaihtoehtoinen teksti, jotta näytönlukijat voivat puhua ne näkövammaisille. Se sopii myös hakukoneoptimointiin (SEO). Alt-tekstien luominen voi olla aikaa vievää, koska tekstinkirjoittajan tehtävänä on tarjota ne suunnitteluasiakirjassa. Describe For Me -sovellusliittymä voi automaattisesti luoda vaihtoehtoisen tekstin kuville. Sitä voitaisiin myös käyttää selainlaajennuksena, joka lisää automaattisesti kuvatekstin kuviin, joista puuttuu vaihtoehtoinen teksti millä tahansa verkkosivustolla.

Äänikuvaus videolle

Äänikuvaus tarjoaa videosisällölle selostusraidan, joka auttaa näkövammaisia ​​seuraamaan elokuvia. Kun kuvatekstit muuttuvat vankemmiksi ja tarkempiksi, työnkulku, johon kuuluu ääniraidan luominen kohtauksen tärkeimpien osien kuvausten perusteella, voi olla mahdollista. Amazon Rekognition pystyy jo havaitsemaan kohtausten muutokset, logot ja tunnusjaksot sekä julkkisten havaitsemisen. Kuvauksen tuleva versio mahdollistaisi tämän elokuvien ja videoiden keskeisen ominaisuuden automatisoinnin.

Yhteenveto

Tässä viestissä keskustelimme siitä, kuinka käyttää AWS-palveluita, mukaan lukien tekoäly ja palvelimettomat palvelut, auttamaan näkövammaisia ​​näkemään kuvia. Voit oppia lisää Describe For Me -projektista ja käyttää sitä käymällä osoitteessa descriptionforme.com. Lue lisää ainutlaatuisista ominaisuuksista Amazon Sage MakerAmazon Rekognition ja AWS-yhteistyö Hugging Facen kanssa.

Kolmannen osapuolen ML-mallin vastuuvapauslauseke

Tämä opas on tarkoitettu vain tiedoksi. Sinun tulee silti suorittaa oma riippumaton arviosi ja ryhtyä toimenpiteisiin varmistaaksesi, että noudatat omia erityisiä laadunvalvontakäytäntöjäsi ja -standardejasi sekä sinua, sisältöäsi ja sisältöäsi koskevia paikallisia sääntöjä, lakeja, määräyksiä, lisenssejä ja käyttöehtoja. kolmannen osapuolen koneoppimismalli, johon tässä ohjeessa viitataan. AWS:llä ei ole valvontaa tai valtuuksia tässä ohjeessa mainittuun kolmannen osapuolen koneoppimismalliin nähden, eikä se takaa tai takaa, että kolmannen osapuolen koneoppimismalli on turvallinen, virukseton, toimiva tai yhteensopiva tuotantoympäristösi kanssa. ja standardeja. AWS ei anna mitään vakuutuksia, takuita tai takuita siitä, että tämän ohjeen tiedot johtavat tiettyyn lopputulokseen tai tulokseen.


Tietoja Tekijät

Jack MarchettiJack Marchetti on AWS:n Senior Solutions -arkkitehti, joka keskittyy auttamaan asiakkaita modernisoimaan ja toteuttamaan palvelimettomia, tapahtumalähtöisiä arkkitehtuureja. Jack on laillisesti sokea ja asuu Chicagossa vaimonsa Erinin ja kissa Minoun kanssa. Hän on myös käsikirjoittaja ja ohjaaja, jonka pääpaino on jouluelokuvissa ja kauhussa. Katso Jackin filmografia hänen luonaan IMDb-sivu.

Alak EswaradassAlak Eswaradass on vanhempi ratkaisuarkkitehti AWS:ssä Chicagossa, Illinoisissa. Hän on intohimoinen auttaa asiakkaita suunnittelemaan pilviarkkitehtuuria hyödyntäen AWS-palveluita liiketoiminnan haasteiden ratkaisemiseksi. Alak on innostunut käyttämään SageMakeria useiden AWS-asiakkaiden ML-käyttötapausten ratkaisemiseen. Kun Alak ei ole töissä, hän viettää aikaa tyttäriensä kanssa ja ulkoilee koirien kanssa.

Kandyce BohannonKandyce Bohannon on vanhempi ratkaisuarkkitehti Minneapolisista, MN:stä. Tässä roolissa Kandyce toimii teknisenä neuvonantajana AWS-asiakkaille, kun he modernisoivat erityisesti dataan ja DevOpsiin liittyviä teknologiastrategioita ottaakseen käyttöön parhaat käytännöt AWS:ssä. Lisäksi Kandyce on intohimoinen tulevien tekniikkojen mentoroimisesta ja naisten esittelemisestä teknologiassa AWS She Builds Tech Skills -ohjelman kautta.

Trac DoTrac Do on ratkaisuarkkitehti AWS:ssä. Roolissaan Trac työskentelee yritysasiakkaiden kanssa tukeakseen heidän pilvisiirtojaan ja sovellusten modernisointihankkeita. Hän on intohimoinen asiakkaiden haasteiden oppimiseen ja niiden ratkaisemiseen vankilla ja skaalautuvilla ratkaisuilla AWS-palveluiden avulla. Trac asuu tällä hetkellä Chicagossa vaimonsa ja 3 poikansa kanssa. Hän on suuri ilmailun harrastaja ja viimeistelee parhaillaan yksityislentäjän lupakirjaansa.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen