Bemutatjuk a kép-beszéd generatív mesterséges intelligencia alkalmazást az Amazon SageMaker és Hugging Face segítségével | Amazon webszolgáltatások

Bemutatjuk a kép-beszéd generatív mesterséges intelligencia alkalmazást az Amazon SageMaker és Hugging Face segítségével | Amazon webszolgáltatások

A látásvesztés különböző formákban jelentkezik. Egyesek számára ez a születéstől, mások számára az idő múlásával járó lassú lejtmenet, amely sok lejárati dátummal jár: Az a nap, amikor nem látja a képeket, nem ismeri fel önmaga vagy szerettei arcát, vagy még csak nem is olvassa el a leveleit. Korábbi blogbejegyzésünkben Engedélyezze a látássérültek számára a dokumentumok hallását az Amazon Textract és az Amazon Polly segítségévelcímű Szövegfelolvasó alkalmazásunkat megmutattuk „Olvass el nekem”. A hozzáférhetőség hosszú utat tett meg, de mi a helyzet a képekkel?

A 2022-es AWS re:Invent konferencián Las Vegasban bemutattuk „Írja le nekem” az AWS Builders' Fair-en, egy olyan webhelyen, amely segít a látássérülteknek megérteni a képeket a képaláírások, az arcfelismerés és a szövegfelolvasó technológián keresztül. Több AI/ML szolgáltatás használatával a „Describe For Me” feliratot generál egy bemeneti képhez, és azt tiszta, természetes hangon, számos nyelven és dialektusban olvassa vissza.

Ebben a blogbejegyzésben végigvezetjük a „Describe For Me” mögötti megoldási architektúrán és megoldásunk tervezési szempontjain.

Megoldás áttekintése

A következő referenciaarchitektúra azt a munkafolyamatot mutatja be, amikor egy felhasználó képet készít telefonjával, és lejátssza a kép feliratát tartalmazó MP3-at.

Referencia architektúra a leírt megoldáshoz.

A munkafolyamat az alábbi lépéseket tartalmazza,

  1. AWS erősítés terjeszti a HTML-ből, JavaScriptből és CSS-ből álló DescribeForMe webalkalmazást a végfelhasználók mobileszközeire.
  2. A Amazon Cognito Az identitáskészlet ideiglenes hozzáférést biztosít a Amazon S3 vödör.
  3. A felhasználó feltölt egy képfájlt a Amazon S3 vödör segítségével AWS SDK a webalkalmazáson keresztül.
  4. A DescribeForMe webalkalmazás meghívja a háttér AI-szolgáltatásokat azáltal, hogy elküldi a Amazon S3 object Írja be a hasznos terhet ide Amazon API átjáró
  5. Amazon API átjáró példányosít egy AWS lépésfunkciók munkafolyamat. Az állami gép szervezi a mesterséges intelligencia/gépi tanulás (AI/ML) szolgáltatásokat Amazon felismerés, Amazon SageMakerAmazon szöveg, Amazon Translate, és a Amazon Polly  segítségével AWS lambda funkciókat.
  6. A AWS lépésfunkciók munkafolyamat kimenetként létrehoz egy hangfájlt, és eltárolja azt Amazon S3 MP3 formátumban.
  7. Előre aláírt URL a tárolt hangfájl helyével Amazon S3 keresztül kerül vissza a felhasználó böngészőjébe Amazon API átjáró. A felhasználó mobileszköze lejátssza a hangfájlt az előre aláírt URL-cím használatával.

Megoldás áttekintése

Ebben a részben azokra a tervezési szempontokra összpontosítunk, amelyek miatt választottuk

  1. párhuzamos feldolgozás egy AWS lépésfunkciók munkafolyamat
  2. egységes sorozatról szekvenciára előre betanított gépi tanulási modell OFA (One For All) -tól Átölelő arc nak nek Amazon SageMaker képaláíráshoz
  3. Amazon felismerés az arcfelismeréshez

Ha részletesebb áttekintést szeretne kapni arról, miért választottuk a szerver nélküli architektúrát, a szinkron munkafolyamatot, az expressz lépéses funkciók munkafolyamatát, a fej nélküli architektúrát és az ebből származó előnyöket, olvassa el korábbi blogbejegyzésünket. Engedélyezze a látássérültek számára a dokumentumok hallását az Amazon Textract és az Amazon Polly segítségével

Párhuzamos feldolgozás

A Step Functions munkafolyamat párhuzamos feldolgozása akár 48%-kal csökkentette a számítási időt. Miután a felhasználó feltölti a képet az S3 tárolóba, az Amazon API Gateway létrehoz egy AWS Step Functions munkafolyamatot. Ezután az alábbi három Lambda-függvény párhuzamosan dolgozza fel a képet a Step Functions munkafolyamatban.

  • Az első lambda függvény ún describe_image segítségével elemzi a képet OFA_IMAGE_CAPTION modell egy SageMaker valós idejű végponton tárolva a képfelirat biztosításához.
  • A második lambda-függvény ún describe_faces először ellenőrzi, hogy vannak-e arcok az Amazon Rekognition segítségével Detect Faces API, és ha igaz, akkor meghívja a Compare Faces API-t. Ennek az az oka, hogy az Arcok összehasonlítása hibát jelez, ha nem található arc a képen. Ezenkívül az Arcok észlelése először meghívása gyorsabb, mint az Arcok összehasonlítása és a hibák kezelése, így az arc nélküli képek feldolgozási ideje gyorsabb lesz.
  • A harmadik lambda-függvény ún extract_text kezeli a szövegfelolvasást az Amazon Textract és az Amazon Comprehend segítségével.

A Lambda függvények egymás utáni végrehajtása megfelelő, de ennek gyorsabb, hatékonyabb módja a párhuzamos feldolgozás. A következő táblázat a három mintaképhez mentett számítási időt mutatja.

Kép Emberek (People) Szekvenciális idő Párhuzamos idő Időmegtakarítás (%) Képaláírás
Bemutatkozik egy kép-beszéd generatív mesterséges intelligencia alkalmazás az Amazon SageMaker és Hugging Face segítségével | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai. 0 1869ms 1702ms 8% Egy cirmos macska összegörnyedt egy bolyhos fehér ágyban.
Bemutatkozik egy kép-beszéd generatív mesterséges intelligencia alkalmazás az Amazon SageMaker és Hugging Face segítségével | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai. 1 4277ms 2197ms 48% Egy zöld blúzos és fekete kardigános nő mosolyog a kamerába. Egy embert felismerek: Kanbót.
Bemutatkozik egy kép-beszéd generatív mesterséges intelligencia alkalmazás az Amazon SageMaker és Hugging Face segítségével | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai. 4 6603ms 3904ms 40% Az Amazonas szférák előtt álló emberek. 3 embert ismerek fel: Kanbo, Jack és Ayman.

Képfelirat

A Hugging Face egy nyílt forráskódú közösségi és adattudományi platform, amely lehetővé teszi a felhasználók számára a gépi tanulási modellek megosztását, létrehozását, képzését és üzembe helyezését. Miután megvizsgáltuk a Hugging Face modellközpontban elérhető modelleket, úgy döntöttünk, hogy a OFA modell mert a szerzők leírása szerint ez „egy feladat-agnosztikus és modalitás-agnosztikus keretrendszer, amely támogatja a Feladat átfogóságát”.

Az OFA egy lépés a „One For All” felé, mivel ez egy egységes multimodális előre betanított modell, amely számos downstream feladatra hatékonyan képes átadni. Míg az OFA modell számos feladatot támogat, beleértve a vizuális alapozást, a nyelvértést és a képalkotást, mi a OFA modell a képaláírásokhoz a Describe For Me projektben az alkalmazás képből szöveggé alakításához. Nézze meg az OFA hivatalos tárházát (ICML 2022), papír hogy megismerje az OFA egyesítő architektúráit, feladatait és modalitásait egy egyszerű szekvenciáról szekvenciára tanulási keretrendszeren keresztül.

Az OFA-nak az alkalmazásunkba való integrálásához klónoztuk a Hugging Face repót, és konténerbe helyeztük a modellt, hogy egy SageMaker végpontra telepítsük. A notebook ebben a repóban egy kiváló útmutató az OFA nagy modell telepítéséhez egy Jupyter notebookban a SageMakerben. A következtetési szkript konténerbe helyezése után a modell készen áll a SageMaker-végpont mögötti telepítésre a SageMakerben leírtak szerint. dokumentáció. A modell üzembe helyezése után hozzon létre egy HTTPS-végpontot, amely integrálható a „describe_image” lambda függvénnyel, amely elemzi a képet a képfelirat létrehozásához. Az OFA apró modellt azért vezettük be, mert ez egy kisebb modell, és rövidebb idő alatt telepíthető, miközben hasonló teljesítményt ér el.

Példák a „Describe For Me” által generált kép-beszéd tartalomra az alábbiakban láthatók:

Az aurora borealis, vagyis az északi fény betölti az éjszakai égboltot egy ház sziluettje fölött.

Az aurora borealis, vagyis az északi fény betölti az éjszakai égboltot egy ház sziluettje fölött.

Egy kutya alszik egy piros takarón a keményfa padlón, egy játékokkal teli nyitott bőrönd mellett.

Egy kutya alszik egy piros takarón a keményfa padlón, egy játékokkal teli nyitott bőrönd mellett.

Egy cirmos macska összegörnyedt egy bolyhos fehér ágyban.

Egy cirmos macska összegörnyedt egy bolyhos fehér ágyban.

arcfelismerő

Az Amazon Rekognition Image biztosítja a Arcok észlelése olyan művelet, amely a kulcsfontosságú arcvonásokat keresi, mint például a szem, az orr és a száj, hogy felismerje az arcokat a bemeneti képen. Megoldásunkban ezt a funkciót kihasználjuk a bemeneti képen lévő személyek észlelésére. Ha valakit észlelünk, akkor használjuk a Arcok összehasonlítása műveletet a bemeneti képen látható arc és a „Describe For Me” képzésben szereplő arcok összehasonlításához, és név szerint írja le a személyt. A Rekognition használatát választottuk az arcfelismerésre, mert nagy pontosságú, és hogy milyen egyszerű volt az alkalmazásunkba integrálni a már készen kapható képességekkel.

Egy csoport ember pózol egy képhez egy szobában. 4 embert ismerek fel: Jacket, Kanbót, Alakot és Tracet. A képen szöveg is volt. Ez így szól: AWS re: Invent

Egy csoport ember pózol egy képhez egy szobában. 4 embert ismerek fel: Jacket, Kanbót, Alakot és Tracet. A képen szöveg is volt. Ez így szól: AWS re: Invent

Lehetséges használati esetek

Alternatív szöveggenerálás webes képekhez

A webhelyen található összes képnek alternatív szöveggel kell rendelkeznie, hogy a képernyőolvasók elmondhassák azokat a látássérülteknek. Keresőoptimalizáláshoz (SEO) is jó. Az alt feliratok létrehozása időigényes lehet, mivel a szövegíró feladata, hogy ezeket egy tervdokumentumban adja meg. A Describe For Me API automatikusan alternatív szöveget generálhat a képekhez. Böngészőbővítményként is használható, hogy automatikusan képaláírást adjon bármely webhelyen a hiányzó alternatív szöveghez.

Audio leírás a videóhoz

Az Audio Description narrációs sávot biztosít a videotartalomhoz, hogy segítse a látássérülteket a filmek követésében. Ahogy a képaláírások egyre robusztusabbak és pontosabbak, lehetségessé válhat egy munkafolyamat, amely magában foglalja egy hangsáv létrehozását a jelenet kulcsfontosságú részeinek leírása alapján. Az Amazon Rekognition már képes észlelni a jelenetváltozásokat, a logókat és a hitelsorozatokat, valamint a hírességek észlelését. A leírás jövőbeli változata lehetővé tenné ennek a kulcsfontosságú funkciónak a automatizálását filmeknél és videóknál.

Következtetés

Ebben a bejegyzésben megvitattuk, hogyan használhatjuk az AWS-szolgáltatásokat, beleértve az AI-t és a szerver nélküli szolgáltatásokat, hogy segítsünk a látássérülteknek a képek megtekintéséhez. A Describe For Me projektről többet megtudhat és használhatja, ha ellátogat descriptionforme.com. Tudjon meg többet az egyedi jellemzőiről Amazon SageMakerAmazon felismerés és a Az AWS-partnerség a Hugging Face-szel.

Harmadik féltől származó ML-modellre vonatkozó felelősség kizárása

Ez az útmutató csak tájékoztató jellegű. Továbbra is el kell végeznie a saját független értékelését, és meg kell tennie az intézkedéseket annak biztosítására, hogy megfeleljen saját minőség-ellenőrzési gyakorlatának és szabványainak, valamint az Önre, a tartalmaira és a tartalmaira vonatkozó helyi szabályoknak, törvényeknek, rendeleteknek, licenceknek és használati feltételeknek. a harmadik féltől származó gépi tanulási modell, amelyre ebben az útmutatóban hivatkozunk. Az AWS-nek nincs ellenőrzése vagy felhatalmazása az útmutatóban hivatkozott harmadik féltől származó Machine Learning modellre, és nem vállal semmilyen kijelentést vagy garanciát arra vonatkozóan, hogy a harmadik féltől származó Machine Learning modell biztonságos, vírusmentes, működőképes vagy kompatibilis az Ön termelési környezetével. és szabványok. Az AWS nem vállal semmilyen kijelentést, garanciát vagy garanciát arra vonatkozóan, hogy az ebben az útmutatóban szereplő bármely információ meghatározott eredményt vagy eredményt eredményez.


A szerzőkről

Jack MarchettiJack Marchetti az AWS vezető megoldási építésze, aki arra összpontosít, hogy segítse az ügyfeleket a szerver nélküli, eseményvezérelt architektúrák modernizálásában és megvalósításában. Jack jogilag vak, és Chicagóban él feleségével, Erinnel és Minou macskával. Emellett forgatókönyvíró és rendező is, aki elsősorban a karácsonyi filmekre és a horrorra összpontosít. Tekintse meg Jack filmográfiáját az övénél IMDb oldal.

Alak EswaradassAlak Eswaradass az Illinois állambeli chicagói székhelyű AWS vezető megoldások építésze. Szenvedélyesen segíti ügyfeleit az AWS-szolgáltatásokat használó felhőarchitektúrák tervezésében az üzleti kihívások megoldására. Alak lelkesen használja a SageMaker-t az AWS-ügyfelek különféle ML használati eseteinek megoldására. Amikor nem dolgozik, Alak szívesen tölt időt a lányaival, és a kutyáival fedezi fel a szabadban.

Kandyce BohannonKandyce Bohannon Senior Solutions Architect, Minneapolis, MN székhelyű. Ebben a szerepkörben Kandyce az AWS-ügyfelek műszaki tanácsadójaként dolgozik, miközben modernizálják a technológiai stratégiákat, különösen az adatokkal és a DevOps-szal kapcsolatban, hogy megvalósítsák a legjobb gyakorlatokat az AWS-ben. Ezenkívül Kandyce szenvedélyes a technológusok jövő generációinak mentorálása és a nők technológiai bemutatása az AWS She Builds Tech Skills programon keresztül.

Trac DoTrac Do az AWS megoldási építésze. Munkájában a Trac vállalati ügyfelekkel dolgozik, hogy támogassa felhőalapú migrációjukat és alkalmazáskorszerűsítési kezdeményezéseiket. Szenvedélyesen szereti megismerni az ügyfelek kihívásait, és az AWS-szolgáltatások segítségével robusztus és méretezhető megoldásokkal megoldani azokat. Trac jelenleg Chicagóban él feleségével és 3 fiújával. A repülés nagy rajongója, és jelenleg a magánpilóta engedélyének befejezése előtt áll.

Időbélyeg:

Még több AWS gépi tanulás