Tutvustame pildist kõneks generatiivset tehisintellekti rakendust, mis kasutab Amazon SageMakerit ja kallistavat nägu

Taasavaldanud Platon

järgijaid: 0

Nägemiskaotus esineb erinevates vormides. Mõne jaoks on see sünnist saadik, teiste jaoks on see aeglane langus aja jooksul, millega kaasneb palju aegumiskuupäevi: päev, mil te ei näe pilte, ei tunne ära enda ega lähedaste nägusid ega isegi oma e-kirju lugeda. Meie eelmises blogipostituses Lubage vaegnägijatel kuulda dokumente Amazon Textracti ja Amazon Polly abil, näitasime teile oma Tekst kõneks rakendust nimega "Loe minu eest". Juurdepääsetavus on kaugele arenenud, aga kuidas on lood piltidega?

2022. aasta AWS re:Invent konverentsil Las Vegases demonstreerisime "Kirjelda minu jaoks" AWS Builders' Fair, veebisait, mis aitab vaegnägijatel pilte mõista pildiallkirjade, näotuvastuse ja teksti kõneks muutmise kaudu – tehnoloogia, mida me nimetame "Pilt kõneks". Mitme tehisintellekti/ML-teenuse kasutamise kaudu loob „Describe For Me” sisendpildi pealkirja ja loeb selle selge, loomuliku häälega tagasi erinevates keeltes ja murretes.

Selles ajaveebipostituses tutvustame teile „Kirjelda mulle” taga olevat lahendusarhitektuuri ja meie lahenduse kujunduslikke kaalutlusi.

Lahenduse ülevaade

Järgmine viitearhitektuur näitab töövoogu, kui kasutaja teeb telefoniga pilti ja esitab pildi pealkirja MP3-vormingus.

Kirjeldatud lahenduse viitearhitektuur.

Töövoog sisaldab järgmisi samme,

AWS võimendus levitab HTML-ist, JavaScriptist ja CSS-ist koosnevat veebirakendust DescribeForMe lõppkasutajate mobiilseadmetes.
. Amazon Cognito Identiteedikogum annab ajutise juurdepääsu teenusele Amazon S3 kopp.
Kasutaja laadib pildifaili üles Amazon S3 ämbri kasutamine AWS SDK veebirakenduse kaudu.
Veebirakendus DescribeForMe kutsub esile AI taustateenused, saates Amazon S3 objekt Sisestage kasulik koormus Amazon API värav
Amazon API värav instantseerib an AWS-i astmefunktsioonid töövoog. Osariigi masin korraldab tehisintellekti/masinõppe (AI/ML) teenuseid Amazon Rekognitsioon, Amazon SageMaker, Amazoni tekst, Amazoni tõlge, ja Amazon Polly kasutamine AWS lambda funktsioone.
. AWS-i astmefunktsioonid töövoog loob väljundina helifaili ja salvestab selle Amazon S3 MP3 formaadis.
Eelallkirjastatud URL koos salvestatud helifaili asukohaga Amazon S3 kaudu saadetakse kasutaja brauserisse tagasi Amazon API värav. Kasutaja mobiilseade esitab helifaili, kasutades eelallkirjastatud URL-i.

Lahendus Juurdepääs

Selles jaotises keskendume disaini kaalutlustele, miks me valisime

paralleelne töötlemine an AWS-i astmefunktsioonid töövoog
ühtne järjestus-järjestus eelkoolitatud masinõppemudel OFA (One For All) alates Kallistav nägu et Amazon SageMaker pildi pealdise jaoks
Amazon Rekognitsioon näotuvastuseks

Üksikasjalikuma ülevaate saamiseks sellest, miks valisime serverita arhitektuuri, sünkroonse töövoo, kiirsammufunktsioonide töövoo, peata arhitektuuri ja saadud eeliste, lugege meie eelmist blogipostitust. Lubage vaegnägijatel kuulda dokumente Amazon Textracti ja Amazon Polly abil.

Paralleelne töötlemine

Paralleeltöötluse kasutamine Step Functions töövoos vähendas arvutusaega kuni 48%. Kui kasutaja laadib pildi S3 ämbrisse, käivitab Amazon API Gateway AWS-i sammufunktsioonide töövoo. Seejärel töötlevad allolevad kolm lambda funktsiooni pilti paralleelselt Step Functions töövoos.

Esimene lambda funktsioon kutsus describe_image analüüsib pilti kasutades OFA_IMAGE_CAPTION mudel majutatud SageMakeri reaalajas lõpp-punktis, et pakkuda pildi pealkirja.
Teine lambda funktsioon kutsus describe_faces esmalt kontrollib Amazon Rekognitioni abil nägude olemasolu Tuvasta nägude API, ja kui see on tõsi, kutsub see esile nägude võrdlemise API. Selle põhjuseks on Võrdle nägusid, kui pildilt nägusid ei leita, kuvatakse veateade. Lisaks on näotuvastus esmalt kutsumine kiirem kui lihtsalt nägude võrdlemise ja vigade käsitlemise käivitamine, nii et ilma nägudeta piltide töötlemisaeg on kiirem.
Kolmas lambda funktsioon kutsus extract_text haldab teksti kõneks muutmist, kasutades Amazon Textracti ja Amazon Comprehendi.

Lambda funktsioonide järjestikune täitmine on sobiv, kuid kiirem ja tõhusam viis seda teha on paralleeltöötlus. Järgmine tabel näitab kolme näidispildi jaoks salvestatud arvutusaega.

pilt	Inimesed	Järjestikune aeg	Paralleelaeg	Aja kokkuhoid (%)	Pealkiri
	0	1869ms	1702ms	8%	Kohvvalgesse voodisse kõverdunud tabby kass.
	1	4277ms	2197ms	48%	Rohelise pluusi ja musta kardiganiga naine naeratab kaamerasse. Ma tunnen ära ühe inimese: Kanbo.
	4	6603ms	3904ms	40%	Inimesed, kes seisavad Amazonase sfääride ees. Ma tunnen ära 3 inimest: Kanbo, Jacki ja Aymani.

Pildi pealdis

Hugging Face on avatud lähtekoodiga kogukonna ja andmeteaduse platvorm, mis võimaldab kasutajatel masinõppemudeleid jagada, ehitada, koolitada ja juurutada. Pärast Hugging Face mudelikeskuses saadaolevate mudelite uurimist otsustasime kasutada OFA mudel sest autorite kirjelduse kohaselt on see "ülesannete agnostiline ja modaalsusagnostiline raamistik, mis toetab ülesande terviklikkust".

OFA on samm "One For All" suunas, kuna see on ühtne multimodaalne eelkoolitatud mudel, mis suudab tõhusalt üle kanda mitmele järgnevale ülesandele. Kuigi OFA mudel toetab paljusid ülesandeid, sealhulgas visuaalset maandust, keele mõistmist ja pildi genereerimist, kasutasime me OFA mudel piltide pealdisteks projektis Describe For Me, et teostada rakenduse pilt tekstiks. Vaadake OFA ametlikku hoidlat (ICML 2022), paber õppida tundma OFA ühendavaid arhitektuure, ülesandeid ja mooduseid lihtsa järjestusest järjestikku õppimise raamistiku kaudu.

OFA integreerimiseks meie rakendusse kloonisime Hugging Face'i repo ja konteinerisime mudeli, et juurutada see SageMakeri lõpp-punkti. The märkmik selles repos on suurepärane juhend OFA suure mudeli juurutamiseks SageMakeris Jupyteri sülearvutis. Pärast järeldusskripti konteinerisse paigutamist on mudel valmis juurutamiseks SageMakeri lõpp-punkti taga, nagu on kirjeldatud SageMakeris dokumentatsioon. Kui mudel on juurutatud, looge HTTPS-i lõpp-punkt, mille saab integreerida lambda-funktsiooniga „describe_image”, mis analüüsib pilti, et luua pildi pealdis. Võtsime kasutusele väikese OFA mudeli, kuna see on väiksem mudel ja seda saab juurutada lühema aja jooksul, saavutades samal ajal sarnase jõudluse.

Allpool on toodud näited „Kirjelda mulle” loodud pildist kõneks sisu kohta.

Aurora borealis ehk virmalised täidavad öist taevast maja silueti kohal.

Koer magab lehtpuupõrandal punasel tekil mänguasjadega täidetud lahtise kohvri kõrval.

Kohvvalgesse voodisse kõverdunud tabby kass.

näo tunnustamise

Amazon Rekognition Image pakub Tuvasta nägu toiming, mis otsib sisendpildil nägude tuvastamiseks peamisi näoelemente, nagu silmad, nina ja suu. Oma lahenduses võimendame seda funktsiooni sisendpildil kõigi inimeste tuvastamiseks. Kui inimene tuvastatakse, kasutame seda Võrdle nägusid toiming, et võrrelda sisendpildil olevat nägu nägudega, millega "Kirjelda mulle" on treenitud, ja kirjeldada inimest nimepidi. Valisime näotuvastuseks kasutada Rekognitioni, kuna see on väga täpne ja kui lihtne oli integreerida meie rakendusse koos karbist välja antud võimalustega.

Grupp inimesi, kes poseerivad toas pildi jaoks. Tunnen ära 4 inimest: Jacki, Kanbo, Alaki ja Traci. Pildilt leiti ka teksti. See on järgmine: AWS re: Invent

Võimaliku kasutamise juhtumid

Alternatiivne teksti genereerimine veebipiltide jaoks

Kõik veebisaidil olevad pildid peavad sisaldama alternatiivset teksti, et ekraanilugejad saaksid neid vaegnägijatele rääkida. See sobib hästi ka otsingumootori optimeerimiseks (SEO). Alt-tiitrite loomine võib olla aeganõudev, kuna copywriteri ülesandeks on esitada need kujundusdokumendis. Describe For Me API võib piltide jaoks automaatselt luua alternatiivteksti. Seda saab kasutada ka brauseri pistikprogrammina, et lisada piltidele automaatselt pildipealkiri mis tahes veebisaidil puuduvatele piltidele.

Video helikirjeldus

Helikirjeldus pakub videosisu jutustamisrada, mis aitab vaegnägijatel filme jälgida. Kuna pildi pealdis muutub tugevamaks ja täpsemaks, võib olla võimalik töövoog, mis hõlmab heliriba loomist stseeni põhiosade kirjelduste põhjal. Amazon Rekognition suudab juba tuvastada stseenimuudatusi, logosid ja krediidiseeriaid ning kuulsuste tuvastamist. Kirjelduse tulevane versioon võimaldaks seda filmide ja videote põhifunktsiooni automatiseerida.

Järeldus

Selles postituses arutasime, kuidas kasutada AWS-teenuseid, sealhulgas tehisintellekti ja serverita teenuseid, et aidata vaegnägijatel pilte näha. Projekti Describe For Me kohta saate lisateavet ja seda kasutada külastades descriptionforme.com. Lisateavet selle ainulaadsete funktsioonide kohta Amazon SageMaker, Amazoni äratundmine ja AWS-i partnerlus Hugging Face'iga.

Kolmanda osapoole ML-mudelite lahtiütlus juhiste saamiseks

See juhend on mõeldud ainult informatiivsel eesmärgil. Peaksite siiski läbi viima oma sõltumatu hindamise ja võtma meetmeid tagamaks, et järgite oma konkreetseid kvaliteedikontrolli tavasid ja standardeid ning kohalikke eeskirju, seadusi, määrusi, litsentse ja kasutustingimusi, mis kehtivad teie, teie sisu ja käesolevas juhendis viidatud kolmanda osapoole masinõppe mudel. AWS-il ei ole käesolevas juhendis viidatud kolmanda osapoole masinõppe mudeli üle kontrolli ega volitusi ning see ei kinnita ega garanteeri, et kolmanda osapoole masinõppemudel on turvaline, viirusevaba, töökorras või teie tootmiskeskkonnaga ühilduv. ja standardid. AWS ei anna mingeid kinnitusi, garantiisid ega garantiisid, et mis tahes selles juhendis sisalduv teave toob kaasa konkreetse tulemuse või tulemuse.

Autoritest

Jack Marchetti on AWS-i vanemlahenduste arhitekt, kes keskendub klientide abistamisele serverita sündmustepõhise arhitektuuri moderniseerimisel ja juurutamisel. Jack on seaduslikult pime ja elab Chicagos koos oma naise Erini ja kass Minouga. Ta on ka stsenarist ja režissöör, kes keskendub peamiselt jõulufilmidele ja õudusfilmidele. Vaadake Jacki filmograafiat tema juures IMDb leht.

Alak Eswaradass on AWS-i vanemlahenduste arhitekt, mis asub Chicagos, Illinoisis. Ta on kirglik aidata klientidel kavandada pilvarhitektuure, kasutades äriprobleemide lahendamiseks AWS-teenuseid. Alak on entusiastlik SageMakeri kasutamisest, et lahendada AWS-i klientide jaoks mitmesuguseid ML-i kasutusjuhtumeid. Kui ta ei tööta, veedab Alak meelsasti oma tütardega aega ja uurib koertega õues.

Kandyce Bohannon on vanemlahenduste arhitekt, mis asub Minneapolises, MN. Selles rollis töötab Kandyce AWS-i klientide tehnilise nõustajana, kuna nad ajakohastavad eriti andmete ja DevOpsiga seotud tehnoloogiastrateegiaid, et rakendada AWS-is parimaid tavasid. Lisaks on Kandyce kirglik juhendada tulevaste põlvkondade tehnoloogid ja tutvustada naisi tehnoloogia vallas programmi AWS She Builds Tech Skills kaudu.

Trac Do Trac Do on AWS-i lahenduste arhitekt. Oma rollis töötab Trac äriklientidega, et toetada nende pilverände ja rakenduste moderniseerimise algatusi. Ta on kirglik klientide väljakutsete õppimisest ja nende lahendamisest tugevate ja skaleeritavate lahendustega, kasutades AWS-i teenuseid. Trac elab praegu Chicagos koos oma naise ja 3 poisiga. Ta on suur lennunduse entusiast ja on lõpetamas oma erapiloodi litsentsi.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoAiStream. Web3 andmete luure. Täiustatud teadmised. Juurdepääs siia.
Tuleviku rahapaja Adryenn Ashley. Juurdepääs siia.
Ostke ja müüge IPO-eelsete ettevõtete aktsiaid koos PREIPO®-ga. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/machine-learning/introducing-an-image-to-speech-generative-ai-application-using-amazon-sagemaker-and-hugging-face/

Ajatempel: Võib 19 2023

Ajatempel: Veebruar 24, 2023

Taasavaldanud Platon

AWS DeepRacer League 2022 väljakuulutamine

Looge Amazon SageMakeri georuumiliste võimalustega agronoomiline andmeplatvorm

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto