Trükitud sõna lugemine avab teabe, kujutlusvõime ja loovuse maailma. Skännitud raamatuid ja dokumente võib aga nägemispuudega ja õpiraskustega inimestel olla raske tarbida. Lisaks eelistavad mõned inimesed kuulata tekstipõhist sisu, mitte lugeda seda. Dokument kõneks muutmise lahendus laiendab digitaalse sisu ulatust, andes tekstisisule hääle. Seda kasutatakse erinevates tööstussektorites, näiteks:
- meelelahutus- Saate luua oma heliraamatuid.
- Käsitöö - Õpilased saavad oma loengumärkmed kõneks muuta ja neile kõikjal juurde pääseda.
- Patsiendi hooldus – Annustamisjuhised ja ettevaatusabinõud on tavaliselt väikestes kirjades ja raskesti loetavad. Selle lahendusega saate võimaliku kahju vältimiseks pildistada, kõneks teisendada ja juhiseid kuulata.
Dokumendi kõneks muutmise lahendus teisendab skannitud raamatud või mobiiltelefoni või pihuseadmega võetud dokumendid automaatselt kõneks. See lahendus laiendab võimalusi Amazon Polly. Me teksti väljavõte skannitud dokumentidest kasutades Amazoni tekstja seejärel teisendage Tekst kõneks kasutades Amazon Pollyt. Lahenduse eelised hõlmavad kasutaja mobiilsust ja vabadust ning varasemate lugejate täiustatud õppimisvõimalusi.
Idee sai alguse Harry Panilt, blogi autori ühest vanema ja lapse lemmiktegevusest – raamatute lugemisest. „Mu poeg naudib juturaamatuid, kuid on liiga väike, et üksinda lugeda. Mulle meeldib talle lugeda, kuid mõnikord on mul vaja tööd teha või majapidamistöid teha. See tekitas idee luua dokumentidest kõneks muutmise lahendus, mis saaks talle ette lugeda, kui ma olin hõivatud.
Ülevaade lahendusest
Lahendus on sündmustepõhine serverita arhitektuur, mis kasutab skannitud dokumentide kõneks teisendamiseks Amazoni AI teenuseid. Amazon Textract ja Amazon Polly kuuluvad AWS-i masinõppe (ML) virna ülemisse kihti. Need teenused võimaldavad arendajatel hõlpsasti lisada igale rakendusele intelligentsust ilma eelnevate ML-teadmisteta.
Amazon Textract on ML-teenus, mis eraldab skannitud dokumentidest automaatselt teksti, käsitsikirja ja andmed. Vormide ja tabelite andmete tuvastamine, mõistmine ja eraldamine läheb kaugemale lihtsast optilisest märgituvastusest (OCR). Amazon Textract kasutab ML-i mis tahes tüüpi dokumentide lugemiseks ja töötlemiseks, ekstraheerides teksti, käsitsikirja, tabelid ja muud andmed täpselt ilma käsitsi tehtud pingutusteta.
Amazon Polly on tekst kõneks muutmise teenus, mis muudab teksti elutruuks kõneks, võimaldades teil luua kõnerakendusi ja luua täiesti uusi kõnetoega toodete kategooriaid. Amazon Polly kasutab täiustatud süvaõppe tehnoloogiaid, et sünteesida kõnet, mis kõlab nagu inimhääl.
Amazoni AI teenuste kasutamisel on olulisi eeliseid:
- Nad võtavad vähe jõupingutusi; saate need API-d integreerida mis tahes rakendusse
- Nad pakuvad väga skaleeritavaid ja kulutõhusaid lahendusi
- Teie organisatsioon saab suunata oma fookuse kohandatud mudelite arendamiselt äritulemustele
Lahendus kasutab ka Amazon API värav kiireks püstitamiseks API-liidesed, mida veebi kasutajaliides saab käivitada selliste toimingute tegemiseks nagu dokumentide üleslaadimine ja skannitud dokumentide kõneks teisendamine. API Gateway pakub skaleeritavat viisi turvaliste API-de loomiseks, avaldamiseks ja hooldamiseks. Selles lahenduses kasutame ka API Gateway WebSocketi tuge, et luua püsiv ühendus veebiliidese ja taustaprogrammi vahel, et taustaprogramm saaks jätkuvalt kasutajale edenemise värskendusi reaalajas saata.
Me kasutame AWS Lambda funktsioonid Amazon Textracti ja Amazon Polly asünkroonsete tööde käivitamiseks. Lambda on väga kättesaadav ja skaleeritav arvutusteenus, mis võimaldab teil koodi käitada ilma ressursse kasutamata.
Kasutame AWS-i astmefunktsioonid olekumasin kahe paralleelse Lambda funktsiooni orkestreerimiseks – üks teksti modereerimiseks ja teine teksti salvestamiseks Amazoni lihtne salvestusteenus (Amazon S3). Step Functions on serverita orkestreerimisteenus, mis määratleb rakenduse töövood sündmustest juhitud sammude seeriana.
Arhitektuur ja kood
Nagu eelmises jaotises kirjeldatud, kasutame dokumentide kõneks teisendamise lahenduse loomiseks kahte peamist AI teenust, Amazon Textract ja Amazon Polly. Üks lisateenus, mida me pole puudutanud, on AWS võimendus. Amplify võimaldab esiotsa arendajatel kiiresti koostada laiendatavaid täispinu veebi- ja mobiilirakendusi. Amplify abil saate hõlpsalt taustaprogrammi konfigureerida, mõne minuti jooksul sellega rakenduse ühendada ja hõlpsalt skaleerida. Kasutame Amplifyt veebiliidese hostimiseks, mis võimaldab kasutajatel skannitud dokumente üles laadida.
Saate kasutada ka oma kasutajaliidest ilma Amplifyta. Sellesse lahendusse süvenedes näitame, kuidas saate kasutada mis tahes klientrakendust taustaprogrammiga ühenduse loomiseks, et teisendada dokumendid kõneks – seni, kuni need toetavad REST-i ja WebSocketi API-sid. Siinne veebiliides on lihtsalt selle lahenduse põhifunktsioonide demonstreerimiseks. Selle kirjutamise seisuga toetab lahendus JPEG-, PNG- ja PDF-sisestusvorminguid ning inglise keelt.
Järgnev diagramm illustreerib lahenduse arhitektuuri.
Läbime selle arhitektuuri, järgides ühe kasutaja päringu teed:
- Kasutaja külastab Amplifys hostitud veebikasutajaliidest. UI kood on
index.html
faililclient
koodihoidla kaust. - Kasutaja valib veebiliidese abil üleslaadimiseks JPG-, PDF- või PNG-faili.
- Kasutaja algatab Teisendage ja esitage heli protsessi veebikasutajaliidesest, mis laadib sisendfaili üles S3 ämbrisse API Gateways hostitud REST API kaudu.
- Kui üleslaadimine on lõppenud, algab dokumendist kõneks teisendamine taustaprotsessina.
- Konversiooni ajal hoiab veebiklient API-lüüsiga püsivat WebSocket-ühendust. See võimaldab taustaprotsessidel (Lambda funktsioonid) veebikliendile pidevalt edenemise värskendusi saata.
- Taotlus läbib API lüüsi ja käivitab Lambda funktsiooni
convert-images-to-text
. See funktsioon kutsub dokumendi tekstiks teisendamiseks asünkroonselt Amazon Textracti. - Kui pildist tekstiks teisendamine on lõppenud, saadab Amazon Textract teatise aadressile Amazoni lihtne teavitusteenus (Amazon SNS).
- Teade käivitab lambda funktsiooni
on-textract-ready
, mis käivitab sammufunktsioonide olekumasina. - Riigimasin korraldab järgmised sammud:
- See käivitab lambda funktsiooni
retrieve-text
teisendatud teksti hankimiseks Amazon Textractist. - Seejärel käivitab see lambda funktsioone
moderate-text
jastore-text
Paralleelselt.moderate-text
peatab edasise töötlemise, kui tuvastatakse soovimatud sõnad, jastore-text
salvestab teisendatud teksti koopia S3 ämbrisse. - Kui paralleelsed sammud on lõpetatud, käivitab olekumasin lambda funktsiooni
convert-text-to-audio
, mis kutsub kõne teisendamiseks välja Amazon Polly asünkroonselt teisendatud tekstiga. Olekumasin lõpetab pärast seda sammu.
- See käivitab lambda funktsiooni
- Sarnaselt Amazon Textractiga saadab Amazon Polly Amazon SNS-ile teatise, kui töö on tehtud. Teade käivitab lambda funktsiooni
on-polly-ready
, mis saadab veebi kasutajaliidesele lõpliku sõnumi koos teisendatud helifaili Amazon S3 asukohaga.
- Veebi kasutajaliides laadib lõpliku teisendatud helifaili Amazon S3-st alla REST API kaudu ja esitab selle seejärel kasutaja jaoks.
- Rakendus kasutab an Amazon DynamoDB tabel, et jälgida tööteavet, nagu Amazon Textracti töö ID, Amazon Polly töö ID ja palju muud.
Kood on hostitud saidil GitHub ja seda kasutatakse kasutades AWS pilvearenduskomplekt (AWS CDK), avatud lähtekoodiga tarkvara arendusraamistik pilverakenduste ressursside määratlemiseks tuttavate programmeerimiskeelte abil. AWS CDK varustab ressursse korrataval viisil AWS CloudFormation.
Eeldused
Selle lahenduse juurutamise ainus eeltingimus on AWS-i konto.
Rakendage lahendus
Järgmised sammud kirjeldavad rakenduse juurutamist.
- Logige sisse oma AWS-i kontole.
- Kohta AWSi pilv konsooli, avage olemasolev keskkond või valige Loo keskkond uue loomiseks.
- Oma AWS Cloud9 IDE-s Aken menüüst valige Uus terminal terminali avamiseks.
Kõik järgmised toimingud tehakse samas terminalis.
- Kloonige git-hoidla ja sisestage projekti kataloog:
- Looge Pythoni virtuaalne keskkond:
- Kui init-protsess on lõppenud ja virtuaalne keskkond on loodud, kasutage oma virtuaalse keskkonna aktiveerimiseks järgmist.
- Pärast virtuaalse keskkonna aktiveerimist installige vajalikud sõltuvused:
- Nüüd saate sünteesida CloudFormationi malle AWS CDK koodist:
- Juurutage AWS CDK rakendus ja jäädvustage hiljem vajalikud AWS CDK väljundid:
Peate kinnitama iga virna jaoks juurutavad muudatused. Virna loomise edenemist saate kontrollida AWS Cloud Formationi konsoolil.
- Veebikliendi külastamiseks käivitage järgmine käsk ja järgige selle väljundit, et käivitada esiotsa juurutamine ja kasutada veebiklienti:
Peamised asjad, mida tähele panna:
- .
extract-cdk-outputs.py
skript prindib välja veebiliidese URL-i. Skript prindib välja ka S3 ämbri nime, faili API lõpp-punkti ja konversiooni API lõpp-punkti stringid, mis tuleb enne dokumendi üleslaadimist veebiliideses seadistada. - Saate määrata muutujas soovimatute sõnade loendi
moderate-text
Lambda funktsioon.
Kasutage rakendust
Järgmised sammud näitavad, kuidas rakendust veebiliidese kaudu kasutada.
- Pärast juurutamise viimast etappi täitke väljad jaoks S3 ämbri nimi, Faili lõpp-punktja Konversiooni lõpp-punkt veebi kasutajaliideses.
- Vali Vali fail sisendfaili üleslaadimiseks.
- Vali Teisendage ja esitage heli.
Veebi kasutajaliides näitab käimasoleva konversiooni edenemist.
Veebi kasutajaliides esitab heli automaatselt, kui teisendamine on lõppenud.
Koristage
Kõigi ressursside kustutamiseks ja tulevaste tasude vältimiseks käivitage järgmine käsk:
Järeldus
Selles postituses demonstreerisime lahendust, kuidas kiiresti juurutada dokumendist kõneks teisendamise rakendus, kasutades kahte võimsat AI-teenust: Amazon Textract ja Amazon Polly. Näitasime, kuidas lahendus töötab, ja andsime üksikasjaliku ülevaate koodist ja juurutamise etappidest. See lahendus on mõeldud võrdlusarhitektuuriks või kiirkäivituseks, mida saate veelgi täiustada. Eelkõige saate lisada toe rohkematele inimkeeltele, lisada järjekorra sissetulevate päringute puhverdamiseks ja kasutajaid autentida.
Nagu selles postituses arutatud, näeme selle lahenduse jaoks mitmeid kasutusjuhtumeid erinevates tööstusharudes. Proovige seda ja andke meile teada, kuidas see teie kasutusjuhtumi lahendas, jättes kommentaaride jaotisesse tagasisidet. Lahenduse ressurssidele pääsete juurde aadressilt dokument kõneks GitHubi hoidla.
viited
Lisateavet leiate järgmistest ressurssidest:
- Amazon Textracti arendaja juhend
- Amazon Polly arendaja juhend
- WebSocket API-dega töötamine
- AWS CDK Construct Library
- AWS Amplify Construct Library
Autoritest
Harry Pan on ISV lahenduste arhitekt ettevõttes Amazon Web Services, mis asub San Francisco lahe piirkonnas, kus ta aitab tarkvaraettevõtetel saavutada oma ärieesmärke, luues hästi läbimõeldud IT-süsteeme. Talle meeldib veeta vaba aega perega, mängida tennist, kodeerida Haskellis ja reisida.
Chaitra Mathur on AWS-i peamine lahenduste arhitekt. Ta juhendab partnereid ja kliente AWS-is väga skaleeritavate, usaldusväärsete, turvaliste ja kulutõhusate lahenduste loomisel. Vabal ajal meeldib talle lugeda, joogat ja tütardega aega veeta.
- Münditark. Euroopa parim Bitcoini ja krüptobörs.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. TASUTA PÄÄS.
- CryptoHawk. Altcoini radar. Tasuta prooviversioon.
- Allikas: https://aws.amazon.com/blogs/machine-learning/increase-your-content-reach-with-automated-document-to-speech-conversion-using-amazon-ai-services/
- "
- &
- 10
- 100
- 7
- 9
- juurdepääs
- konto
- üle
- tegevus
- lisamine
- Täiendavad lisad
- edasijõudnud
- eelised
- AI
- AI teenused
- Materjal: BPA ja flataatide vaba plastik
- Lubades
- Amazon
- Amazon Web Services
- kuskil
- API
- API-liidesed
- taotlus
- rakendused
- apps
- arhitektuur
- PIIRKOND
- heli-
- Automatiseeritud
- saadaval
- AWS
- tagapõhi
- laht
- Kasu
- Peale
- Blogi
- Raamatud
- piir
- ehitama
- Ehitus
- äri
- võimeid
- lüüa
- juhtudel
- CD
- koormuste
- Vali
- Cloud
- kood
- Kodeerimine
- kommentaarid
- Ettevõtted
- Arvutama
- Võta meiega ühendust
- ühendus
- konsool
- tarbima
- sisu
- Konverteerimine
- kuluefektiivne
- võiks
- looma
- loodud
- loomine
- tava
- Kliendid
- andmed
- näitama
- Näidatud
- juurutada
- lähetatud
- kasutuselevõtu
- kirjeldatud
- hävitama
- detail
- üksikasjalik
- tuvastatud
- arendaja
- Arendajad
- & Tarkvaraarendus
- seade
- erinev
- raske
- digitaalne
- dokumendid
- allalaadimine
- Varajane
- kergesti
- jõupingutusi
- Lõpp-punkt
- Inglise
- sisene
- keskkond
- looma
- olemasolevate
- Väljavõtted
- pere
- FUNKTSIOONID
- tagasiside
- Valdkonnad
- Keskenduma
- järgima
- Järel
- vormid
- Raamistik
- Francisco
- Vabadus
- täis
- funktsioon
- edasi
- tulevik
- Git
- GitHub
- andmine
- Eesmärgid
- juhendid
- aitab
- siin
- kõrgelt
- võõrustas
- leibkond
- Kuidas
- Kuidas
- HTTPS
- inim-
- idee
- identifitseerima
- kujutlusvõime
- sisaldama
- Suurendama
- tööstus
- info
- sisend
- paigaldama
- integreerima
- Intelligentsus
- IT
- töö
- Tööturg
- Võti
- teadmised
- keel
- Keeled
- õppimine
- nimekiri
- vähe
- liising
- Pikk
- armastus
- masin
- masinõpe
- säilitada
- viis
- käsiraamat
- ML
- mobiilne
- mobiiltelefon
- liikuvus
- mudelid
- rohkem
- mitmekordne
- normaalne
- märkused
- teade
- pakkuma
- jätkuv
- avatud
- Avaneb
- Operations
- Korraldus
- et
- organisatsioon
- Muu
- enda
- partnerid
- Inimesed
- pilt
- mängima
- mängimine
- potentsiaal
- võimas
- eelmine
- Peamine
- protsess
- Protsessid
- töötlemine
- Toodet
- Programming
- programmeerimiskeeled
- projekt
- annab
- avaldama
- Kiire
- kiiresti
- jõudma
- lugejad
- Lugemine
- Hoidla
- taotleda
- Taotlusi
- nõutav
- Nõuded
- Vahendid
- REST
- jooks
- San
- San Francisco
- skaalautuvia
- Skaala
- Sektorid
- kindlustama
- Seeria
- Serverita
- teenus
- Teenused
- komplekt
- suunata
- märkimisväärne
- lihtne
- väike
- So
- tarkvara
- tarkvaraarenduse
- tahke
- lahendus
- Lahendused
- mõned
- selle
- Kulutused
- Kestab
- algus
- algab
- riik
- ladustamine
- salvestada
- kauplustes
- toetama
- Toetab
- süsteemid
- rääkima
- Tehnoloogiad
- malle
- terminal
- Läbi
- aeg
- ülemine
- jälgida
- Reisimine
- tüüpiliselt
- ui
- mõistma
- Uudised
- us
- kasutama
- Kasutajad
- Versus
- virtuaalne
- nägemus
- Hääl
- web
- veebiteenused
- jooksul
- ilma
- sõnad
- Töö
- töötab
- maailm
- kirjutamine