Enable Amazon Kendra Search For A Scanned Or Image-based Text Document

Újra kiadta Platón

Követő: 0

Amazon Kendra egy intelligens keresőszolgáltatás, amelyet gépi tanulás (ML) hajt. Az Amazon Kendra újragondolja a webhelyek és alkalmazások keresését, így alkalmazottai és ügyfelei könnyen megtalálhatják a keresett tartalmat, még akkor is, ha az a szervezeten belül több helyen és tartalomtárban van szétszórva.

Az Amazon Kendra számos dokumentumformátumot támogat, mint például a Microsoft Word, a PDF és a szöveg. Miközben az Edtech egyik vezető ügyfelével dolgoztunk, arra kértek bennünket, hogy készítsünk olyan vállalati keresési megoldást, amely képeket és PPT fájlokat is használ. Ez a bejegyzés az Amazon Kendra dokumentumtámogatásának kiterjesztésére összpontosít, hogy a szöveges képeket és a beszkennelt dokumentumokat (JPEG, PNG vagy PDF formátumban) előfeldolgozhassa a kereshetőség érdekében. A megoldás egyesül Amazon szöveg a dokumentumok előfeldolgozásához és az optikai karakterfelismeréshez (OCR), az Amazon Kendra pedig az intelligens kereséshez.

Az Amazon Kendra új egyéni dokumentum-bővítési funkciójával immár előfeldolgozhatja dokumentumait a feldolgozás során, és új metaadatokkal bővítheti dokumentumait. Az egyéni dokumentumgazdagítás lehetővé teszi külső szolgáltatások hívását, mint pl Amazon Comprehend, Amazon Textract és Amazon átirat szöveg kinyerésére a képekből, hang átírására és videó elemzésére. Az egyéni dokumentumgazdagítás használatával kapcsolatos további információkért lásd: Gazdagítsa tartalmait és metaadatait, hogy javítsa a keresési élményt az Amazon Kendra egyéni dokumentumgazdagításával.

Ebben a bejegyzésben egy alternatív módszert javasolunk a tartalom előfeldolgozására az Amazon Kendra feldolgozási folyamatának meghívása előtt.

Megoldás áttekintése

Az Amazon Textract egy ML-szolgáltatás, amely automatikusan kivonja a szöveget, a kézírást és az adatokat a beolvasott dokumentumokból, és túlmutat az alapvető OCR-en, az űrlapok és táblázatok adatainak azonosítása, megértése és kinyerése érdekében. Manapság sok vállalat manuálisan bontja ki az adatokat a beolvasott dokumentumokból, például PDF-ekből, képekből, táblázatokból és űrlapokból az alapvető OCR-szoftvereken keresztül, amelyek kézi konfigurálást igényelnek, ami gyakran újrakonfigurálást igényel az űrlap megváltozásakor.

E kézi és költséges folyamatok leküzdésére az Amazon Textract gépi tanulást használ a dokumentumok széles skálájának olvasásához és feldolgozásához, és minden kézi erőfeszítés nélkül pontosan kinyeri a szöveget, a kézírást, a táblázatokat és egyéb adatokat. Gyorsan automatizálhatja a dokumentumfeldolgozást, és intézkedhet a kinyert információkkal kapcsolatban, legyen szó akár hitelfeldolgozás automatizálásáról, akár információk kinyeréséről a számlákból és nyugtákból.

Amazon Kendra egy könnyen használható vállalati keresési szolgáltatás, amely lehetővé teszi, hogy keresési lehetőségeket adjon alkalmazásaihoz, így a végfelhasználók könnyen megtalálhatják a vállalaton belüli különböző adatforrásokban tárolt információkat. Ide tartozhatnak számlák, üzleti dokumentumok, műszaki kézikönyvek, értékesítési jelentések, vállalati szószedetek, belső webhelyek stb. Ezeket az információkat olyan tárolási megoldásokból gyűjtheti össze, mint pl Amazon egyszerű tárolási szolgáltatás (Amazon S3) és OneDrive; alkalmazások, például a Salesforce, a SharePoint és a ServiceNow; vagy relációs adatbázisok, mint pl Amazon Relációs adatbázis-szolgáltatás (Amazon RDS).

A javasolt megoldás lehetővé teszi, hogy felszabadítsa a beszkennelt dokumentumokban rejlő keresési lehetőségeket, kibővítve az Amazon Kendra azon képességét, hogy pontos válaszokat találjon a dokumentumtípusok szélesebb körében. A munkafolyamat a következő lépéseket tartalmazza:

Töltsön fel egy dokumentumot (vagy különféle típusú dokumentumokat) az Amazon S3-ra.
Az esemény kiváltja egy AWS Lambda függvény, amely a szinkron Amazon Textract API-t használja (DetectDocumentText).
Az Amazon Textract beolvassa a dokumentumot az Amazon S3-ban, kivonja belőle a szöveget, és visszaküldi a kibontott szöveget a Lambda függvénynek.
Az új szövegfájl adatforrását újraindexelni kell.
Ha az újraindexelés befejeződött, kereshet az új adatkészletben az Amazon Kendra konzolon vagy az API-n keresztül.

A következő ábra a megoldás architektúráját mutatja be.

A következő szakaszokban bemutatjuk, hogyan kell konfigurálni a Lambda függvényt, létrehozni az eseményindítót, feldolgozni egy dokumentumot, majd újraindexelni az adatokat.

Konfigurálja a lambda funkciót

A Lambda függvény konfigurálásához adja hozzá a következő kódot a függvény Python szerkesztőhöz:

import urllib
import boto3 textract = boto3.client('textract')
def handler(event, context): source_bucket = event['Records'][0]['s3']['bucket']['name'] object_key = urllib.parse.unquote_plus(event['Records'][0]['s3']['object']['key']) textract_result = textract.detect_document_text( Document={ 'S3Object': { 'Bucket': source_bucket, 'Name': object_key } }) page="" blocks = [x for x in textract_result['Blocks'] if x['BlockType'] == "LINE"] for block in blocks: page += " " + block['Text'] print(page) s3 = boto3.resource('s3') object = s3.Object('demo-kendra-test', 'text/apollo11-summary.txt') object.put(Body=page)

Az általunk használt DetectDocumentText API a szöveg kinyeréséhez az Amazon S3-ban letöltött képből (JPEG vagy PNG).

Hozzon létre eseményindítót az Amazon S3-ban

Ebben a lépésben létrehozunk egy eseményindítót a Lambda funkció elindításához, amikor új dokumentumot töltenek fel egy adott tárolóba. A következő képernyőképen az Amazon S3 konzol új funkciója látható.

Az eseményindítót a Lambda konzolon is ellenőrizheti.

Dokumentum feldolgozása

A folyamat teszteléséhez feltöltünk egy képet az S3 mappába, amelyet az S3 eseményindítóhoz definiáltunk. Az alábbi mintaképet használjuk.

Amikor a Lambda funkció befejeződött, mehetünk a amazonfelhőóra konzolt a kimenet ellenőrzéséhez. A következő képernyőképen a kivont szöveg látható, amely megerősíti, hogy a Lambda funkció sikeresen futott.

Indexelje újra az adatokat az Amazon Kendra segítségével

Most újraindexelhetjük adatainkat.

Az Amazon Kendra konzolon, alatt Adatkezelés a navigációs ablakban válassza a lehetőséget Adatforrások.
Válassza ki az adatforrást demo-s3-datasource.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Most szinkronizálja.

A szinkronizálási állapot a következőre változik: Synching - crawling.

Amikor a szinkronizálás befejeződött, a szinkronizálás állapota a következőre változik: Succeeded és a szinkronizálási állapot a következőre változik Idle.

Most visszatérhetünk a keresőkonzolhoz, és működés közben láthatjuk az összetett keresést.

A navigációs panelen válassza a lehetőséget Kereső konzol.

Néhány elemhez hozzáadtunk metaadatokat; ezek közül kettő az XGBoost és a BlazingText ML algoritmus.

Próbáljunk meg keresni Sagemaker.

Keresésünk sikeres volt, és eredménylistát kaptunk. Lássuk, mi az oldalunk.

Bontsa A keresési eredmények szűrése.

Megvan a category és a tags szempontok, amelyek a tételek metaadatainak részét képezték.

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a BlazingText hogy csak arra az algoritmusra szűrje az eredményeket.
Most végezzük el a keresést az újonnan feltöltött képfájlokon. A következő képernyőkép az új előfeldolgozott dokumentumok keresését mutatja.

Következtetés

Ez a blog hasznos lesz a keresési eredmények és a keresési élmény hatékonyságának javításában. Az Amazon Textract segítségével szöveget bonthat ki a beolvasott képekből, amelyeket metaadatként ad hozzá, majd később fazettaként is elérhetővé válik a keresési eredményekkel való interakcióhoz. Ez csak egy szemléltetése annak, hogyan használhatja az AWS natív szolgáltatásait, hogy megkülönböztetett keresési élményt biztosítson felhasználóinak. Ez is segít a tudásvagyon teljes potenciáljának felszabadításában.

Ha mélyebbre szeretne merülni abban, hogy mit érhet el más AWS-szolgáltatások Amazon Kendrával való kombinálásával, tekintse meg a következőt Tegye kereshetővé audio- és videofájljait az Amazon Transcribe és az Amazon Kendra segítségével, Építsen intelligens keresési megoldást automatizált tartalomgazdagítássalés egyéb bejegyzések a Amazon Kendra blog.

A szerzőről

Sanjay Tiwary a Specialist Solutions Architect AI/ML. Idejét azzal tölti, hogy stratégiai ügyfelekkel dolgozik, hogy meghatározza az üzleti követelményeket, L300-as munkameneteket biztosítson bizonyos használati esetek körül, valamint olyan ML-alkalmazásokat és szolgáltatásokat tervezzen, amelyek méretezhetőek, megbízhatóak és hatékonyak. Segített a mesterséges intelligencia/ML-alapú Amazon SageMaker szolgáltatás elindításában és méretezésében, és számos elméleti bizonyítékot implementált az Amazon AI-szolgáltatások segítségével. A digitális átalakulási út részeként kifejlesztette a fejlett analitikai platformot is.

Időbélyeg: April 4, 2022

Időbélyeg: 15. július 2022.

Engedélyezze az Amazon Kendra keresést a beolvasott vagy képalapú szöveges dokumentumokhoz

Újra kiadta Platón

Megoldás áttekintése

Konfigurálja a lambda funkciót

Hozzon létre eseményindítót az Amazon S3-ban

Dokumentum feldolgozása

Indexelje újra az adatokat az Amazon Kendra segítségével

Következtetés

A szerzőről

Még több AWS gépi tanulás

Használja az ADFS OIDC-t IdP-ként az Amazon SageMaker Ground Truth magánszemélyek számára

Észlelje a csaló tranzakciókat gépi tanulással az Amazon SageMaker segítségével

Használja az Amazon SageMaker Canvast a feltáró adatelemzéshez

Tanítson gyorsabban egy idősoros előrejelzési modellt az Amazon SageMaker Canvas Quick build segítségével

Emelje új szintre intelligens keresési élményét az Amazon Kendra hierarchikus szempontjaival

Az ETL adatfeldolgozás egyszerűsítése a Talent.com oldalon az Amazon SageMaker | Amazon webszolgáltatások

Híralapú valós idejű riasztórendszer létrehozása a Twitter, az Amazon SageMaker és a Hugging Face segítségével

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók