Deblocați informații din datele dvs. Amazon S3 cu căutare inteligentă

Republicat de Platon

Urmaritori: 0

Amazon Kendra este un serviciu de căutare inteligent alimentat de machine learning (ML). Amazon Kendra reimaginează căutarea întreprinderilor pentru site-urile și aplicațiile dvs., astfel încât angajații și clienții dvs. să poată găsi cu ușurință conținutul pe care îl caută, chiar și atunci când este împrăștiat în mai multe locații și depozite de conținut din organizația dvs. Cuvintele cheie sau întrebările în limbaj natural pot fi folosite pentru a căuta în cele mai relevante documente bazate pe ML pentru a furniza răspunsuri și a clasifica documentele. Amazon Kendra poate indexa date de la Serviciul Amazon de stocare simplă (Amazon S3) sau dintr-un depozit de documente terță parte. Amazon S3 este un serviciu de stocare a obiectelor care oferă scalabilitate și disponibilitate în care puteți stoca cantități mari de date, inclusiv manuale de produse, documente de proiect și de cercetare și multe altele.

În această postare, puteți afla cum să implementați un furnizat Formarea AWS Cloud șablon pentru a vă indexa documentele într-o găleată Amazon S3. Șablonul creează o sursă de date Amazon Kendra pentru un index și sincronizează sursa de date în funcție de nevoile dvs.: la cerere, pe oră, zilnic, săptămânal sau lunar. AWS CloudFormation ne permite să furnizăm infrastructura ca cod (IaC), astfel încât să puteți petrece mai puțin timp gestionând resursele, să vă replicați infrastructura rapid și să controlați și să urmăriți modificările din infrastructură.

Prezentare generală a soluției

Șablonul CloudFormation configurează o sursă de date Amazon Kendra cu o conexiune la Amazon S3. Șablonul creează, de asemenea, un rol pentru serviciul sursă de date Amazon Kendra. Puteți specifica o grupă S3, un program de sincronizare și modele de includere/excludere. Când lucrarea de sincronizare s-a încheiat, puteți căuta conținutul indexat prin consola de căutare. Următoarea diagramă ilustrează acest flux de lucru.

Această postare vă ghidează către următorii pași:

Implementați șablonul furnizat.
Încărcați documentele în compartimentul S3 pe care îl creați. Dacă furnizați o găleată cu documente, puteți omite acest pas.
Așteptați până când indexul termină accesarea cu crawlere a sursei de date.

Cerințe preliminare

Pentru această prezentare generală, ar trebui să aveți următoarele condiții prealabile:

An Cont AWS unde soluția propusă poate fi implementată.
Un index Amazon Kendra pentru atașarea unei surse de date la stivă.
Setul de documente care sunt utilizate pentru a crea indexul Amazon Kendra. În această soluție, utilizați un fișier comprimat de Documente albe AWS.

Implementați soluția cu AWS CloudFormation

Pentru a implementa șablonul CloudFormation, parcurgeți următorii pași:

Alege

Sunteți redirecționat către consola AWS CloudFormation.

Puteți modifica parametrii sau utilizați valorile implicite:
- Numele sursei de date Amazon Kendra este setat automat folosind numele stivei și numele compartimentului asociat.
- Pentru KendraIndexId, introduceți ID-ul indexului Amazon Kendra unde veți atașa sursa de date.
- De asemenea, puteți alege când doriți să rulați sincronizarea sursei de date folosind KendraSyncSchedule. În mod implicit, este setat la La cerere.
- Pentru S3BucketName, puteți fie să introduceți o găleată pe care ați creat-o deja, fie să o lăsați goală. Dacă îl lăsați gol, o găleată va fi creată pentru dvs. Oricum, găleata este folosită ca sursă de date Amazon Kendra. Pentru această postare, o lăsăm goală.

Este nevoie de aproximativ 5 minute pentru ca stiva să implementeze sursa de date Amazon Kendra atașată la indexul Amazon Kendra.

Pe ieşiri din stiva CloudFormation, copiați numele compartimentului creat, numele sursei de date și ID-ul.

Stiva creată implementează un rol: <stack-name>-KendraDataSourceRole. Este cea mai bună practică să implementați un rol pentru fiecare sursă de date pe care o creați. Acest rol oferă Amazon Kendra sursei de date pentru a adăuga sau elimina fișiere din indexul Amazon Kendra, pentru a obține obiecte din bucket Amazon S3.

Încărcați fișiere în compartimentul S3

Amazon Kendra poate gestiona mai multe tipuri de documente, cum ar fi .html, .pdf, .csv, .json, .docx și .ppt. De asemenea, puteți avea o combinație de documente pe un singur index. Textul conținut în aceste documente este indexat la indexul Amazon Kendra furnizat. Puteți căuta cuvinte cheie pe subiecte AWS despre cele mai bune practici, baze de date, învățare automată, securitate și multe altele folosind peste 60 de fișiere pdf pe care le puteți Descarca. De exemplu, dacă doriți să știți unde puteți găsi mai multe informații despre stocarea în cache în documentele albe AWS, Amazon Kendra vă poate ajuta să găsiți documente legate de bazele de date și cele mai bune practici.

Când descărcați AWS Whitepapers.zip fișier și decomprimați fișierul, vedeți aceste șase foldere: Best_Practices, Databases, General, Machine_Learning, Security, Well_Architected. Încărcați aceste foldere în compartimentul dvs. S3.

Sincronizați sursa de date Amazon Kendra

Datele sursei de date Amazon Kendra vă pot sincroniza datele pe baza unui program preconfigurat sau pot fi declanșate manual la cerere. În mod implicit, șablonul CloudFormation configurează sursa de date la programul de sincronizare la cerere pentru a fi declanșat manual, după cum este necesar.

Pentru a declanșa manual sarcina de sincronizare din consola AWS Amazon Kendra, navigați la indexul Amazon Kendra utilizat ca parte a implementării stivei CloudFormation, sub Management de date în panoul de navigare, alegeți Surse de date și apoi alegeți Sincronizează acum. Acest lucru face ca compartimentul S3 să se sincronizeze cu sursa de date.

Când sursa de date Amazon Kendra începe să se sincronizeze, ar trebui să vedeți Starea curentă de sincronizare as Sincronizarea.

Când sursa de date s-a terminat, Ultima stare de sincronizare apare ca. Reușit și Starea curentă de sincronizare as Idle. Acum puteți căuta conținutul indexat.

Configurați programul de sincronizare

Șablonul vă permite să rulați programul în fiecare oră la minutul 0, de exemplu, 13:00, 14:00 sau 15:00. De asemenea, aveți opțiunea de a-l rula zilnic la 00:00 UTC. The Săptămânal setarea rulează luni la 00:00 UTC, iar Lunar setarea rulează în fiecare prima zi a lunii la 00:00 UTC.

Pentru a modifica programul după ce sursa de date Amazon Kendra a fost creată, pe Acţiuni meniu, alegeți Editati. Sub Configurați setările de sincronizare, gasesti Programul regulilor de sincronizare secţiune.

În Frecvență, puteți selecta oră, zilnic, săptămânal, lunar, Sau personalizat, toate acestea vă permit să vă programați sincronizarea la minut.

Adăugați modele de excludere

Șablonul CloudFormation furnizat vă permite să adăugați modele de excludere. În mod implicit, fișierele .png și .jpg vor fi adăugate la Modele de excludere parametru. Formate de fișiere suplimentare pot fi adăugate ca o listă separată prin virgulă la modelul de excludere. În mod similar, Modele de incluziune parametrul poate fi folosit pentru a adăuga formate de fișiere cu liste de virgulă pentru a configura un model de includere. Dacă nu furnizați un model de includere, toate fișierele sunt indexate, cu excepția celor incluse în parametrul de excludere.

A curăța

Pentru a evita costurile, puteți șterge stiva din consola AWS CloudFormation. Pe Stive pagina, selectați stiva pe care ați creat-o, alegeți Ștergeși confirmați ștergerea stivei.

Dacă nu ați furnizat o găleată S3, stiva creează o găleată. Dacă găleata este goală, este șters automat. În caz contrar, trebuie să goliți folderul și să-l ștergeți manual. Dacă ați furnizat o găleată, chiar dacă este goală, aceasta nu va fi ștearsă. Indexul Amazon Kendra nu va fi șters. Doar sursa de date Amazon Kendra creată de stivă va fi ștearsă.

Concluzie

În această postare, am furnizat un șablon CloudFormation pentru a sincroniza cu ușurință documentele dvs. text pe o găleată S3 cu indexul dvs. Amazon Kendra. Această soluție este utilă dacă aveți mai multe compartimente S3 pe care doriți să le indexați, deoarece puteți crea toate componentele necesare pentru a interoga documentele cu câteva clicuri într-un mod consistent și repetabil. De asemenea, puteți vedea cum documentele text bazate pe imagini pot fi gestionate în Amazon Kendra. Pentru a afla mai multe despre anumite modele de program, consultați Planificați expresii pentru reguli.

Lăsați un comentariu și aflați mai multe despre crearea indexului Amazon Kendra în cele ce urmează Atelierul Amazon Kendra Essentials+.

Mulțumiri speciale lui Jose Mauricio Mani Yanez pentru ajutorul său la crearea exemplului de cod și la compilarea conținutului pentru această postare.

Despre autor

Rajesh Kumar Ravi este un arhitect de soluții de specialitate AI/ML la Amazon Web Services specializat în căutarea inteligentă a documentelor cu Amazon Kendra și AI generativă. Este un constructor și rezolvă probleme și contribuie la dezvoltarea de noi idei. Îi place să meargă pe jos și să facă drumeții scurte în afara serviciului.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoAiStream. Web3 Data Intelligence. Cunoștințe amplificate. Accesați Aici.
Mintând viitorul cu Adryenn Ashley. Accesați Aici.
Cumpărați și vindeți acțiuni în companii PRE-IPO cu PREIPO®. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/machine-learning/unlock-insights-from-your-amazon-s3-data-with-intelligent-search/

Timestamp-ul: 12 Mai, 2023

Timestamp-ul: 4 Mai, 2022

Republicat de Platon

Cum a folosit Sportradar Biblioteca Deep Java pentru a construi platforme ML la scară de producție pentru performanță și eficiență sporite

Optimizare hiperparametrică pentru reglarea fină a modelelor de transformatoare pre-antrenate de la Hugging Face

AWS Localization folosește Amazon Translate pentru a scala localizarea

Implementați și gestionați conductele de învățare automată cu Terraform folosind Amazon SageMaker

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont