Simplify Data Prep For Generative AI With Amazon SageMaker Data Wrangler

Republicat de Platon

Urmaritori: 0

Inteligența artificială generativă (AI generativă) modelele au demonstrat capacități impresionante în generarea de text, imagini și alt conținut de înaltă calitate. Cu toate acestea, aceste modele necesită cantități masive de date de antrenament curate și structurate pentru a-și atinge potențialul maxim. Majoritatea datelor din lumea reală există în formate nestructurate, cum ar fi PDF-urile, care necesită preprocesare înainte de a putea fi utilizate eficient.

În conformitate cu IDC, datele nestructurate reprezintă peste 80% din toate datele de afaceri în prezent. Acestea includ formate precum e-mailuri, PDF-uri, documente scanate, imagini, audio, video și multe altele. În timp ce aceste date dețin informații valoroase, natura lor nestructurată face dificilă interpretarea și învățarea lor pentru algoritmii AI. Potrivit unui Sondaj 2019 realizat de Deloitte, doar 18% dintre companii au raportat că pot profita de datele nestructurate.

Pe măsură ce adoptarea AI continuă să se accelereze, dezvoltarea mecanismelor eficiente de digerare și de învățare din datele nestructurate devine și mai critică în viitor. Acest lucru ar putea implica instrumente mai bune de preprocesare, tehnici de învățare semi-supravegheată și progrese în procesarea limbajului natural. Companiile care își folosesc datele nestructurate cel mai eficient vor câștiga avantaje competitive semnificative din AI. Datele curate sunt importante pentru o performanță bună a modelului. Textele extrase încă mai au cantități mari de farfurie și text de tip boilerplate (de exemplu, citiți HTML). Datele răzuite de pe internet conțin adesea o mulțime de dublări. Datele din rețelele sociale, recenzii sau orice conținut generat de utilizatori pot conține, de asemenea, conținut toxic și părtinitor și poate fi necesar să le filtrați folosind câțiva pași de preprocesare. Ar putea exista, de asemenea, o mulțime de conținut de calitate scăzută sau texte generate de bot, care pot fi filtrate folosind metadatele însoțitoare (de exemplu, filtrați răspunsurile serviciului clienți care au primit evaluări scăzute ale clienților).

Pregătirea datelor este importantă în mai multe etape în Retrieval Augmented Generation (CÂRPĂ) modele. Documentele sursă de cunoștințe necesită preprocesare, cum ar fi curățarea textului și generarea de înglobări semantice, astfel încât să poată fi indexate și recuperate eficient. Interogarea în limbaj natural a utilizatorului necesită, de asemenea, preprocesare, astfel încât poate fi codificată într-un vector și comparată cu încorporarea documentelor. După preluarea contextelor relevante, acestea pot avea nevoie de preprocesare suplimentară, cum ar fi trunchierea, înainte de a fi concatenate la interogarea utilizatorului pentru a crea promptul final pentru modelul de bază. Amazon SageMaker Canvas acum acceptă capabilități complete de pregătire a datelor, alimentate de Amazon SageMaker Data Wrangler. Cu această integrare, SageMaker Canvas oferă clienților un spațiu de lucru fără cod de la capăt la capăt pentru a pregăti datele, a construi și a utiliza modele ML și fundamente pentru a accelera timpul de la date la informații despre afaceri. Acum puteți descoperi și agrega cu ușurință date din peste 50 de surse de date și puteți explora și pregăti date folosind peste 300 de analize și transformări încorporate în interfața vizuală a SageMaker Canvas.

Prezentare generală a soluțiilor

În această postare, lucrăm cu un set de date de documentație PDF—Amazon Bedrock manualul utilizatorului. În plus, arătăm cum să preprocesăm un set de date pentru RAG. Mai exact, curățăm datele și creăm artefacte RAG pentru a răspunde la întrebările despre conținutul setului de date. Luați în considerare următoarea problemă de învățare automată (ML): utilizatorul pune o întrebare privind modelul de limbaj mare (LLM): „Cum se filtrează și se caută modele în Amazon Bedrock?”. LLM nu a văzut documentația în timpul etapei de pregătire sau de reglare fină, astfel că nu ar putea răspunde la întrebare și cel mai probabil va halucina. Scopul nostru cu această postare este să găsim o bucată de text relevantă din PDF (adică, RAG) și să o atașăm la prompt, permițând astfel LLM să răspundă la întrebări specifice acestui document.

Mai jos, arătăm cum puteți face toți acești pași principali de preprocesare Amazon SageMaker Canvas (cu sprijinul Amazon SageMaker Data Wrangler):

Extragerea textului dintr-un document PDF (alimentat de Texttract)
Eliminați informațiile sensibile (produs de Comprehend)
Tăiați textul în bucăți.
Creați înglobări pentru fiecare piesă (alimentat de Bedrock).
Încărcați încorporarea într-o bază de date vectorială (produsă de OpenSearch)

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Cerințe preliminare

Pentru această soluție, ar trebui să aveți următoarele:

notițe: Creați domenii OpenSearch Service urmând instrucțiunile aici. Pentru simplitate, haideți să alegem opțiunea cu un nume de utilizator principal și o parolă pentru un control precis al accesului. Odată ce domeniul este creat, creați un index vectorial cu următoarele mapări, iar dimensiunea vectorială 1536 se aliniază cu înglobările Amazon Titan:

PUT knowledge-base-index
{ "settings": { "index.knn": True }, "mappings": { "properties": { "text_content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }, "text_content_v": { "type": "knn_vector", "dimension": 1536 }, } }
} }

walkthrough

Construiți un flux de date

În această secțiune, vom acoperi modul în care putem construi un flux de date pentru a extrage text și metadate din PDF-uri, pentru a curăța și a procesa datele, a genera încorporare folosind Amazon Bedrock și a indexa datele în Amazon OpenSearch.

Lansați SageMaker Canvas

Pentru a lansa SageMaker Canvas, parcurgeți următorii pași:

Pe Amazon Consola SageMaker, alege domenii în panoul de navigare.
Alegeți domeniul dvs.
În meniul de lansare, alegeți Planșă.

Creați un flux de date

Parcurgeți următorii pași pentru a crea un flux de date în SageMaker Canvas:

Pe pagina de pornire SageMaker Canvas, alegeți Data Wrangler.
Alege Crea în partea dreaptă a paginii, apoi dați un nume de flux de date și selectați Crea.
Aceasta va ajunge pe o pagină de flux de date.
Alege Date de import, selectați datele tabelare.

Acum să importăm datele din bucket Amazon S3:

Alege Date de import și selectați tabular din lista drop-down.
Sursă de date și selectați Amazon S3 din lista drop-down.
Navigați la fișierul metadate cu locațiile fișierelor PDF și alegeți fișierul.
Acum, fișierul de metadate este încărcat în fluxul de date de pregătire a datelor și putem trece la adăugarea pașilor următori pentru a transforma datele și indexul în Amazon OpenSearch. În acest caz, fișierul are următoarele metadate, cu locația fiecărui fișier în directorul Amazon S3.

Pentru a adăuga o nouă transformare, parcurgeți următorii pași:

Alegeți semnul plus și alegeți Adăugați Transform.
Alege Adăugați Pasul Și alegeți Transformare personalizată.
Puteți crea o transformare personalizată folosind Pandas, PySpark, funcții Python definite de utilizator și SQL PySpark. Alege Python (PySpark) pentru acest caz de utilizare.
Introduceți un nume pentru pas. Din exemplele de fragmente de cod, răsfoiți și selectați extrage text din pdf. Faceți modificările necesare la fragmentul de cod și selectați Adăuga.
Să adăugăm un pas pentru a redacta datele informațiilor personale de identificare (PII) din datele extrase prin valorificare Amazon Comprehend. Alege Adăugați Pasul Și alegeți Transformare personalizată. Și selectați Python (PySpark).

Din exemplele de fragmente de cod, răsfoiți și selectați masca PII. Faceți modificările necesare la fragmentul de cod și selectați Adăugaţi.

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Următorul pas este să fragmentați conținutul textului. Alege Adăugați Pasul Și alegeți Transformare personalizată. Și selectați Python (PySpark).

Din exemplele de fragmente de cod, răsfoiți și selectați Text în bucăți. Faceți modificările necesare la fragmentul de cod și selectați Adăugaţi.

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Să convertim conținutul textului în înglobări vectoriale folosind Amazon Bedrock Modelul Titan Embeddings. Alege Adăugați Pasul Și alegeți Transformare personalizată. Și selectați Python (PySpark).

Din exemplele de fragmente de cod, răsfoiți și selectați Generați încorporarea textului cu Bedrock. Faceți modificările necesare la fragmentul de cod și selectați Adăugaţi.

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Acum avem disponibile înglobări vectoriale pentru conținutul fișierului PDF. Să mergem mai departe și să indexăm datele în Amazon OpenSearch. Alege Adăugați Pasul Și alegeți Transformare personalizată. Și selectați Python (PySpark). Sunteți liber să rescrieți următorul cod pentru a utiliza baza de date vectorială preferată. Pentru simplitate, folosim numele de utilizator principal și parola pentru a accesa API-urile OpenSearch, pentru sarcinile de lucru de producție selectați opțiunea în funcție de politicile organizației dvs.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "text_redacted_chunks_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def index_data(text_redacted_chunks, text_redacted_chunks_embedding): input_json = json.dumps({"text_content": text_redacted_chunks[-1], "text_content_v": text_redacted_chunks_embedding[-1]}) response = requests.request(method="POST", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_doc', headers=headers, json=input_json, auth=(master_user, 'master_pass'), timeout=30) return response.content indexing_udf = udf(index_data, StringType())
df = df.withColumn('index_response', indexing_udf(col("text_redacted_chunks"), col("text_redacted_chunks_embedding")))

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

În cele din urmă, fluxul de date creat ar fi după cum urmează:

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Cu acest flux de date, datele din fișierul PDF au fost citite și indexate cu înglobare vectorială în Amazon OpenSearch. Acum este timpul să creăm un fișier cu interogări pentru a interoga datele indexate și a le salva în locația Amazon S3. Vom îndrepta fluxul de date de căutare către fișier și vom scoate un fișier cu rezultatele corespunzătoare într-un fișier nou într-o locație Amazon S3.

Pregătirea unui prompt

După ce creăm o bază de cunoștințe din PDF-ul nostru, o putem testa căutând în baza de cunoștințe câteva exemple de interogări. Vom procesa fiecare interogare după cum urmează:

Generați încorporare pentru interogare (produs de Amazon Bedrock)
Interogați baza de date vectorială pentru contextul celui mai apropiat vecin (produs de Amazon OpenSearch)
Combinați interogarea și contextul în prompt.
Interogați LLM cu un prompt (produs de Amazon Bedrock)
Pe pagina de pornire SageMaker Canvas, alegeți Pregătirea datelor.
Alege Crea în partea dreaptă a paginii, apoi dați un nume de flux de date și selectați Crea.

Acum să încărcăm întrebările utilizatorului și apoi să creăm un prompt combinând întrebarea și documentele similare. Acest prompt este furnizat LLM pentru a genera un răspuns la întrebarea utilizatorului.

Să încărcăm un fișier csv cu întrebări ale utilizatorului. Alege Import Data și selectați tabular din lista drop-down.
Sursă de date, și selectați Amazon S3 din lista derulantă. Alternativ, puteți alege să încărcați un fișier cu interogări ale utilizatorilor.
Să adăugăm o transformare personalizată pentru a converti datele în înglobări vectoriale, urmată de căutarea înglobărilor asociate din Amazon OpenSearch, înainte de a trimite o solicitare către Amazon Bedrock cu interogarea și contextul din baza de cunoștințe. Pentru a genera înglobări pentru interogare, puteți utiliza același exemplu de fragment de cod Generați încorporarea textului cu Bedrock menționat la Pasul #7 de mai sus.

Să invocăm API-ul Amazon OpenSearch pentru a căuta documente relevante pentru înglobările de vectori generate. Adăugați o transformare personalizată cu Python (PySpark).

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "Queries_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def search_data(text_column_embedding): input_json={'size':20,'query':{'knn':{'text_content_v':{'vector':{text_column_embedding},'k':5,},},},'fields':['text_content']} response = requests.request(method="GET", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_search', headers=headers, json=input_json, auth=(master_user, master_pass'), timeout=30) return response.content search_udf = udf(search_data, types.ArrayType())
df = df.withColumn(output_column,search_udf(col(text_column)))

Să adăugăm o transformare personalizată pentru a apela API-ul Amazon Bedrock pentru răspuns la interogare, transmițând documentele din baza de cunoștințe Amazon OpenSearch. Din exemplele de fragmente de cod, răsfoiți și selectați Interogați Bedrock cu context. Faceți modificările necesare la fragmentul de cod și selectați Adăugaţi.

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

În rezumat, fluxul de date de răspuns la întrebări bazat pe RAG este următorul:

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Practicanții ML petrec mult timp creând codul de inginerie a caracteristicilor, aplicându-l la seturile lor de date inițiale, antrenând modele pe seturile de date proiectate și evaluând acuratețea modelului. Având în vedere natura experimentală a acestei lucrări, chiar și cel mai mic proiect duce la mai multe iterații. Același cod de inginerie a caracteristicilor este adesea rulat din nou și din nou, pierzând timp și resurse de calcul repetarea acelorași operațiuni. În organizațiile mari, acest lucru poate provoca o pierdere și mai mare a productivității, deoarece echipele diferite execută adesea lucrări identice sau chiar scriu coduri de inginerie a caracteristicilor duplicat, deoarece nu au cunoștințe despre munca anterioară. Pentru a evita reprocesarea caracteristicilor, ne vom exporta fluxul de date către un Amazon Conducta SageMaker. Să selectăm butonul + din dreapta interogării. Selectați fluxul de date de export și alegeți Rulați SageMaker Pipeline (prin caietul Jupyter).

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A curăța

Pentru a evita costurile viitoare, ștergeți sau închideți resursele pe care le-ați creat în timp ce urmăriți această postare. A se referi la Deconectarea de la Amazon SageMaker Canvas pentru mai multe detalii.

Concluzie

În această postare, v-am arătat cum sunt capabilitățile end-to-end ale Amazon SageMaker Canvas, asumându-și rolul unui profesionist de date care pregătește date pentru un LLM. Pregătirea interactivă a datelor a permis curățarea, transformarea și analizarea rapidă a datelor pentru a crea funcții informative. Prin eliminarea complexităților de codare, SageMaker Canvas a permis o iterație rapidă pentru a crea un set de date de antrenament de înaltă calitate. Acest flux de lucru accelerat a condus direct la construirea, instruirea și implementarea unui model performant de învățare automată pentru impactul asupra afacerii. Cu pregătirea sa cuprinzătoare a datelor și experiența unificată de la date la informații, SageMaker Canvas dă putere utilizatorilor să-și îmbunătățească rezultatele ML.

Vă încurajăm să aflați mai multe explorând Amazon SageMaker Data Wrangler, Amazon SageMaker Canvas, Amazon Titan modele, Amazon Bedrockși Amazon Serviciul OpenSearch pentru a construi o soluție folosind exemplul de implementare furnizat în această postare și un set de date relevant pentru afacerea dvs. Dacă aveți întrebări sau sugestii, vă rugăm să lăsați un comentariu.

Despre Autori

Ajjay Govindaram este arhitect senior de soluții la AWS. Lucrează cu clienți strategici care folosesc AI/ML pentru a rezolva probleme complexe de afaceri. Experiența sa constă în furnizarea de direcție tehnică, precum și asistență de proiectare pentru implementări de aplicații AI/ML la scară mică sau mare. Cunoștințele sale variază de la arhitectura aplicațiilor la big data, analiză și învățarea automată. Îi place să asculte muzică în timp ce se odihnește, să experimenteze în aer liber și să petreacă timpul cu cei dragi.

Nikita Ivkin este cercetător senior aplicat la Amazon SageMaker Data Wrangler cu interese în învățarea automată și algoritmii de curățare a datelor.