Förenkla dataförberedelser för generativ AI med Amazon SageMaker Data Wrangler

Återutgiven av Platon

anhängare: 0

Generativ artificiell intelligens (generativ AI) modeller har visat imponerande förmåga att generera högkvalitativ text, bilder och annat innehåll. Dessa modeller kräver dock enorma mängder ren, strukturerad träningsdata för att nå sin fulla potential. De flesta verkliga data finns i ostrukturerade format som PDF-filer, vilket kräver förbearbetning innan det kan användas effektivt.

Enligt IDC, står ostrukturerad data för över 80 % av all affärsdata idag. Detta inkluderar format som e-post, PDF-filer, skannade dokument, bilder, ljud, video och mer. Även om dessa data innehåller värdefulla insikter, gör dess ostrukturerade karaktär det svårt för AI-algoritmer att tolka och lära av dem. Enligt a 2019 års undersökning av Deloitte, rapporterade endast 18 % av företagen att de kunde dra fördel av ostrukturerad data.

När AI-anpassningen fortsätter att accelerera, blir utvecklingen av effektiva mekanismer för att smälta och lära av ostrukturerad data ännu viktigare i framtiden. Detta kan innebära bättre förbearbetningsverktyg, halvövervakade inlärningstekniker och framsteg inom naturlig språkbehandling. Företag som använder sin ostrukturerade data mest effektivt kommer att få betydande konkurrensfördelar från AI. Ren data är viktig för god modellprestanda. Extraherade texter har fortfarande stora mängder floskler och standardtext (t.ex. läs HTML). Skrapad data från internet innehåller ofta många dubbletter. Data från sociala medier, recensioner eller annat användargenererat innehåll kan också innehålla giftigt och partiskt innehåll, och du kan behöva filtrera bort dem med några förbehandlingssteg. Det kan också finnas mycket innehåll av låg kvalitet eller botgenererade texter, som kan filtreras bort med hjälp av medföljande metadata (t.ex. filtrera bort kundtjänstsvar som fått låga kundbetyg).

Dataförberedelse är viktigt i flera stadier i Retrieval Augmented Generation (RAG) modeller. Kunskapskälldokumenten behöver förbearbetas, som att rensa text och generera semantiska inbäddningar, så att de effektivt kan indexeras och hämtas. Användarens naturliga språkfråga kräver också förbearbetning, så den kan kodas till en vektor och jämföras med dokumentinbäddningar. Efter att ha hämtat relevanta sammanhang kan de behöva ytterligare förbearbetning, som trunkering, innan de sammanfogas till användarens fråga för att skapa den sista prompten för grundmodellen. Amazon SageMaker Canvas stöder nu omfattande databeredningsfunktioner som drivs av Amazon SageMaker Data Wrangler. Med denna integrering ger SageMaker Canvas kunderna en end-to-end-arbetsyta utan kod för att förbereda data, bygga och använda ML- och grundmodeller för att påskynda tiden från data till affärsinsikter. Du kan nu enkelt upptäcka och samla data från över 50 datakällor och utforska och förbereda data med hjälp av över 300 inbyggda analyser och transformationer i SageMaker Canvas visuella gränssnitt.

Lösningsöversikt

I det här inlägget arbetar vi med en PDF-dokumentationsdatauppsättning—Amazonas berggrund Användarguide. Vidare visar vi hur man förbearbetar en datauppsättning för RAG. Specifikt rengör vi data och skapar RAG-artefakter för att svara på frågorna om innehållet i datamängden. Tänk på följande problem med maskininlärning (ML): användaren ställer en fråga med stor språkmodell (LLM): "Hur filtrerar och söker man efter modeller i Amazon Bedrock?". LLM har inte sett dokumentationen under tränings- eller finjusteringsstadiet, skulle därför inte kunna svara på frågan och kommer troligen att hallucinera. Vårt mål med det här inlägget är att hitta en relevant textbit från PDF:en (dvs RAG) och bifoga den till prompten, vilket gör det möjligt för LLM att svara på frågor som är specifika för detta dokument.

Nedan visar vi hur du kan göra alla dessa huvudsakliga förbearbetningssteg från Amazon SageMaker Canvas (drivs av Amazon SageMaker Data Wrangler):

Extrahera text från ett PDF-dokument (driven av Textract)
Ta bort känslig information (driven av Comprehend)
Dela text i bitar.
Skapa inbäddningar för varje del (driven av Bedrock).
Ladda upp inbäddning till en vektordatabas (driven av OpenSearch)

Förenkla dataförberedelser för generativ AI med Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Förutsättningar

För denna genomgång bör du ha följande:

Anmärkningar: Skapa OpenSearch Service-domäner enligt instruktionerna här.. För enkelhets skull, låt oss välja alternativet med ett huvudanvändarnamn och lösenord för finkornig åtkomstkontroll. När domänen har skapats skapar du ett vektorindex med följande mappningar och vektordimension 1536 anpassas till Amazon Titan-inbäddningar:

PUT knowledge-base-index
{ "settings": { "index.knn": True }, "mappings": { "properties": { "text_content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }, "text_content_v": { "type": "knn_vector", "dimension": 1536 }, } }
} }

genomgång

Bygg ett dataflöde

I det här avsnittet tar vi upp hur vi kan bygga ett dataflöde för att extrahera text och metadata från PDF-filer, rensa och bearbeta data, generera inbäddningar med Amazon Bedrock och indexera data i Amazon OpenSearch.

Starta SageMaker Canvas

Utför följande steg för att starta SageMaker Canvas:

På Amazonas SageMaker konsolväljer domäner i navigeringsfönstret.
Välj din domän.
Välj på startmenyn Målarduk.

Skapa ett dataflöde

Utför följande steg för att skapa ett dataflöde i SageMaker Canvas:

Välj på SageMaker Canvas hemsida Data Wrangler.
Välja Skapa till höger på sidan, ge ett dataflödesnamn och välj Skapa.
Detta kommer att landa på en dataflödessida.
Välja Importera datum, välj tabelldata.

Låt oss nu importera data från Amazon S3-hinken:

Välja Importera datum och välj Tabellformat från rullgardinsmenyn.
Datakälla och välj Amazon S3 från rullgardinsmenyn.
Navigera till metadatafilen med PDF-filplatser och välj filen.
Nu laddas metadatafilen till dataförberedelsens dataflöde, och vi kan fortsätta att lägga till nästa steg för att omvandla data och index till Amazon Opensearch. I det här fallet har filen följande metadata, med platsen för varje fil i Amazon S3-katalogen.

För att lägga till en ny transformation, utför följande steg:

Välj plustecknet och välj Lägg till Transform.
Välja Lägg till steg Och välj Anpassad omvandling.
Du kan skapa en anpassad transformation med Pandas, PySpark, Python användardefinierade funktioner och SQL PySpark. Välja Python (PySpark) för detta användningsfall.
Ange ett namn för steget. Bläddra och välj från exempelkodavsnitten extrahera text från pdf. Gör nödvändiga ändringar i kodavsnittet och välj Lägg till.
Låt oss lägga till ett steg för att redigera personlig identifierbar information (PII) från den extraherade informationen genom att utnyttja Amazon Comprehend. Välj Lägg till steg Och välj Anpassad omvandling. Och välj Python (PySpark).

Bläddra och välj från exempelkodavsnitten mask PII. Gör nödvändiga ändringar i kodavsnittet och välj Lägg till.

Förenkla dataförberedelser för generativ AI med Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Nästa steg är att dela upp textinnehållet. Välja Lägg till steg Och välj Anpassad omvandling. Och välj Python (PySpark).

Bläddra och välj från exempelkodavsnitten Bittext. Gör nödvändiga ändringar i kodavsnittet och välj Lägg till.

Förenkla dataförberedelser för generativ AI med Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Låt oss konvertera textinnehållet till vektorinbäddningar med hjälp av Amazonas berggrund Titan Embeddings modell. Välja Lägg till steg Och välj Anpassad omvandling. Och välj Python (PySpark).

Bläddra och välj från exempelkodavsnitten Skapa textinbäddning med Bedrock. Gör nödvändiga ändringar i kodavsnittet och välj Lägg till.

Förenkla dataförberedelser för generativ AI med Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Nu har vi vektorinbäddningar tillgängliga för PDF-filens innehåll. Låt oss gå vidare och indexera data till Amazon OpenSearch. Välja Lägg till steg Och välj Anpassad omvandling. Och välj Python (PySpark). Du är fri att skriva om följande kod för att använda din föredragna vektordatabas. För enkelhetens skull använder vi huvudanvändarnamn och lösenord för att komma åt OpenSearch API:er, välj alternativet för produktionsarbetsbelastningar enligt din organisations policy.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "text_redacted_chunks_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def index_data(text_redacted_chunks, text_redacted_chunks_embedding): input_json = json.dumps({"text_content": text_redacted_chunks[-1], "text_content_v": text_redacted_chunks_embedding[-1]}) response = requests.request(method="POST", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_doc', headers=headers, json=input_json, auth=(master_user, 'master_pass'), timeout=30) return response.content indexing_udf = udf(index_data, StringType())
df = df.withColumn('index_response', indexing_udf(col("text_redacted_chunks"), col("text_redacted_chunks_embedding")))

Förenkla dataförberedelser för generativ AI med Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Slutligen skulle det skapade dataflödet vara som följer:

Förenkla dataförberedelser för generativ AI med Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Med detta dataflöde har data från PDF-filen lästs och indexerats med vektorinbäddningar i Amazon OpenSearch. Nu är det dags för oss att skapa en fil med frågor för att fråga efter indexerade data och spara dem på Amazon S3-platsen. Vi pekar vårt sökdataflöde till filen och matar ut en fil med motsvarande resultat i en ny fil på en Amazon S3-plats.

Förbereder en uppmaning

När vi har skapat en kunskapsbas av vår PDF kan vi testa den genom att söka i kunskapsbasen efter några exempel på frågor. Vi kommer att behandla varje fråga enligt följande:

Generera inbäddning för frågan (driven av Amazon Bedrock)
Fråga vektordatabas för närmaste grannekontext (driven av Amazon OpenSearch)
Kombinera frågan och sammanhanget till prompten.
Fråga LLM med en uppmaning (driven av Amazon Bedrock)
Välj på SageMaker Canvas hemsida Dataförberedelse.
Välja Skapa till höger på sidan, ge ett dataflödesnamn och välj Skapa.

Låt oss nu ladda användarfrågorna och skapa sedan en uppmaning genom att kombinera frågan och liknande dokument. Denna uppmaning ges till LLM för att generera ett svar på användarfrågan.

Låt oss ladda en csv-fil med användarfrågor. Välja Importera data och välj Tabellformat från rullgardinsmenyn.
Datakälla, och välj Amazon S3 från rullgardinsmenyn. Alternativt kan du välja att ladda upp en fil med användarfrågor.
Låt oss lägga till en anpassad transformation för att konvertera data till vektorinbäddningar, följt av sökning av relaterade inbäddningar från Amazon OpenSearch, innan vi skickar en prompt till Amazon Bedrock med frågan och sammanhanget från kunskapsbasen. För att generera inbäddningar för frågan kan du använda samma exempelkodavsnitt Skapa textinbäddning med Bedrock som nämns i steg #7 ovan.

Låt oss anropa Amazon OpenSearch API för att söka i relevanta dokument efter de genererade vektorinbäddningarna. Lägg till en anpassad transformation med Python (PySpark).

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "Queries_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def search_data(text_column_embedding): input_json={'size':20,'query':{'knn':{'text_content_v':{'vector':{text_column_embedding},'k':5,},},},'fields':['text_content']} response = requests.request(method="GET", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_search', headers=headers, json=input_json, auth=(master_user, master_pass'), timeout=30) return response.content search_udf = udf(search_data, types.ArrayType())
df = df.withColumn(output_column,search_udf(col(text_column)))

Låt oss lägga till en anpassad transformation för att anropa Amazon Bedrock API för frågesvar och skicka dokumenten från Amazon OpenSearchs kunskapsbas. Bläddra och välj från exempelkodavsnitten Fråga Berggrund med sammanhang. Gör nödvändiga ändringar i kodavsnittet och välj Lägg till.

Förenkla dataförberedelser för generativ AI med Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Sammanfattningsvis är RAG-baserat frågesvarsdataflöde som följer:

Förenkla dataförberedelser för generativ AI med Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

ML-utövare spenderar mycket tid på att skapa funktionsteknikkod, applicera den på sina initiala datauppsättningar, träna modeller på de konstruerade datauppsättningarna och utvärdera modellens noggrannhet. Med tanke på den experimentella karaktären av detta arbete leder även det minsta projektet till flera iterationer. Samma funktionskod körs ofta om och om igen, vilket slösar tid och beräkningsresurser på att upprepa samma operationer. I stora organisationer kan detta orsaka en ännu större produktivitetsförlust eftersom olika team ofta kör identiska jobb eller till och med skriver duplicerad funktionskod eftersom de inte har någon kunskap om tidigare arbete. För att undvika omarbetning av funktioner exporterar vi vårt dataflöde till en Amazon SageMaker pipeline. Låt oss välja +-knappen till höger om frågan. Välj exportera dataflöde och välj Kör SageMaker Pipeline (via Jupyter anteckningsbok).

Förenkla dataförberedelser för generativ AI med Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Städar upp

För att undvika framtida avgifter, ta bort eller stäng av resurserna du skapade när du följde det här inlägget. Hänvisa till Logga ut från Amazon SageMaker Canvas för mer detaljer.

Slutsats

I det här inlägget visade vi dig hur Amazon SageMaker Canvas end-to-end-möjligheter genom att anta rollen som en dataprofessionell som förbereder data för en LLM. Den interaktiva dataförberedelsen möjliggjorde snabb rengöring, transformering och analys av data för att utveckla informativa funktioner. Genom att ta bort kodningskomplexiteten tillät SageMaker Canvas snabb iteration för att skapa en utbildningsdatauppsättning av hög kvalitet. Detta accelererade arbetsflöde ledde direkt till att bygga, utbilda och implementera en effektiv maskininlärningsmodell för affärseffekter. Med sin omfattande dataförberedelse och enhetliga erfarenhet från data till insikter, ger SageMaker Canvas användare möjlighet att förbättra sina ML-resultat.

Vi uppmuntrar dig att lära dig mer genom att utforska Amazon SageMaker Data Wrangler, Amazon SageMaker Canvas, Amazon Titan modeller, Amazonas berggrundoch Amazon OpenSearch-tjänsten att bygga en lösning med hjälp av exempelimplementeringen i det här inlägget och en datauppsättning som är relevant för ditt företag. Om du har frågor eller förslag, lämna gärna en kommentar.

Om författarna

Ajjay Govindaram är Senior Solutions Architect på AWS. Han arbetar med strategiska kunder som använder AI/ML för att lösa komplexa affärsproblem. Hans erfarenhet ligger i att tillhandahålla teknisk ledning samt designhjälp för blygsamma till storskaliga AI/ML-applikationer. Hans kunskap sträcker sig från applikationsarkitektur till big data, analys och maskininlärning. Han tycker om att lyssna på musik medan han vilar, uppleva utomhus och umgås med sina nära och kära.

Nikita Ivkin är en Senior Applied Scientist på Amazon SageMaker Data Wrangler med intressen för maskininlärning och datarensningsalgoritmer.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/simplify-data-prep-for-gen-ai-with-amazon-sagemaker-data-wrangler/

Tidsstämpel: November 27, 2023

Tidsstämpel: Februari 1, 2023

AWS Deep Learning Challenge ser innovativ och effektfull användning av Amazon EC2 DL1-instanser

Källkluster:

AWS maskininlärning

Källnod: 1637640

Tidsstämpel: Augusti 24, 2022

Återutgiven av Platon

Skala AI-träning och slutledning för läkemedelsupptäckt genom Amazon EKS och Karpenter | Amazon webbtjänster

Värd för Hugging Face-transformatormodeller med Amazon SageMaker Serverless Inference

Förbättra kodgranskning och godkännandeeffektivitet med generativ AI med Amazon Bedrock | Amazon webbtjänster

Förstärk bedrägeritransaktioner med hjälp av syntetiska data i Amazon SageMaker

Extrahera insikter från SAP ERP med no-code ML-lösningar med Amazon AppFlow och Amazon SageMaker Canvas

Använd Amazon SageMaker Data Wrangler i Amazon SageMaker Studio med en standardlivscykelkonfiguration

AWS Deep Learning Challenge ser innovativ och effektfull användning av Amazon EC2 DL1-instanser

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto