Forenkle dataforberedelse til generativ AI med Amazon SageMaker Data Wrangler

Genudgivet af Platon

Abonnenter: 0

Generativ kunstig intelligens (generativ AI) modeller har demonstreret imponerende evner til at generere tekst, billeder og andet indhold af høj kvalitet. Disse modeller kræver dog enorme mængder af rene, strukturerede træningsdata for at nå deres fulde potentiale. De fleste data fra den virkelige verden findes i ustrukturerede formater som PDF'er, som kræver forbehandling, før de kan bruges effektivt.

Ifølge IDC, ustrukturerede data udgør over 80 % af alle forretningsdata i dag. Dette inkluderer formater som e-mails, PDF'er, scannede dokumenter, billeder, lyd, video og mere. Selvom disse data rummer værdifuld indsigt, gør dens ustrukturerede natur det svært for AI-algoritmer at fortolke og lære af dem. Ifølge en 2019-undersøgelse af Deloitte, rapporterede kun 18 % af virksomhederne, at de kunne drage fordel af ustrukturerede data.

Efterhånden som AI-adoptionen fortsætter med at accelerere, bliver udvikling af effektive mekanismer til at fordøje og lære af ustrukturerede data endnu mere kritisk i fremtiden. Dette kunne involvere bedre forbehandlingsværktøjer, semi-overvågede læringsteknikker og fremskridt inden for naturlig sprogbehandling. Virksomheder, der bruger deres ustrukturerede data mest effektivt, vil opnå betydelige konkurrencefordele fra AI. Rene data er vigtige for god modelydelse. Udpakkede tekster har stadig store mængder volapyk og kedeltekst (f.eks. læs HTML). Skrabede data fra internettet indeholder ofte mange duplikationer. Data fra sociale medier, anmeldelser eller ethvert brugergenereret indhold kan også indeholde giftigt og partisk indhold, og du skal muligvis filtrere dem fra ved hjælp af nogle forbehandlingstrin. Der kan også være en masse indhold af lav kvalitet eller bot-genererede tekster, som kan filtreres fra ved hjælp af medfølgende metadata (f.eks. filtrere kundeservicesvar fra, der fik lave kundevurderinger).

Dataforberedelse er vigtig på flere stadier i Retrieval Augmented Generation (KLUD) modeller. Videnkildedokumenterne har brug for forbehandling, som at rense tekst og generere semantiske indlejringer, så de effektivt kan indekseres og hentes. Brugerens naturlige sprogforespørgsel kræver også forbehandling, så den kan kodes ind i en vektor og sammenlignes med dokumentindlejringer. Efter at have hentet relevante kontekster, kan de have brug for yderligere forbehandling, såsom trunkering, før de sammenkædes med brugerens forespørgsel for at oprette den endelige prompt til fundamentmodellen. Amazon SageMaker lærred understøtter nu omfattende dataforberedelsesfunktioner drevet af Amazon SageMaker Data Wrangler. Med denne integration giver SageMaker Canvas kunderne et end-to-end no-code-arbejdsområde til at forberede data, bygge og bruge ML- og fundamentmodeller for at accelerere tiden fra data til forretningsindsigt. Du kan nu nemt opdage og aggregere data fra over 50 datakilder og udforske og forberede data ved hjælp af over 300 indbyggede analyser og transformationer i SageMaker Canvas' visuelle grænseflade.

Løsningsoversigt

I dette indlæg arbejder vi med et PDF-dokumentationsdatasæt—Amazonas grundfjeld brugervejledning. Yderligere viser vi, hvordan man forbehandler et datasæt til RAG. Konkret renser vi dataene og opretter RAG-artefakter for at besvare spørgsmålene om indholdet af datasættet. Overvej følgende maskinlæringsproblem (ML): brugeren stiller et spørgsmål om stor sprogmodel (LLM): "Hvordan filtrerer og søger man efter modeller i Amazon Bedrock?". LLM har ikke set dokumentationen under trænings- eller finjusteringsfasen, ville derfor ikke være i stand til at besvare spørgsmålet og vil sandsynligvis hallucinere. Vores mål med dette indlæg er at finde et relevant stykke tekst fra PDF'en (dvs. RAG) og vedhæfte det til prompten, hvilket gør det muligt for LLM at besvare spørgsmål, der er specifikke for dette dokument.

Nedenfor viser vi, hvordan du kan udføre alle disse vigtigste forbehandlingstrin fra Amazon SageMaker lærred (drevet af Amazon SageMaker Data Wrangler):

Udpakning af tekst fra et PDF-dokument (drevet af Textract)
Fjern følsomme oplysninger (drevet af Comprehend)
Del tekst i stykker.
Opret indlejringer for hvert stykke (drevet af Bedrock).
Upload indlejring til en vektordatabase (drevet af OpenSearch)

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Forudsætninger

Til denne gennemgang skal du have følgende:

Bemærk: Opret OpenSearch Service-domæner ved at følge instruktionerne link.. For nemheds skyld, lad os vælge muligheden med et hovedbrugernavn og adgangskode til finmasket adgangskontrol. Når domænet er oprettet, skal du oprette et vektorindeks med følgende tilknytninger, og vektordimension 1536 justeres med Amazon Titan-indlejringer:

PUT knowledge-base-index
{ "settings": { "index.knn": True }, "mappings": { "properties": { "text_content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }, "text_content_v": { "type": "knn_vector", "dimension": 1536 }, } }
} }

Går igennem

Opbyg et dataflow

I dette afsnit dækker vi, hvordan vi kan opbygge et dataflow for at udtrække tekst og metadata fra PDF'er, rense og behandle dataene, generere indlejringer ved hjælp af Amazon Bedrock og indeksere dataene i Amazon OpenSearch.

Start SageMaker Canvas

For at starte SageMaker Canvas skal du udføre følgende trin:

På Amazonas SageMaker konsol, vælg domæner i navigationsruden.
Vælg dit domæne.
Vælg i startmenuen Lærred.

Opret et dataflow

Udfør følgende trin for at oprette et dataflow i SageMaker Canvas:

Vælg på SageMaker Canvas-hjemmesiden Data Wrangler.
Vælg Opret i højre side af siden, giv derefter et dataflownavn og vælg Opret.
Dette vil lande på en dataflow-side.
Vælg Import datoer, vælg tabeldata.

Lad os nu importere dataene fra Amazon S3-bøtten:

Vælg Import datoer og vælg tabular fra rullelisten.
Datakilde og vælg Amazon S3 fra rullelisten.
Naviger til metadatafilen med PDF-filplaceringer, og vælg filen.
Nu er metadatafilen indlæst til dataforberedelsesdataflowet, og vi kan fortsætte med at tilføje næste trin til at transformere data og indeks til Amazon OpenSearch. I dette tilfælde har filen følgende metadata, med placeringen af hver fil i Amazon S3-biblioteket.

For at tilføje en ny transformation skal du udføre følgende trin:

Vælg plustegnet og vælg Tilføj Transform.
Vælg Tilføj trin Og vælg Brugerdefineret transformation.
Du kan oprette en brugerdefineret transformation ved hjælp af Pandas, PySpark, Python brugerdefinerede funktioner og SQL PySpark. Vælge Python (PySpark) til denne brugssag.
Indtast et navn til trinnet. Gennemse og vælg fra eksempelkodestykkerne uddrag tekst fra pdf. Foretag de nødvendige ændringer til kodestykket, og vælg Tilføj.
Lad os tilføje et trin til at fjerne personlige identificerbare oplysninger (PII) fra de udtrukne data ved at udnytte Amazon Comprehend. Vælg Tilføj trin Og vælg Brugerdefineret transformation. Og vælg Python (PySpark).

Gennemse og vælg fra eksempelkodestykkerne maske PII. Foretag de nødvendige ændringer til kodestykket, og vælg Tilføj.

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Det næste trin er at dele tekstindholdet. Vælge Tilføj trin Og vælg Brugerdefineret transformation. Og vælg Python (PySpark).

Gennemse og vælg fra eksempelkodestykkerne Klump tekst. Foretag de nødvendige ændringer til kodestykket, og vælg Tilføj.

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Lad os konvertere tekstindholdet til vektorindlejringer ved hjælp af Amazonas grundfjeld Titan Embeddings model. Vælge Tilføj trin Og vælg Brugerdefineret transformation. Og vælg Python (PySpark).

Gennemse og vælg fra eksempelkodestykkerne Generer tekstindlejring med Bedrock. Foretag de nødvendige ændringer til kodestykket, og vælg Tilføj.

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Nu har vi vektorindlejringer til rådighed for PDF-filens indhold. Lad os gå videre og indeksere dataene i Amazon OpenSearch. Vælge Tilføj trin Og vælg Brugerdefineret transformation. Og vælg Python (PySpark). Du er fri til at omskrive følgende kode for at bruge din foretrukne vektordatabase. For nemheds skyld bruger vi hovedbrugernavn og adgangskode til at få adgang til OpenSearch API'er, for produktionsbelastninger skal du vælge mulighed i henhold til din organisations politikker.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "text_redacted_chunks_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def index_data(text_redacted_chunks, text_redacted_chunks_embedding): input_json = json.dumps({"text_content": text_redacted_chunks[-1], "text_content_v": text_redacted_chunks_embedding[-1]}) response = requests.request(method="POST", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_doc', headers=headers, json=input_json, auth=(master_user, 'master_pass'), timeout=30) return response.content indexing_udf = udf(index_data, StringType())
df = df.withColumn('index_response', indexing_udf(col("text_redacted_chunks"), col("text_redacted_chunks_embedding")))

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Endelig vil det oprettede dataflow være som følger:

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Med dette dataflow er dataene fra PDF-filen blevet læst og indekseret med vektorindlejringer i Amazon OpenSearch. Nu er det tid for os at oprette en fil med forespørgsler for at forespørge på de indekserede data og gemme dem på Amazon S3-placeringen. Vi peger vores søgedataflow til filen og udsender en fil med tilsvarende resultater i en ny fil på en Amazon S3-placering.

Forbereder en prompt

Når vi har oprettet en videnbase ud af vores PDF, kan vi teste den ved at søge i videnbasen efter et par eksempelforespørgsler. Vi behandler hver forespørgsel som følger:

Generer indlejring til forespørgslen (drevet af Amazon Bedrock)
Forespørgselsvektordatabase for den nærmeste nabokontekst (drevet af Amazon OpenSearch)
Kombiner forespørgslen og konteksten i prompten.
Forespørg på LLM med en prompt (drevet af Amazon Bedrock)
Vælg på SageMaker Canvas-hjemmesiden Forberedelse af data.
Vælg Opret i højre side af siden, giv derefter et dataflownavn og vælg Opret.

Lad os nu indlæse brugerspørgsmålene og derefter oprette en prompt ved at kombinere spørgsmålet og lignende dokumenter. Denne prompt leveres til LLM for at generere et svar på brugerspørgsmålet.

Lad os indlæse en csv-fil med brugerspørgsmål. Vælge Importer data og vælg tabular fra rullelisten.
Datakilde, og vælg Amazon S3 fra rullelisten. Alternativt kan du vælge at uploade en fil med brugerforespørgsler.
Lad os tilføje en tilpasset transformation for at konvertere dataene til vektorindlejringer, efterfulgt af søgning i relaterede indlejringer fra Amazon OpenSearch, før vi sender en prompt til Amazon Bedrock med forespørgslen og konteksten fra videnbasen. For at generere indlejringer til forespørgslen kan du bruge det samme eksempelkodestykke Generer tekstindlejring med Bedrock nævnt i trin #7 ovenfor.

Lad os kalde Amazon OpenSearch API for at søge i relevante dokumenter efter de genererede vektorindlejringer. Tilføj en brugerdefineret transformation med Python (PySpark).

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "Queries_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def search_data(text_column_embedding): input_json={'size':20,'query':{'knn':{'text_content_v':{'vector':{text_column_embedding},'k':5,},},},'fields':['text_content']} response = requests.request(method="GET", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_search', headers=headers, json=input_json, auth=(master_user, master_pass'), timeout=30) return response.content search_udf = udf(search_data, types.ArrayType())
df = df.withColumn(output_column,search_udf(col(text_column)))

Lad os tilføje en brugerdefineret transformation for at kalde Amazon Bedrock API til forespørgselssvar og videregive dokumenterne fra Amazon OpenSearch vidensbase. Gennemse og vælg fra eksempelkodestykkerne Forespørgsel Grundbjerg med kontekst. Foretag de nødvendige ændringer til kodestykket, og vælg Tilføj.

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Sammenfattende er RAG-baseret spørgsmålssvarende dataflow som følger:

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ML-udøvere bruger meget tid på at lave funktionsteknologikode, anvende den på deres oprindelige datasæt, træne modeller på de konstruerede datasæt og evaluere modelnøjagtighed. I betragtning af den eksperimentelle karakter af dette arbejde, fører selv det mindste projekt til flere iterationer. Den samme funktionsingeniørkode køres ofte igen og igen, hvilket spilder tid og computerressourcer på at gentage de samme operationer. I store organisationer kan dette forårsage et endnu større tab af produktivitet, fordi forskellige teams ofte kører identiske opgaver eller endda skriver dubleret funktionsteknologi, fordi de ikke har kendskab til tidligere arbejde. For at undgå genbehandling af funktioner eksporterer vi vores dataflow til en Amazon SageMaker pipeline. Lad os vælge + knappen til højre for forespørgslen. Vælg eksporter dataflow og vælg Kør SageMaker Pipeline (via Jupyter notesbog).

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Gøre rent

For at undgå fremtidige gebyrer skal du slette eller lukke de ressourcer, du oprettede, mens du fulgte dette indlæg. Henvise til Logger ud af Amazon SageMaker Canvas for flere detaljer.

Konklusion

I dette indlæg viste vi dig, hvordan Amazon SageMaker Canvas's end-to-end-kapaciteter ved at påtage sig rollen som en dataprofessionel, der forbereder data til en LLM. Den interaktive dataforberedelse gjorde det muligt hurtigt at rense, transformere og analysere dataene for at udvikle informative funktioner. Ved at fjerne kodningskompleksiteter tillod SageMaker Canvas hurtig iteration for at skabe et træningsdatasæt af høj kvalitet. Denne accelererede arbejdsgang førte direkte til opbygning, træning og implementering af en effektiv maskinlæringsmodel for virksomhedspåvirkning. Med sin omfattende dataforberedelse og ensartede erfaring fra data til indsigt, giver SageMaker Canvas brugerne mulighed for at forbedre deres ML-resultater.

Vi opfordrer dig til at lære mere ved at udforske Amazon SageMaker Data Wrangler, Amazon SageMaker lærred, Amazon Titan modeller, Amazonas grundfjeldog Amazon OpenSearch Service at bygge en løsning ved hjælp af eksempelimplementeringen i dette indlæg og et datasæt, der er relevant for din virksomhed. Hvis du har spørgsmål eller forslag, så læg en kommentar.

Om forfatterne

Ajjay Govindaram er Senior Solutions Architect hos AWS. Han arbejder med strategiske kunder, der bruger AI/ML til at løse komplekse forretningsproblemer. Hans erfaring ligger i at levere teknisk vejledning samt designassistance til beskedne til store AI/ML-applikationsimplementeringer. Hans viden spænder fra applikationsarkitektur til big data, analytics og machine learning. Han nyder at lytte til musik, mens han hviler sig, opleve udendørslivet og tilbringe tid med sine kære.