Simplify Data Prep For Generative AI With Amazon SageMaker Data Wrangler

Ponovno objavil Platon

Spremljevalci: 0

Generativna umetna inteligenca (generativni AI) modeli so pokazali impresivne zmogljivosti pri ustvarjanju visokokakovostnega besedila, slik in druge vsebine. Vendar pa ti modeli zahtevajo ogromne količine čistih, strukturiranih podatkov o usposabljanju, da dosežejo svoj polni potencial. Večina podatkov iz resničnega sveta obstaja v nestrukturiranih formatih, kot so PDF-ji, ki zahtevajo predhodno obdelavo, preden jih je mogoče učinkovito uporabiti.

Glede na IDC, nestrukturirani podatki predstavljajo več kot 80 % vseh današnjih poslovnih podatkov. To vključuje formate, kot so e-poštna sporočila, PDF-ji, skenirani dokumenti, slike, zvok, video in drugo. Čeprav ti podatki vsebujejo dragocene vpoglede, njihova nestrukturirana narava algoritmom umetne inteligence otežuje razlago in učenje iz njih. Po mnenju a Raziskava Deloitte za leto 2019, je samo 18 % podjetij poročalo, da lahko izkoristijo nestrukturirane podatke.

Ker se sprejemanje umetne inteligence še pospešuje, bo razvoj učinkovitih mehanizmov za prebavo in učenje iz nestrukturiranih podatkov v prihodnosti še bolj kritičen. To bi lahko vključevalo boljša orodja za predprocesiranje, tehnike delno nadzorovanega učenja in napredek pri obdelavi naravnega jezika. Podjetja, ki najučinkoviteje uporabljajo svoje nestrukturirane podatke, bodo z umetno inteligenco pridobila pomembne konkurenčne prednosti. Čisti podatki so pomembni za dobro delovanje modela. Ekstrahirana besedila še vedno vsebujejo velike količine bedarije in šablonskega besedila (npr. branje HTML). Postrgani podatki iz interneta pogosto vsebujejo veliko podvajanj. Podatki iz družbenih medijev, ocene ali katera koli vsebina, ki jo ustvarijo uporabniki, lahko vsebujejo tudi strupeno in pristransko vsebino, zato jih boste morda morali filtrirati z nekaterimi koraki predhodne obdelave. Lahko je tudi veliko nizkokakovostnih vsebin ali besedil, ki jih ustvarijo boti, ki jih je mogoče filtrirati s spremljajočimi metapodatki (npr. filtrirati odgovore služb za stranke, ki so prejeli nizke ocene strank).

Priprava podatkov je pomembna v več fazah pri pridobivanju razširjenega ustvarjanja (krpa) modeli. Izvorni dokumenti znanja potrebujejo predhodno obdelavo, kot je čiščenje besedila in generiranje semantičnih vdelav, da jih je mogoče učinkovito indeksirati in pridobiti. Uporabnikova poizvedba v naravnem jeziku prav tako zahteva predhodno obdelavo, tako da jo je mogoče kodirati v vektor in primerjati z vdelavami dokumentov. Po pridobitvi ustreznih kontekstov bodo morda potrebovali dodatno predprocesiranje, kot je obrezovanje, preden bodo združeni v uporabnikovo poizvedbo, da se ustvari končni poziv za temeljni model. Amazon SageMaker Canvas zdaj podpira celovite zmogljivosti priprave podatkov, ki jih poganja Amazon SageMaker Data Wrangler. S to integracijo SageMaker Canvas strankam zagotavlja celovit delovni prostor brez kode za pripravo podatkov, gradnjo in uporabo modelov ML in temeljev za pospešitev časa od podatkov do poslovnih vpogledov. Zdaj lahko preprosto odkrijete in združite podatke iz več kot 50 virov podatkov ter raziščete in pripravite podatke z uporabo več kot 300 vgrajenih analiz in transformacij v vizualnem vmesniku SageMaker Canvas.

Pregled rešitev

V tej objavi delamo s podatkovnim nizom dokumentacije PDF –Amazon Bedrock navodila. Nadalje pokažemo, kako vnaprej obdelati nabor podatkov za RAG. Natančneje, očistimo podatke in ustvarimo artefakte RAG, da odgovorimo na vprašanja o vsebini nabora podatkov. Razmislite o naslednji težavi s strojnim učenjem (ML): uporabnik zastavi vprašanje velikega jezikovnega modela (LLM): »Kako filtrirati in iskati modele v Amazon Bedrock?«. LLM ni videl dokumentacije med fazo usposabljanja ali natančnega prilagajanja, zato ne bi mogel odgovoriti na vprašanje in bo najverjetneje haluciniral. Naš cilj s to objavo je poiskati ustrezen del besedila iz PDF-ja (tj. RAG) in ga priložiti pozivu ter tako omogočiti LLM-u, da odgovori na vprašanja, specifična za ta dokument.

Spodaj prikazujemo, kako lahko izvedete vse te glavne korake predprocesiranja iz Amazon SageMaker Canvas (poganja ga Amazon SageMaker Data Wrangler):

Ekstrahiranje besedila iz dokumenta PDF (poganja Texttract)
Odstranite občutljive podatke (poganja Comprehend)
Besedilo razdelite na koščke.
Ustvarite vdelave za vsak kos (poganja Bedrock).
Naloži vdelavo v vektorsko bazo podatkov (poganja OpenSearch)

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Predpogoji

Za to navodilo morate imeti naslednje:

Opombe: Ustvarite domene storitve OpenSearch po navodilih tukaj. Za poenostavitev izberimo možnost z glavnim uporabniškim imenom in geslom za natančen nadzor dostopa. Ko je domena ustvarjena, ustvarite vektorski indeks z naslednjimi preslikavami in vektorska dimenzija 1536 se poravna z vdelavami Amazon Titan:

PUT knowledge-base-index
{ "settings": { "index.knn": True }, "mappings": { "properties": { "text_content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }, "text_content_v": { "type": "knn_vector", "dimension": 1536 }, } }
} }

Walkthrough

Zgradite pretok podatkov

V tem razdelku opisujemo, kako lahko zgradimo tok podatkov za ekstrahiranje besedila in metapodatkov iz datotek PDF, čiščenje in obdelavo podatkov, ustvarjanje vdelav z uporabo Amazon Bedrock in indeksiranje podatkov v Amazon OpenSearch.

Zaženite SageMaker Canvas

Če želite zagnati SageMaker Canvas, dokončajte naslednje korake:

Na Amazonki Konzola SageMaker, izberite Domene v podoknu za krmarjenje.
Izberite svojo domeno.
V zagonskem meniju izberite Canvas.

Ustvari tok podatkov

Izvedite naslednje korake, da ustvarite pretok podatkov v SageMaker Canvas:

Na domači strani SageMaker Canvas izberite Data Wrangler.
Izberite ustvarjanje na desni strani strani, nato podajte ime toka podatkov in izberite ustvarjanje.
To bo pristalo na strani pretoka podatkov.
Izberite Uvozi podatke, izberite tabelarične podatke.

Zdaj pa uvozimo podatke iz vedra Amazon S3:

Izberite Uvozi podatke in izberite Tabela s spustnega seznama.
Vir podatkov in izberite Amazon S3 s spustnega seznama.
Pomaknite se do meta podatkovne datoteke z lokacijami datotek PDF in izberite datoteko.
Zdaj je datoteka z metapodatki naložena v tok podatkov za pripravo podatkov in lahko nadaljujemo z dodajanjem naslednjih korakov za pretvorbo podatkov in indeksa v Amazon Opensearch. V tem primeru ima datoteka naslednje metapodatke z lokacijo vsake datoteke v imeniku Amazon S3.

Če želite dodati novo transformacijo, izvedite naslednje korake:

Izberite znak plus in izberite Dodaj preoblikovanje.
Izberite Dodaj korak In izberite Preoblikovanje po meri.
Pretvorbo po meri lahko ustvarite z uporabo Pandas, PySpark, uporabniško definiranih funkcij Python in SQL PySpark. Izberite Python (PySpark) za ta primer uporabe.
Vnesite ime za korak. Med vzorčnimi delčki kode prebrskajte in izberite izvleček besedila iz pdf. Izvedite potrebne spremembe v delčku kode in izberite Dodaj.
Dodajmo korak za redigiranje podatkov, ki omogočajo osebno identifikacijo (PII) iz ekstrahiranih podatkov z uporabo Amazonsko razumevanje. Izberite Dodaj korak In izberite Preoblikovanje po meri. In izberite Python (PySpark).

Med vzorčnimi delčki kode prebrskajte in izberite maska PII. Izvedite potrebne spremembe v delčku kode in izberite Dodaj.

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Naslednji korak je razdelitev vsebine besedila. Izberite Dodaj korak In izberite Preoblikovanje po meri. In izberite Python (PySpark).

Med vzorčnimi delčki kode prebrskajte in izberite Del besedila. Izvedite potrebne spremembe v delčku kode in izberite Dodaj.

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Pretvorimo besedilno vsebino v vektorske vdelave z uporabo Amazon Bedrock Model Titan Embeddings. Izberite Dodaj korak In izberite Preoblikovanje po meri. In izberite Python (PySpark).

Med vzorčnimi delčki kode prebrskajte in izberite Ustvarite vdelavo besedila z Bedrockom. Izvedite potrebne spremembe v delčku kode in izberite Dodaj.

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Zdaj imamo na voljo vektorske vdelave za vsebino datoteke PDF. Pojdimo naprej in indeksirajmo podatke v Amazon OpenSearch. Izberite Dodaj korak In izberite Preoblikovanje po meri. In izberite Python (PySpark). Naslednjo kodo lahko prepišete za uporabo želene vektorske baze podatkov. Zaradi poenostavitve uporabljamo glavno uporabniško ime in geslo za dostop do API-jev OpenSearch, za produkcijske delovne obremenitve izberite možnost v skladu s pravilniki vaše organizacije.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "text_redacted_chunks_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def index_data(text_redacted_chunks, text_redacted_chunks_embedding): input_json = json.dumps({"text_content": text_redacted_chunks[-1], "text_content_v": text_redacted_chunks_embedding[-1]}) response = requests.request(method="POST", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_doc', headers=headers, json=input_json, auth=(master_user, 'master_pass'), timeout=30) return response.content indexing_udf = udf(index_data, StringType())
df = df.withColumn('index_response', indexing_udf(col("text_redacted_chunks"), col("text_redacted_chunks_embedding")))

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Končno bi bil ustvarjen tok podatkov naslednji:

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

S tem pretokom podatkov so bili podatki iz datoteke PDF prebrani in indeksirani z vdelanimi vektorji v Amazon OpenSearch. Zdaj je čas, da ustvarimo datoteko s poizvedbami za poizvedbo po indeksiranih podatkih in jo shranimo na lokacijo Amazon S3. Naš pretok iskalnih podatkov bomo usmerili v datoteko in izpisali datoteko z ustreznimi rezultati v novi datoteki na lokaciji Amazon S3.

Priprava poziva

Ko iz našega PDF-ja ustvarimo bazo znanja, jo lahko preizkusimo tako, da v bazi znanja preiščemo nekaj vzorčnih poizvedb. Vsako poizvedbo bomo obdelali na naslednji način:

Ustvarite vdelavo za poizvedbo (poganja Amazon Bedrock)
Poizvedba o vektorski bazi podatkov za kontekst najbližjega soseda (poganja Amazon OpenSearch)
Združite poizvedbo in kontekst v poziv.
Poizvedba LLM s pozivom (poganja Amazon Bedrock)
Na domači strani SageMaker Canvas izberite Priprava podatkov.
Izberite ustvarjanje na desni strani strani, nato podajte ime toka podatkov in izberite ustvarjanje.

Zdaj pa naložimo uporabniška vprašanja in nato ustvarimo poziv tako, da združimo vprašanje in podobne dokumente. Ta poziv je na voljo LLM za generiranje odgovora na uporabniško vprašanje.

Naložimo datoteko csv z uporabniškimi vprašanji. Izberite Uvoz podatkov in izberite Tabela s spustnega seznama.
Vir podatkov, in izberite Amazon S3 s spustnega seznama. Lahko pa se odločite za nalaganje datoteke z uporabniškimi poizvedbami.
Dodajmo transformacijo po meri za pretvorbo podatkov v vektorske vdelave, čemur sledi iskanje povezanih vdelav iz Amazon OpenSearch, preden pošljemo poziv Amazon Bedrock s poizvedbo in kontekstom iz baze znanja. Če želite ustvariti vdelave za poizvedbo, lahko uporabite isti vzorčni delček kode Ustvarite vdelavo besedila z Bedrockom omenjeno v 7. koraku zgoraj.

Prikličimo API Amazon OpenSearch za iskanje ustreznih dokumentov za ustvarjene vdelane vektorje. Dodajte transformacijo po meri s Pythonom (PySpark).

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "Queries_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def search_data(text_column_embedding): input_json={'size':20,'query':{'knn':{'text_content_v':{'vector':{text_column_embedding},'k':5,},},},'fields':['text_content']} response = requests.request(method="GET", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_search', headers=headers, json=input_json, auth=(master_user, master_pass'), timeout=30) return response.content search_udf = udf(search_data, types.ArrayType())
df = df.withColumn(output_column,search_udf(col(text_column)))

Dodajmo pretvorbo po meri za klic API-ja Amazon Bedrock za odgovor na poizvedbo, ki posreduje dokumente iz baze znanja Amazon OpenSearch. Med vzorčnimi delčki kode prebrskajte in izberite Poizvedba Bedrock s kontekstom. Izvedite potrebne spremembe v delčku kode in izberite Dodaj.

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Če povzamemo, je podatkovni tok odgovorov na vprašanja, ki temelji na RAG, naslednji:

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Strokovnjaki ML porabijo veliko časa za izdelavo inženirske kode funkcij, njeno uporabo v svojih začetnih naborih podatkov, usposabljanje modelov na zasnovanih naborih podatkov in ocenjevanje točnosti modela. Glede na eksperimentalno naravo tega dela celo najmanjši projekt povzroči več ponovitev. Ista inženirska koda funkcij se pogosto izvaja znova in znova, pri čemer se zapravlja čas in računalniški viri za ponavljanje istih operacij. V velikih organizacijah lahko to povzroči še večjo izgubo produktivnosti, ker različne ekipe pogosto izvajajo enaka opravila ali celo pišejo podvojeno kodo za inženiring funkcij, ker nimajo znanja o prejšnjem delu. Da bi se izognili ponovni obdelavi funkcij, bomo naš tok podatkov izvozili v Amazon Cevovod SageMaker. Izberi gumb + na desni strani poizvedbe. Izberite izvoz toka podatkov in izberite Zaženite SageMaker Pipeline (prek zvezka Jupyter).

Simplify data prep for generative AI with Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Čiščenje

Da se izognete prihodnjim stroškom, izbrišite ali zaprite vire, ki ste jih ustvarili med spremljanjem te objave. Nanašati se na Odjava iz Amazon SageMaker Canvas Za več podrobnosti.

zaključek

V tej objavi smo vam pokazali, kako deluje Amazon SageMaker Canvas od konca do konca, tako da smo prevzeli vlogo podatkovnega strokovnjaka, ki pripravlja podatke za LLM. Interaktivna priprava podatkov je omogočila hitro čiščenje, transformacijo in analizo podatkov za inženirske informativne funkcije. Z odstranitvijo zapletenosti kodiranja je SageMaker Canvas omogočil hitro ponavljanje za ustvarjanje visokokakovostnega nabora podatkov za usposabljanje. Ta pospešeni potek dela je vodil neposredno v gradnjo, usposabljanje in uvajanje zmogljivega modela strojnega učenja za poslovni učinek. S celovito pripravo podatkov in enotno izkušnjo od podatkov do vpogledov SageMaker Canvas omogoča uporabnikom, da izboljšajo svoje rezultate ML.

Spodbujamo vas, da z raziskovanjem izveste več Amazon SageMaker Data Wrangler, Amazon SageMaker Canvas, Amazon Titan modeli, Amazon Bedrockin Amazon Storitev OpenSearch za izgradnjo rešitve z uporabo vzorčne implementacije v tej objavi in nabora podatkov, ki ustreza vašemu podjetju. Če imate vprašanja ali predloge, pustite komentar.

O avtorjih

Ajjay Govindaram je višji arhitekt rešitev pri AWS. Dela s strateškimi strankami, ki uporabljajo AI/ML za reševanje kompleksnih poslovnih problemov. Njegove izkušnje so pri zagotavljanju tehničnega vodenja in pomoči pri oblikovanju za skromne do obsežne uvedbe aplikacij AI/ML. Njegovo znanje sega od arhitekture aplikacij do velikih podatkov, analitike in strojnega učenja. Uživa v poslušanju glasbe med počitkom, doživetjih na prostem in preživljanju časa s svojimi najdražjimi.