Lihtsustage andmete ettevalmistamist generatiivseks AI-ks Amazon SageMaker Data Wrangleriga

Taasavaldanud Platon

järgijaid: 0

Generatiivne tehisintellekt (generatiivne AI) mudelid on näidanud suurepäraseid võimeid kvaliteetse teksti, piltide ja muu sisu genereerimisel. Need mudelid nõuavad aga tohutul hulgal puhtaid, struktureeritud koolitusandmeid, et oma potentsiaali täielikult ära kasutada. Enamik reaalmaailma andmeid on struktureerimata vormingutes, nagu PDF-id, mis nõuavad enne tõhusat kasutamist eeltöötlust.

Järgi IDC, moodustavad struktureerimata andmed täna üle 80% kõigist äriandmetest. See hõlmab selliseid vorminguid nagu meilid, PDF-id, skannitud dokumendid, pildid, heli, video ja palju muud. Kuigi need andmed sisaldavad väärtuslikke teadmisi, raskendab nende struktureerimata olemus AI-algoritmide tõlgendamist ja nendest õppimist. Vastavalt a Deloitte'i 2019. aasta uuring, teatas vaid 18% ettevõtetest, et nad saavad struktureerimata andmeid ära kasutada.

Kuna tehisintellekti kasutuselevõtt aina kiireneb, muutub tõhusate mehhanismide väljatöötamine struktureerimata andmete seedimiseks ja nendest õppimiseks tulevikus veelgi kriitilisemaks. See võib hõlmata paremaid eeltöötlustööriistu, pooleldi juhendatud õppetehnikaid ja loomuliku keele töötlemise edusamme. Ettevõtted, kes kasutavad oma struktureerimata andmeid kõige tõhusamalt, saavad tehisintellektist märkimisväärse konkurentsieelise. Puhtad andmed on mudeli hea toimimise jaoks olulised. Väljatõmmatud tekstides on endiselt suurel hulgal jaburat teksti (nt loetud HTML-i). Internetist kogutud andmed sisaldavad sageli palju dubleerimist. Andmed sotsiaalmeediast, arvustustest või mis tahes kasutaja loodud sisust võivad samuti sisaldada mürgist ja kallutatud sisu ning teil võib tekkida vajadus need mõne eeltöötlusetapi abil välja filtreerida. Samuti võib olla palju madala kvaliteediga sisu või robotite loodud tekste, mida saab kaasasolevate metaandmete abil välja filtreerida (nt filtreerida välja klienditeeninduse vastused, mis said klientide madala hinnangu).

Andmete ettevalmistamine on Retrieval Augmented Generation mitmes etapis oluline (kalts) mudelid. Teadmiste lähtedokumendid vajavad eeltöötlust, näiteks teksti puhastamist ja semantiliste manustamist, et neid saaks tõhusalt indekseerida ja hankida. Kasutaja loomuliku keele päring nõuab samuti eeltöötlust, nii et seda saab kodeerida vektorisse ja võrrelda dokumentide manustega. Pärast asjakohaste kontekstide toomist võivad need vajada täiendavat eeltöötlust, näiteks kärpimist, enne kui need ühendatakse kasutaja päringuga, et luua alusmudeli jaoks viimane viip. Amazon SageMakeri lõuend toetab nüüd kõikehõlmavaid andmete ettevalmistamise võimalusi Amazon SageMaker Data Wrangler. Selle integratsiooniga pakub SageMaker Canvas klientidele täielikku koodivaba tööruumi andmete ettevalmistamiseks, ML-i ja sihtasutuste mudelite loomiseks ja kasutamiseks, et kiirendada andmetelt äriülevaadeteni jõudmist. Nüüd saate hõlpsasti avastada ja koondada andmeid enam kui 50 andmeallikast ning uurida ja ette valmistada andmeid, kasutades SageMaker Canvase visuaalses liideses enam kui 300 sisseehitatud analüüsi ja teisendust.

Lahenduse ülevaade

Selles postituses töötame PDF-dokumentatsiooni andmestikuga -Amazonase aluspõhi kasutusjuhend. Lisaks näitame, kuidas RAG-i jaoks andmestikku eeltöödelda. Täpsemalt puhastame andmed ja loome RAG-artefakte, et vastata küsimustele andmestiku sisu kohta. Mõelge järgmisele masinõppe (ML) probleemile: kasutaja esitab suure keelemudeli (LLM) küsimuse: "Kuidas Amazon Bedrockis mudeleid filtreerida ja otsida?". LLM pole koolituse ega peenhäälestuse etapis dokumentatsiooni näinud, seega ei oskaks küsimusele vastata ja tõenäoliselt hakkab hallutsinatsioone. Meie eesmärk selle postitusega on leida PDF-ist (st RAG) asjakohane tekstiosa ja lisada see viipale, võimaldades LLM-il vastata selle dokumendiga seotud küsimustele.

Allpool näitame, kuidas saate teha kõiki neid peamisi eeltöötlusetappe Amazon SageMakeri lõuend (toiteallikas Amazon SageMaker Data Wrangler):

Teksti eraldamine PDF-dokumendist (toiteallikaks Textract)
Tundliku teabe eemaldamine (toiteallikaks Comprehend)
Tükelda tekst tükkideks.
Looge iga osa jaoks manused (toiteallikaks Bedrock).
Laadige manustamine üles vektorandmebaasi (toidab OpenSearch)

Lihtsustage andmete ettevalmistamist generatiivseks AI-ks rakendusega Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Eeldused

Selle ülevaate jaoks peaks teil olema järgmine teave.

märkused: Looge juhiseid järgides OpenSearch Service'i domeenid siin. Lihtsuse huvides valime täpse juurdepääsukontrolli jaoks põhikasutajanime ja parooliga valiku. Kui domeen on loodud, looge vektorindeks järgmiste vastendustega ja vektori mõõde 1536 joondub Amazon Titani manustustega:

PUT knowledge-base-index
{ "settings": { "index.knn": True }, "mappings": { "properties": { "text_content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }, "text_content_v": { "type": "knn_vector", "dimension": 1536 }, } }
} }

Juhendid

Looge andmevoog

Selles jaotises käsitleme seda, kuidas saame luua andmevoo, et ekstraheerida PDF-failidest teksti ja metaandmeid, puhastada ja töödelda andmeid, luua Amazon Bedrocki abil manuseid ja indekseerida andmeid Amazon OpenSearchis.

Käivitage SageMaker Canvas

SageMaker Canvase käivitamiseks toimige järgmiselt.

Amazonase peal SageMakeri konsool, vali Domeenid navigeerimispaanil.
Valige oma domeen.
Valige käivitusmenüüst Lõuend.

Loo andmevoog

Andmevoo loomiseks SageMaker Canvasis tehke järgmised toimingud.

Valige SageMaker Canvas avalehel Data Wrangler.
Vali Looma lehe paremas servas, seejärel andke andmevoo nimi ja valige Looma.
See maandub andmevoo lehele.
Vali Andmete importimine, valige tabeliandmed.

Impordime nüüd andmed Amazon S3 ämbrist:

Vali Andmete importimine ja valige Tabel rippmenüüst.
Andmeallikas ja valige Amazon S3 rippmenüüst.
Liikuge PDF-failide asukohtadega metaandmefaili ja valige fail.
Nüüd laaditakse metaandmete fail andmete ettevalmistamise andmevoogu ja saame jätkata järgmiste sammude lisamisega andmete ja indeksi muutmiseks Amazoni OpenSearch. Sel juhul on failil järgmised metaandmed koos iga faili asukohaga Amazon S3 kataloogis.

Uue teisenduse lisamiseks toimige järgmiselt.

Valige plussmärk ja valige Lisage teisendus.
Vali Lisa samm Ja vali Kohandatud teisendus.
Saate luua kohandatud teisenduse, kasutades Pandasi, PySparki, Pythoni kasutaja määratud funktsioone ja SQL PySparki. Vali Python (PySpark) selle kasutusjuhtumi jaoks.
Sisestage sammule nimi. Sirvige ja valige näidiskoodilõikude hulgast väljavõte pdf-ist teksti. Tehke koodilõigusse vajalikud muudatused ja valige lisama.
Lisame sammu isikutuvastava teabe (PII) andmete eemaldamiseks eraldatud andmetest võimendades Amazoni mõistmine. Valima Lisa samm Ja vali Kohandatud teisendus. Ja vali Python (PySpark).

Sirvige ja valige näidiskoodilõikude hulgast mask PII. Tehke koodilõigusse vajalikud muudatused ja valige Lisa.

Lihtsustage andmete ettevalmistamist generatiivseks AI-ks rakendusega Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järgmine samm on teksti sisu tükeldamine. Vali Lisa samm Ja vali Kohandatud teisendus. Ja vali Python (PySpark).

Sirvige ja valige näidiskoodilõikude hulgast Tükitekst. Tehke koodilõigusse vajalikud muudatused ja valige Lisa.

Lihtsustage andmete ettevalmistamist generatiivseks AI-ks rakendusega Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Teisendame teksti sisu vektormanustamiseks, kasutades Amazonase aluspõhi Titan Embeddingsi mudel. Vali Lisa samm Ja vali Kohandatud teisendus. Ja vali Python (PySpark).

Sirvige ja valige näidiskoodilõikude hulgast Looge Bedrockiga teksti manustamine. Tehke koodilõigusse vajalikud muudatused ja valige Lisa.

Lihtsustage andmete ettevalmistamist generatiivseks AI-ks rakendusega Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Nüüd on meil PDF-faili sisu jaoks saadaval vektormanused. Lähme edasi ja indekseerime andmed Amazon OpenSearchi. Vali Lisa samm Ja vali Kohandatud teisendus. Ja vali Python (PySpark). Eelistatud vektorandmebaasi kasutamiseks võite järgmise koodi ümber kirjutada. Lihtsuse huvides kasutame OpenSearch API-dele juurdepääsuks peakasutajanime ja parooli, tootmistöökoormuste jaoks tehke valik vastavalt teie organisatsiooni eeskirjadele.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "text_redacted_chunks_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def index_data(text_redacted_chunks, text_redacted_chunks_embedding): input_json = json.dumps({"text_content": text_redacted_chunks[-1], "text_content_v": text_redacted_chunks_embedding[-1]}) response = requests.request(method="POST", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_doc', headers=headers, json=input_json, auth=(master_user, 'master_pass'), timeout=30) return response.content indexing_udf = udf(index_data, StringType())
df = df.withColumn('index_response', indexing_udf(col("text_redacted_chunks"), col("text_redacted_chunks_embedding")))

Lihtsustage andmete ettevalmistamist generatiivseks AI-ks rakendusega Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Lõpuks oleks loodud andmevoog järgmine:

Lihtsustage andmete ettevalmistamist generatiivseks AI-ks rakendusega Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Selle andmevooga on PDF-faili andmed loetud ja indekseeritud Amazon OpenSearchi vektormanustustega. Nüüd on meil aeg luua päringutega fail, et teha päringuid indekseeritud andmete kohta ja salvestada see Amazon S3 asukohta. Suuname oma otsingu andmevoo failile ja väljastame vastavate tulemustega faili uues failis Amazon S3 asukohas.

Viipe ettevalmistamine

Kui oleme oma PDF-ist teadmistebaasi loonud, saame seda testida, otsides teadmistebaasist mõnda näidispäringut. Töötleme iga päringut järgmiselt.

Loo päringu jaoks manustamine (toiteallikaks Amazon Bedrock)
Päringuvektori andmebaas lähima naabri konteksti jaoks (toiteallikaks Amazon OpenSearch)
Ühendage päring ja kontekst viipasse.
LLM-i päring viipaga (toiteallikaks Amazon Bedrock)
Valige SageMaker Canvas avalehel Andmete ettevalmistamine.
Vali Looma lehe paremas servas, seejärel andke andmevoo nimi ja valige Looma.

Nüüd laadime kasutaja küsimused ja loome seejärel viip, ühendades küsimuse ja sarnased dokumendid. See viip antakse LLM-ile kasutaja küsimusele vastuse genereerimiseks.

Laadime kasutajaküsimustega csv-faili. Vali Andmete importimine ja valige Tabel rippmenüüst.
Andmeallikas, ja valige Amazon S3 ripploendist. Teise võimalusena saate üles laadida kasutaja päringutega faili.
Lisame kohandatud teisenduse andmete vektormanustusteks teisendamiseks, millele järgneb seotud manustamiste otsimine Amazon OpenSearchist, enne kui saadame Amazon Bedrockile viipa koos päringu ja kontekstiga teadmistebaasist. Päringu jaoks manuste loomiseks võite kasutada sama näidiskoodilõiku Looge Bedrockiga teksti manustamine eespool sammus nr 7 mainitud.

Kasutame Amazon OpenSearch API-d, et otsida loodud vektormanustuste jaoks asjakohaseid dokumente. Lisage Pythoni (PySpark) abil kohandatud teisendus.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "Queries_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def search_data(text_column_embedding): input_json={'size':20,'query':{'knn':{'text_content_v':{'vector':{text_column_embedding},'k':5,},},},'fields':['text_content']} response = requests.request(method="GET", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_search', headers=headers, json=input_json, auth=(master_user, master_pass'), timeout=30) return response.content search_udf = udf(search_data, types.ArrayType())
df = df.withColumn(output_column,search_udf(col(text_column)))

Lisame kohandatud teisenduse, et kutsuda päringule vastuse saamiseks Amazon Bedrocki API, edastades dokumendid Amazon OpenSearchi teadmistebaasist. Sirvige ja valige näidiskoodilõikude hulgast Päring aluskivimitest konteksti järgi. Tehke koodilõigusse vajalikud muudatused ja valige Lisa.

Lihtsustage andmete ettevalmistamist generatiivseks AI-ks rakendusega Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Kokkuvõttes on RAG-põhine küsimustele vastamise andmevoog järgmine:

Lihtsustage andmete ettevalmistamist generatiivseks AI-ks rakendusega Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

ML-i praktikud kulutavad palju aega funktsioonide insenerikoodi koostamisele, selle rakendamisele oma esialgsetes andmekogumites, konstrueeritud andmekogumite mudelite koolitamisel ja mudeli täpsuse hindamisel. Arvestades selle töö eksperimentaalset olemust, viib isegi väikseim projekt mitme iteratsioonini. Sama funktsiooni insenerikoodi käitatakse sageli ikka ja jälle, raiskades aega ja arvutusressursse samade toimingute kordamisele. Suurtes organisatsioonides võib see põhjustada veelgi suurema tootlikkuse kaotuse, kuna erinevad meeskonnad töötavad sageli identselt või isegi kirjutavad dubleeritud funktsioonide insenerikoodi, kuna neil pole varasemast tööst teadmisi. Funktsioonide ümbertöötlemise vältimiseks ekspordime oma andmevoo Amazoni SageMakeri torujuhe. Valige valik + nupp päringust paremal. Valige ekspordi andmevoog ja valige Käivitage SageMaker Pipeline (Jupyteri sülearvuti kaudu).

Lihtsustage andmete ettevalmistamist generatiivseks AI-ks rakendusega Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Koristamine

Edaspidiste tasude vältimiseks kustutage või sulgege selle postituse jälgimise ajal loodud ressursid. Viitama Amazon SageMaker Canvasist väljalogimine rohkem üksikasju.

Järeldus

Selles postituses näitasime teile, kuidas Amazon SageMaker Canvas'i täielikud võimalused, võttes endale LLM-i jaoks andmeid ettevalmistava andmeprofessionaali rolli. Interaktiivne andmete ettevalmistamine võimaldas andmeid kiiresti puhastada, teisendada ja analüüsida informatiivsete funktsioonide väljatöötamiseks. Kodeerimise keerukuse eemaldamisega võimaldas SageMaker Canvas kiiret iteratsiooni, et luua kvaliteetne koolitusandmestik. See kiirendatud töövoog viis otse tulemusliku masinõppemudeli loomise, koolitamise ja juurutamiseni, et mõjutada äritegevust. SageMaker Canvas annab oma põhjaliku andmete ettevalmistamise ja ühtse kogemuse andmetest ülevaadeteni kasutajatele võimaluse parandada oma ML tulemusi.

Soovitame teil uurides rohkem teada saada Amazon SageMaker Data Wrangler, Amazon SageMakeri lõuend, Amazoni titaan mudelid, Amazonase aluspõhija Amazon OpenSearch Service lahenduse loomiseks, kasutades selles postituses esitatud näidisrakendust ja teie ettevõtte jaoks asjakohast andmekogumit. Kui teil on küsimusi või ettepanekuid, jätke kommentaar.

Autoritest

Ajjay Govindaram on AWSi vanemlahenduste arhitekt. Ta töötab strateegiliste klientidega, kes kasutavad AI/ML-i keerukate äriprobleemide lahendamiseks. Tema kogemused seisnevad nii tehniliste juhiste kui ka disainiabi pakkumises tagasihoidlike kuni suuremahuliste AI/ML-rakenduste juurutamiseks. Tema teadmised ulatuvad rakendusarhitektuurist suurandmete, analüütika ja masinõppeni. Talle meeldib puhates muusikat kuulata, õues kogeda ja oma lähedastega aega veeta.