Vereenvoudig de gegevensvoorbereiding voor generatieve AI met Amazon SageMaker Data Wrangler

Heruitgegeven door Plato

volgers: 0

Generatieve kunstmatige intelligentie (generatieve AI)-modellen hebben indrukwekkende mogelijkheden getoond bij het genereren van tekst, afbeeldingen en andere inhoud van hoge kwaliteit. Deze modellen vereisen echter enorme hoeveelheden schone, gestructureerde trainingsgegevens om hun volledige potentieel te bereiken. De meeste gegevens uit de echte wereld bestaan in ongestructureerde formaten zoals PDF's, waarvoor voorbewerking nodig is voordat deze effectief kunnen worden gebruikt.

Think IDCTegenwoordig zijn ongestructureerde data verantwoordelijk voor meer dan 80% van alle bedrijfsgegevens. Dit omvat formaten zoals e-mails, pdf's, gescande documenten, afbeeldingen, audio, video en meer. Hoewel deze gegevens waardevolle inzichten bevatten, maakt de ongestructureerde aard ervan het moeilijk voor AI-algoritmen om deze te interpreteren en ervan te leren. Volgens een Onderzoek 2019 door Deloittegaf slechts 18% van de bedrijven aan voordeel te kunnen halen uit ongestructureerde data.

Naarmate de adoptie van AI blijft versnellen, wordt het ontwikkelen van efficiënte mechanismen voor het verwerken en leren van ongestructureerde gegevens in de toekomst nog belangrijker. Dit kan gepaard gaan met betere voorverwerkingshulpmiddelen, semi-gecontroleerde leertechnieken en vooruitgang in de verwerking van natuurlijke taal. Bedrijven die hun ongestructureerde data het meest effectief gebruiken, zullen aanzienlijke concurrentievoordelen behalen uit AI. Schone gegevens zijn belangrijk voor goede modelprestaties. Geëxtraheerde teksten bevatten nog steeds grote hoeveelheden wartaal en standaardtekst (lees bijvoorbeeld HTML). Geschrapte gegevens van internet bevatten vaak veel doublures. Gegevens van sociale media, recensies of door gebruikers gegenereerde inhoud kunnen ook giftige en bevooroordeelde inhoud bevatten, en het kan zijn dat u deze eruit moet filteren met behulp van enkele voorverwerkingsstappen. Er kan ook veel inhoud van lage kwaliteit of door bots gegenereerde teksten zijn, die kunnen worden uitgefilterd met behulp van de bijbehorende metagegevens (bijvoorbeeld door reacties van de klantenservice eruit te filteren die lage klantbeoordelingen hebben gekregen).

Gegevensvoorbereiding is belangrijk in meerdere fasen van Retrieval Augmented Generation (VOD) modellen. De kennisbrondocumenten moeten worden voorbewerkt, zoals het opschonen van tekst en het genereren van semantische inbedding, zodat ze efficiënt kunnen worden geïndexeerd en opgehaald. De zoekopdracht in natuurlijke taal van de gebruiker vereist ook voorbewerking, zodat deze in een vector kan worden gecodeerd en kan worden vergeleken met documentinsluitingen. Nadat relevante contexten zijn opgehaald, hebben ze mogelijk extra voorbewerking nodig, zoals afkappen, voordat ze worden samengevoegd met de zoekopdracht van de gebruiker om de laatste prompt voor het basismodel te maken. Amazon SageMaker-canvas ondersteunt nu uitgebreide mogelijkheden voor gegevensvoorbereiding, mogelijk gemaakt door Amazon SageMaker-gegevens Wrangler. Met deze integratie biedt SageMaker Canvas klanten een end-to-end werkruimte zonder code om data voor te bereiden, ML en basismodellen te bouwen en te gebruiken om de tijd van data naar zakelijke inzichten te versnellen. U kunt nu eenvoudig gegevens uit meer dan 50 gegevensbronnen ontdekken en samenvoegen, en gegevens verkennen en voorbereiden met behulp van meer dan 300 ingebouwde analyses en transformaties in de visuele interface van SageMaker Canvas.

Overzicht oplossingen

In dit bericht werken we met een PDF-documentatiedataset:Amazonebodem gebruikershandleiding. Verder laten we zien hoe u een dataset voor RAG voorbewerkt. Concreet reinigen we de gegevens en creëren we RAG-artefacten om de vragen over de inhoud van de dataset te beantwoorden. Beschouw het volgende machine learning-probleem (ML): de gebruiker stelt een vraag over een groot taalmodel (LLM): "Hoe modellen filteren en doorzoeken in Amazon Bedrock?". LLM heeft de documentatie niet gezien tijdens de trainings- of verfijningsfase, zou de vraag dus niet kunnen beantwoorden en zal hoogstwaarschijnlijk hallucineren. Ons doel met dit bericht is om een relevant stuk tekst uit de PDF (dat wil zeggen RAG) te vinden en dit aan de prompt toe te voegen, waardoor LLM vragen kan beantwoorden die specifiek zijn voor dit document.

Hieronder laten we zien hoe u al deze belangrijke voorbewerkingsstappen kunt uitvoeren Amazon SageMaker-canvas (aangedreven door Amazon SageMaker-gegevens Wrangler):

Tekst extraheren uit een PDF-document (mogelijk gemaakt door Textract)
Gevoelige informatie verwijderen (mogelijk gemaakt door Comprehend)
Knip tekst in stukjes.
Maak insluitingen voor elk stuk (mogelijk gemaakt door Bedrock).
Insluiting uploaden naar een vectordatabase (mogelijk gemaakt door OpenSearch)

Vereenvoudig de datavoorbereiding voor generatieve AI met Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Voorwaarden

Voor deze walkthrough moet u het volgende hebben:

Note: Maak OpenSearch Service-domeinen aan volgens de instructies hier. Laten we voor de eenvoud de optie kiezen met een hoofdgebruikersnaam en wachtwoord voor fijnmazige toegangscontrole. Zodra het domein is gemaakt, maakt u een vectorindex met de volgende toewijzingen, en vectordimensie 1536 wordt uitgelijnd met de inbedding van Amazon Titan:

PUT knowledge-base-index
{ "settings": { "index.knn": True }, "mappings": { "properties": { "text_content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }, "text_content_v": { "type": "knn_vector", "dimension": 1536 }, } }
} }

walkthrough

Bouw een gegevensstroom

In dit gedeelte bespreken we hoe we een gegevensstroom kunnen opbouwen om tekst en metagegevens uit PDF's te extraheren, de gegevens op te schonen en te verwerken, insluitingen te genereren met Amazon Bedrock en de gegevens te indexeren in Amazon OpenSearch.

Start SageMaker Canvas

Voer de volgende stappen uit om SageMaker Canvas te starten:

Op de Amazone SageMaker-console, kiezen domeinen in het navigatievenster.
Kies uw domein.
Kies in het startmenu Canvas print.

Maak een gegevensstroom

Voer de volgende stappen uit om een gegevensstroom in SageMaker Canvas te maken:

Kies op de startpagina van SageMaker Canvas Gegevens Wrangler.
Kies creëren aan de rechterkant van de pagina, geef vervolgens een naam voor de gegevensstroom op en selecteer creëren.
Dit komt terecht op een gegevensstroompagina.
Kies Datums importeren, selecteer tabelgegevens.

Laten we nu de gegevens uit de Amazon S3-bucket importeren:

Kies Datums importeren en selecteer tabellarisch uit de vervolgkeuzelijst.
Databron en selecteer Amazon S3 uit de vervolgkeuzelijst.
Navigeer naar het metagegevensbestand met PDF-bestandslocaties en kies het bestand.
Nu wordt het metadatabestand in de gegevensstroom voor gegevensvoorbereiding geladen en kunnen we doorgaan met het toevoegen van volgende stappen om de gegevens en index naar Amazon te transformeren OpenSearch. In dit geval heeft het bestand de volgende metagegevens, met de locatie van elk bestand in de Amazon S3-map.

Voer de volgende stappen uit om een nieuwe transformatie toe te voegen:

Kies het plusteken en kies Voeg Transform toe.
Kies Stap toevoegen En kies Aangepaste transformatie.
U kunt een aangepaste transformatie maken met behulp van Pandas, PySpark, door de gebruiker gedefinieerde functies van Python en SQL PySpark. Kiezen Python (PySpark) voor deze gebruikssituatie.
Voer een naam in voor de stap. Blader en selecteer uit de voorbeeldcodefragmenten tekst uit pdf extraheren. Breng de nodige wijzigingen aan in het codefragment en selecteer Toevoegen.
Laten we een stap toevoegen om gegevens over persoonlijk identificeerbare informatie (PII) uit de geëxtraheerde gegevens te redigeren door gebruik te maken van Amazon begrijpt het. Kiezen Stap toevoegen En kies Aangepaste transformatie. En selecteer Python (PySpark).

Blader en selecteer uit de voorbeeldcodefragmenten masker PII. Breng de nodige wijzigingen aan in het codefragment en selecteer Toe te voegen.

Vereenvoudig de datavoorbereiding voor generatieve AI met Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

De volgende stap is het opsplitsen van de tekstinhoud. Kiezen Stap toevoegen En kies Aangepaste transformatie. En selecteer Python (PySpark).

Blader en selecteer uit de voorbeeldcodefragmenten Stukje tekst. Breng de nodige wijzigingen aan in het codefragment en selecteer Toe te voegen.

Vereenvoudig de datavoorbereiding voor generatieve AI met Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Laten we de tekstinhoud converteren naar vectorinsluitingen met behulp van de Amazonebodem Titan Embeddings-model. Kiezen Stap toevoegen En kies Aangepaste transformatie. En selecteer Python (PySpark).

Blader en selecteer uit de voorbeeldcodefragmenten Genereer tekstinsluiting met Bedrock. Breng de nodige wijzigingen aan in het codefragment en selecteer Toe te voegen.

Vereenvoudig de datavoorbereiding voor generatieve AI met Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Nu hebben we vectorinsluitingen beschikbaar voor de inhoud van het PDF-bestand. Laten we doorgaan en de gegevens indexeren in Amazon OpenSearch. Kiezen Stap toevoegen En kies Aangepaste transformatie. En selecteer Python (PySpark). U bent vrij om de volgende code te herschrijven om uw favoriete vectordatabase te gebruiken. Voor de eenvoud gebruiken we de hoofdgebruikersnaam en het wachtwoord om toegang te krijgen tot de OpenSearch API's. Voor productieworkloads selecteert u de optie op basis van uw organisatiebeleid.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "text_redacted_chunks_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def index_data(text_redacted_chunks, text_redacted_chunks_embedding): input_json = json.dumps({"text_content": text_redacted_chunks[-1], "text_content_v": text_redacted_chunks_embedding[-1]}) response = requests.request(method="POST", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_doc', headers=headers, json=input_json, auth=(master_user, 'master_pass'), timeout=30) return response.content indexing_udf = udf(index_data, StringType())
df = df.withColumn('index_response', indexing_udf(col("text_redacted_chunks"), col("text_redacted_chunks_embedding")))

Vereenvoudig de datavoorbereiding voor generatieve AI met Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Ten slotte zou de gecreëerde gegevensstroom er als volgt uitzien:

Vereenvoudig de datavoorbereiding voor generatieve AI met Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Met deze gegevensstroom zijn de gegevens uit het PDF-bestand gelezen en geïndexeerd met vectorinsluitingen in Amazon OpenSearch. Nu is het tijd voor ons om een bestand met zoekopdrachten te maken om de geïndexeerde gegevens op te vragen en deze op te slaan op de Amazon S3-locatie. We verwijzen onze zoekgegevensstroom naar het bestand en voeren een bestand met bijbehorende resultaten uit in een nieuw bestand op een Amazon S3-locatie.

Een prompt voorbereiden

Nadat we een kennisbank van onze PDF hebben gemaakt, kunnen we deze testen door in de kennisbank naar enkele voorbeeldquery's te zoeken. We verwerken elke vraag als volgt:

Genereer insluiting voor de zoekopdracht (mogelijk gemaakt door Amazon Bedrock)
Queryvectordatabase voor de context van de dichtstbijzijnde buur (mogelijk gemaakt door Amazon OpenSearch)
Combineer de query en de context in de prompt.
Query LLM met een prompt (mogelijk gemaakt door Amazon Bedrock)
Kies op de startpagina van SageMaker Canvas Data voorbereiding.
Kies creëren aan de rechterkant van de pagina, geef vervolgens een naam voor de gegevensstroom op en selecteer creëren.

Laten we nu de gebruikersvragen laden en vervolgens een prompt maken door de vraag en soortgelijke documenten te combineren. Deze prompt wordt aan de LLM verstrekt om een antwoord op de gebruikersvraag te genereren.

Laten we een csv-bestand met gebruikersvragen laden. Kiezen Data importeren en selecteer tabellarisch uit de vervolgkeuzelijst.
Databron, en selecteer Amazon S3 uit de vervolgkeuzelijst. Als alternatief kunt u ervoor kiezen om een bestand met gebruikersquery's te uploaden.
Laten we een aangepaste transformatie toevoegen om de gegevens om te zetten in vector-insluitingen, gevolgd door het zoeken naar gerelateerde insluitingen van Amazon OpenSearch, voordat we een prompt naar Amazon Bedrock sturen met de zoekopdracht en context uit de kennisbank. Om insluitingen voor de query te genereren, kunt u hetzelfde voorbeeldcodefragment gebruiken Genereer tekstinsluiting met Bedrock vermeld in stap 7 hierboven.

Laten we de Amazon OpenSearch API aanroepen om relevante documenten te doorzoeken op de gegenereerde vectorinsluitingen. Voeg een aangepaste transformatie toe met Python (PySpark).

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "Queries_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def search_data(text_column_embedding): input_json={'size':20,'query':{'knn':{'text_content_v':{'vector':{text_column_embedding},'k':5,},},},'fields':['text_content']} response = requests.request(method="GET", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_search', headers=headers, json=input_json, auth=(master_user, master_pass'), timeout=30) return response.content search_udf = udf(search_data, types.ArrayType())
df = df.withColumn(output_column,search_udf(col(text_column)))

Laten we een aangepaste transformatie toevoegen om de Amazon Bedrock API aan te roepen voor antwoord op vragen, waarbij de documenten uit de Amazon OpenSearch-kennisbank worden doorgegeven. Blader en selecteer uit de voorbeeldcodefragmenten Query Bedrock met context. Breng de nodige wijzigingen aan in het codefragment en selecteer Toe te voegen.

Vereenvoudig de datavoorbereiding voor generatieve AI met Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Samenvattend is de op RAG gebaseerde vraag- en antwoordgegevensstroom als volgt:

Vereenvoudig de datavoorbereiding voor generatieve AI met Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

ML-beoefenaars besteden veel tijd aan het maken van feature-engineeringcode, het toepassen ervan op hun initiële datasets, het trainen van modellen op de ontwikkelde datasets en het evalueren van de nauwkeurigheid van het model. Gezien het experimentele karakter van dit werk leidt zelfs het kleinste project tot meerdere iteraties. Dezelfde functie-engineeringcode wordt vaak steeds opnieuw uitgevoerd, waardoor tijd en computerbronnen worden verspild aan het herhalen van dezelfde bewerkingen. In grote organisaties kan dit een nog groter productiviteitsverlies veroorzaken, omdat verschillende teams vaak identieke taken uitvoeren of zelfs dubbele feature-engineeringcode schrijven omdat ze geen kennis hebben van eerder werk. Om te voorkomen dat functies opnieuw worden verwerkt, exporteren we onze gegevensstroom naar een Amazon SageMaker-pijplijn. Laten we het selecteren + knop rechts van de zoekopdracht. Selecteer gegevensstroom exporteren en kies Voer de SageMaker-pijplijn uit (via Jupyter-notebook).

Vereenvoudig de datavoorbereiding voor generatieve AI met Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Schoonmaken

Om te voorkomen dat er in de toekomst kosten in rekening worden gebracht, verwijdert of sluit u de bronnen af die u hebt gemaakt tijdens het volgen van dit bericht. Verwijzen naar Afmelden bij Amazon SageMaker Canvas voor meer details.

Conclusie

In dit bericht hebben we je laten zien hoe de end-to-end-mogelijkheden van Amazon SageMaker Canvas worden benut door de rol op zich te nemen van een dataprofessional die gegevens voorbereidt voor een LLM. De interactieve gegevensvoorbereiding maakte het snel opschonen, transformeren en analyseren van de gegevens mogelijk om informatieve functies te ontwikkelen. Door codeercomplexiteit weg te nemen, maakte SageMaker Canvas snelle iteratie mogelijk om een hoogwaardige trainingsdataset te creëren. Deze versnelde workflow leidde rechtstreeks tot het bouwen, trainen en implementeren van een performant machine learning-model voor zakelijke impact. Met zijn uitgebreide datavoorbereiding en uniforme ervaring van data tot inzichten stelt SageMaker Canvas gebruikers in staat hun ML-resultaten te verbeteren.

We moedigen u aan om meer te leren door te verkennen Amazon SageMaker-gegevens Wrangler, Amazon SageMaker-canvas, Amazone Titan modellen Amazonebodemen Amazon OpenSearch-service om een oplossing te bouwen met behulp van de voorbeeldimplementatie in dit bericht en een dataset die relevant is voor uw bedrijf. Als u vragen of suggesties heeft, kunt u een reactie achterlaten.

Over de auteurs

Ajjay Govindaram is Senior Solutions Architect bij AWS. Hij werkt met strategische klanten die AI/ML gebruiken om complexe bedrijfsproblemen op te lossen. Zijn ervaring ligt in het geven van technische leiding en ontwerpondersteuning voor bescheiden tot grootschalige implementaties van AI/ML-applicaties. Zijn kennis reikt van applicatie-architectuur tot big data, analytics en machine learning. Hij luistert graag naar muziek terwijl hij rust, het buitenleven ervaart en tijd doorbrengt met zijn dierbaren.

Nikita Ivkin is een Senior Applied Scientist bij Amazon SageMaker Data Wrangler met interesse in machine learning en algoritmen voor het opschonen van gegevens.