Zgradite robustno rešitev za pretvorbo besedila v SQL, ki ustvarja kompleksne poizvedbe, se samopopravlja in poizveduje po različnih virih podatkov

Ponovno objavil Platon

Spremljevalci: 0

Structured Query Language (SQL) je kompleksen jezik, ki zahteva razumevanje baz podatkov in metapodatkov. danes, generativni AI lahko omogoči ljudem brez znanja SQL. Ta generativna naloga umetne inteligence se imenuje besedilo v SQL, ki ustvarja poizvedbe SQL iz obdelave naravnega jezika (NLP) in pretvori besedilo v semantično pravilen SQL. Rešitev v tej objavi želi prenesti analitične operacije podjetja na višjo raven s skrajšanjem poti do vaših podatkov z uporabo naravnega jezika.

S pojavom velikih jezikovnih modelov (LLM) je generacija SQL, ki temelji na NLP, doživela pomembno preobrazbo. LLM-ji, ki izkazujejo izjemno zmogljivost, so zdaj sposobni generirati natančne poizvedbe SQL iz opisov v naravnem jeziku. Vendar izzivi še vedno ostajajo. Prvič, človeški jezik je sam po sebi dvoumen in odvisen od konteksta, medtem ko je SQL natančen, matematičen in strukturiran. Ta vrzel lahko povzroči netočno pretvorbo uporabnikovih potreb v generirani SQL. Drugič, morda boste morali zgraditi funkcije besedila v SQL za vsako bazo podatkov, ker podatki pogosto niso shranjeni v enem samem cilju. Morda boste morali znova ustvariti zmogljivost za vsako zbirko podatkov, da uporabnikom omogočite generiranje SQL, ki temelji na NLP. Tretjič, kljub večjemu sprejemanju centraliziranih analitičnih rešitev, kot so podatkovna jezera in skladišča, kompleksnost narašča z različnimi imeni tabel in drugimi metapodatki, ki so potrebni za ustvarjanje SQL za želene vire. Zato ostaja izziv tudi zbiranje celovitih in kakovostnih metapodatkov. Če želite izvedeti več o najboljših praksah in vzorcih oblikovanja besedila v SQL, glejte Ustvarjanje vrednosti iz podatkov podjetja: najboljše prakse za Text2SQL in generativni AI.

Naša rešitev je namenjena reševanju teh izzivov z uporabo Amazon Bedrock in Analitske storitve AWS. Uporabljamo Antropični Claude v2.1 na Amazon Bedrock kot naš LLM. Za reševanje izzivov naša rešitev najprej vključuje metapodatke podatkovnih virov znotraj Katalog podatkov o lepilu AWS za povečanje natančnosti ustvarjene poizvedbe SQL. Potek dela vključuje tudi končno ocenjevanje in zanko popravljanja, v primeru, da odkrije kakršne koli težave s SQL Amazonska Atena, ki se na nižji stopnji uporablja kot mehanizem SQL. Athena nam omogoča tudi uporabo množice podprte končne točke in priključki za pokrivanje velikega nabora virov podatkov.

Ko se sprehodimo skozi korake za izdelavo rešitve, predstavimo rezultate nekaterih testnih scenarijev z različnimi stopnjami kompleksnosti SQL. Nazadnje razpravljamo o tem, kako je preprosto vključiti različne vire podatkov v vaše poizvedbe SQL.

Pregled rešitev

V naši arhitekturi so tri kritične komponente: Retrieval Augmented Generation (RAG) z metapodatki baze podatkov, večstopenjska zanka za samopopravljanje in Athena kot naš motor SQL.

Metodo RAG uporabljamo za pridobivanje opisov tabel in opisov shem (stolpcev) iz metashrambe AWS Glue, da zagotovimo, da je zahteva povezana s pravo tabelo in nabori podatkov. V naši rešitvi smo zgradili posamezne korake za izvajanje ogrodja RAG s katalogom podatkov AWS Glue Data Catalog za namene predstavitve. Vendar pa lahko uporabite tudi baze znanja v Amazon Bedrock za hitro izdelavo rešitev RAG.

Večstopenjska komponenta omogoča LLM, da popravi ustvarjeno poizvedbo SQL za natančnost. Tukaj se ustvarjeni SQL pošlje za sintaksne napake. Sporočila o napakah Athena uporabljamo za obogatitev našega poziva za LLM za natančnejše in učinkovitejše popravke v ustvarjenem SQL.

Sporočila o napakah, ki občasno prihajajo iz Athene, lahko obravnavate kot povratne informacije. Stroškovne posledice koraka odprave napak so zanemarljive v primerjavi z dostavljeno vrednostjo. Te korektivne korake lahko celo vključite kot nadzorovane primere okrepljenega učenja za natančno nastavitev svojih LLM. Vendar tega toka zaradi poenostavitve nismo zajeli v naši objavi.

Upoštevajte, da vedno obstaja neločljivo tveganje za netočnosti, kar seveda prihaja z generativnimi rešitvami AI. Tudi če so sporočila o napakah Athena zelo učinkovita za ublažitev tega tveganja, lahko dodate več kontrolnikov in pogledov, kot so človeške povratne informacije ali primeri poizvedb za natančno nastavitev, da dodatno zmanjšate takšna tveganja.

Athena nam ne samo omogoča, da popravimo poizvedbe SQL, ampak nam tudi poenostavi celotno težavo, saj služi kot središče, kjer so kraki več virov podatkov. Upravljanje dostopa, sintaksa SQL in drugo se upravlja prek Athene.

Naslednji diagram prikazuje arhitekturo rešitev.

Prikazana je arhitektura rešitve in potek procesa.

Slika 1. Arhitektura rešitve in potek procesa.

Potek postopka vključuje naslednje korake:

Ustvarite katalog podatkov o lepilu AWS z uporabo pajka AWS Glue (ali drugačna metoda).
Uporaba Model Titan-Text-Embeddings na Amazon Bedrock, metapodatke pretvorite v vdelave in jih shranite v Amazon OpenSearch brez strežnika vektorska trgovina, ki služi kot naša baza znanja v našem ogrodju RAG.

Na tej stopnji je proces pripravljen za sprejem poizvedbe v naravnem jeziku. Koraki 7–9 predstavljajo korekcijsko zanko, če je primerna.

Uporabnik svojo poizvedbo vnese v naravnem jeziku. Za uporabniški vmesnik za klepet lahko uporabite katero koli spletno aplikacijo. Zato v naši objavi nismo zajeli podrobnosti uporabniškega vmesnika.
Rešitev uporablja okvir RAG prek iskanje podobnosti, ki doda dodaten kontekst iz metapodatkov iz vektorske zbirke podatkov. Ta tabela se uporablja za iskanje prave tabele, baze podatkov in atributov.
Poizvedba se združi s kontekstom in pošlje v Antropični Claude v2.1 na Amazon Bedrock.
Model dobi ustvarjeno poizvedbo SQL in se poveže z Atheno, da potrdi sintakso.
Če Athena prikaže sporočilo o napaki, ki omenja, da je sintaksa napačna, model uporabi besedilo napake iz Atheninega odgovora.
Nov poziv doda Athenin odgovor.
Model ustvari popravljeni SQL in nadaljuje postopek. To ponovitev je mogoče izvesti večkrat.
Na koncu zaženemo SQL z uporabo Athene in ustvarimo izhod. Tukaj je rezultat predstavljen uporabniku. Zaradi arhitekturne preprostosti tega koraka nismo prikazali.

Predpogoji

Za to objavo morate izpolniti naslednje predpogoje:

imeti AWS račun.
namestitev o Vmesnik ukazne vrstice AWS (AWS CLI).
Nastavite SDK za Python (Boto3).
Ustvarite katalog podatkov o lepilu AWS z uporabo pajka AWS Glue (ali drugačna metoda).
Uporaba Model Titan-Text-Embeddings na Amazon Bedrock, metapodatke pretvorite v vdelave in jih shranite v OpenSearch Serverless vektorska trgovina.

Izvedite rešitev

Uporabite lahko naslednje Jupyterjev zvezek, ki vključuje vse izrezke kode v tem razdelku, za izdelavo rešitve. Priporočamo uporabo Amazon SageMaker Studio da odprete ta zvezek s primerkom ml.t3.medium z jedrom Python 3 (Data Science). Za navodila glejte Usposobite model strojnega učenja. Izvedite naslednje korake za nastavitev rešitve:

Ustvarite bazo znanja v storitvi OpenSearch za ogrodje RAG:

def add_documnets(self,index_name: str,file_name:str):

documents = JSONLoader(file_path=file_name, jq_schema='.', text_content=False, json_lines=False).load()
docs = OpenSearchVectorSearch.from_documents(embedding=self.embeddings, opensearch_url=self.opensearch_domain_endpoint, http_auth=self.http_auth, documents=documents, index_name=index_name, engine="faiss")
index_exists = self.check_if_index_exists(index_name,aws_region,opensearch_domain_endpoint,http_auth)
if not index_exists :
logger.info(f'index :{index_name} is not existing ')
sys.exit(-1)
else:
logger.info(f'index :{index_name} Got created')

Zgradite poziv (final_question) s kombiniranjem uporabniškega vnosa v naravnem jeziku (user_query), ustrezne metapodatke iz vektorske shrambe (vector_search_match), in naša navodila (details):

def userinput(user_query):
logger.info(f'Searching metadata from vector store')

# vector_search_match=rqst.getEmbeddding(user_query)
vector_search_match = rqst.getOpenSearchEmbedding(index_name,user_query)

# print(vector_search_match)
details = "It is important that the SQL query complies with Athena syntax. 
During join if column name are same please use alias ex llm.customer_id 
in select statement. It is also important to respect the type of columns: 
if a column is string, the value should be enclosed in quotes. 
If you are writing CTEs then include all the required columns. 
While concatenating a non string column, make sure cast the column to string. 
For date columns comparing to string , please cast the string input."
final_question = "nnHuman:"+details + vector_search_match + user_query+ "nnAssistant:"
answer = rqst.generate_sql(final_question)
return answer

Prikličite Amazon Bedrock za LLM (Claude v2) in ga pozovite, naj ustvari poizvedbo SQL. V naslednji kodi naredi več poskusov, da ponazori korak samopopravljanja:x

try:
logger.info(f'we are in Try block to generate the sql and count is :{attempt + 1}')
generated_sql = self.llm.predict(prompt)
query_str = generated_sql.split("```")[1]
query_str = " ".join(query_str.split("n")).strip()
sql_query = query_str[3:] if query_str.startswith("sql") else query_str

# return sql_query
syntaxcheckmsg=rqstath.syntax_checker(sql_query)
if syntaxcheckmsg=='Passed':
logger.info(f'syntax checked for query passed in attempt number :{attempt + 1}')
return sql_query

Če pride do težav z ustvarjeno poizvedbo SQL ({sqlgenerated}) iz odgovora Athene ({syntaxcheckmsg}), novi poziv (prompt) se ustvari na podlagi odgovora in model poskuša znova ustvariti nov SQL:

else:
prompt = f"""{prompt} 
This is syntax error: {syntaxcheckmsg}.
To correct this, please generate an alternative SQL query which will correct the syntax error. The updated query should take care of all the syntax issues encountered. Follow the instructions mentioned above to remediate the error.
Update the below SQL query to resolve the issue:
{sqlgenerated}
Make sure the updated SQL query aligns with the requirements provided in the initial question."""
prompts.append(prompt)

Ko je SQL ustvarjen, se kliče odjemalec Athena, da se zažene in ustvari izhod:

query_execution = self.athena_client.start_query_execution(
QueryString=query_string,
ResultConfiguration=result_config,
QueryExecutionContext=query_execution_context, )
execution_id = query_execution["QueryExecutionId"]

Preizkusite raztopino

V tem razdelku izvajamo našo rešitev z različnimi primeri scenarijev za preizkušanje različnih stopenj kompleksnosti poizvedb SQL.

Za testiranje našega besedila v SQL uporabljamo dva nabori podatkov so na voljo na IMDB. Podmnožice podatkov IMDb so na voljo za osebno in nekomercialno uporabo. Nabore podatkov lahko prenesete in jih shranite Preprosta storitev shranjevanja Amazon (Amazon S3). Za ustvarjanje tabel v AWS Glue lahko uporabite naslednji delček SQL Spark. Za ta primer uporabljamo title_ratings in title:

source_title_ratings3_path = 's3://llm-athena-output/input_data/title.ratings.tsv'
target_title_s3_path='s3://llm-athena-output/output_data/imdb_stg/title_ratings'
source_titleratingdf=spark.read.csv(source_title_ratings3_path,sep="t",header=True)
source_titleratingdf.write.mode('overwrite').format('parquet').option('path', target_title_s3_path).saveAsTable('imdb_stg.title_ratings')

Shranite podatke v Amazon S3 in metapodatke v AWS Glue

V tem scenariju je naš nabor podatkov shranjen v vedru S3. Athena ima priključek S3, ki omogoča uporabo storitve Amazon S3 kot vira podatkov, po katerem lahko poizvedujete.

Za našo prvo poizvedbo zagotovimo vnos »Sem nov v tem. Ali mi lahko pomagate videti vse tabele in stolpce v shemi imdb?«

Sledi ustvarjena poizvedba:

WITH tables AS (
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'imdb_stg'),
columns AS (
SELECT
c.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM information_schema.columns c
WHERE c.table_schema = 'imdb_stg')
SELECT
t.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM tables t
INNER JOIN columns c
ON t.table_name = c.table_name
ORDER BY
t.table_name,
c.ordinal_position
LIMIT 10;

Naslednji posnetek zaslona in koda prikazujeta naš rezultat.

Tabela, ki prikazuje atribute primera nabora podatkov IMBD.

table_name column_name data_type
0 title titleid varchar
1 title ordering integer
2 title title varchar
3 title region varchar
4 title language varchar

Za našo drugo poizvedbo vprašamo "Pokaži mi vse naslove in podrobnosti v regiji ZDA, katere ocena je višja od 9.5."

Sledi naša ustvarjena poizvedba:

WITH us_titles AS (
SELECT t.title, t.region, tr.averageRating, tr.numVotes
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.region = 'US' AND cast(tr.averageRating as varchar) > '9.5'
)
SELECT title, region, averageRating, numVotes
FROM us_titles
LIMIT 100;

Odgovor je naslednji.

Tabela, ki prikazuje rezultate poizvedbe sql

title region averageRating numVotes
0 The Way You Saw Me US 9.7 8
1 The Brother Side of the Wake US 9.6 20
2 Ignis Fatuus US 9.6 11
3 Love and Hip Hop Atlanta US 9.9 11
4 ronny/lily US 9.7 14781

Za našo tretjo poizvedbo vnesemo »Odličen odziv! Zdaj pa mi pokaži vse naslove izvirne vrste z ocenami več kot 7.5 in niso v regiji ZDA.«

Ustvari se naslednja poizvedba:

WITH titles AS (
SELECT t.titleId,
t.title,
t.types,
t.isOriginalTitle,
cast(tr.averageRating as decimal(3,1)) as averageRating,
tr.numVotes,
t.region
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.isOriginalTitle = '1'
AND cast(tr.averageRating as decimal(3,1)) > 7.5
AND t.region != 'US')
SELECT *
FROM titles
LIMIT 100;

Dobimo naslednje rezultate.

Ena vrstica, ki prikazuje rezultat poizvedbe SQL.

titleId title types isOriginalTitle averageRating numVotes region
0 tt0986264 Taare Zameen Par original 1 8.3 203760 XWW

Ustvarite samopopravljeni SQL

Ta scenarij simulira poizvedbo SQL, ki ima težave s sintakso. Tukaj bo ustvarjeni SQL samodejno popravljen na podlagi odgovora Athene. V naslednjem odgovoru je Athena dala a COLUMN_NOT_FOUND napako in to omenil table_description ni mogoče rešiti:

Status : {'State': 'FAILED', 'StateChangeReason': "COLUMN_NOT_FOUND: line 1:50: Column 'table_description' 
cannot be resolved or requester is not authorized to access requested resources",
'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 501000, tzinfo=tzlocal()),
'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 778000, tzinfo=tzlocal()),
'AthenaError': {'ErrorCategory': 2, 'ErrorType': 1006, 'Retryable': False, 'ErrorMessage': "COLUMN_NOT_FOUND: 
line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to 
access requested resources"}}
COLUMN_NOT_FOUND: line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to access requested resources
Try Count: 2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,Try Count: 2
we are in Try block to generate the sql and count is :2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,we are in Try block to generate the sql and count is :2
Executing: Explain WITH tables AS ( SELECT table_name FROM information_schema.tables WHERE table_schema = 'imdb_stg' ), columns AS ( SELECT c.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM information_schema.columns c WHERE c.table_schema = 'imdb_stg' ) SELECT t.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM tables t INNER JOIN columns c ON t.table_name = c.table_name ORDER BY t.table_name, c.ordinal_position LIMIT 10;
I am checking the syntax here
execution_id: 904857c3-b7ac-47d0-8e7e-6b9d0456099b
Status : {'State': 'SUCCEEDED', 'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 29, 537000, tzinfo=tzlocal()), 'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 30, 183000, tzinfo=tzlocal())}
syntax checked for query passed in tries number :2

Uporaba rešitve z drugimi viri podatkov

Če želite rešitev uporabiti z drugimi viri podatkov, Athena opravi delo namesto vas. Za to uporablja Athena priključki vira podatkov ki se lahko uporablja z zvezne poizvedbe. Konektor lahko obravnavate kot razširitev mehanizma poizvedb Athena. Za vire podatkov, kot je npr Dnevniki Amazon CloudWatch, Amazon DynamoDB, Amazon DocumentDB (z združljivostjo z MongoDB)in Služba za relacijske baze podatkov Amazon (Amazon RDS) in viri relacijskih podatkov, skladni z JDBC, kot sta MySQL in PostgreSQL pod licenco Apache 2.0. Ko nastavite povezavo s katerim koli virom podatkov, lahko uporabite prejšnjo osnovo kode za razširitev rešitve. Za več informacij glejte Izvedite poizvedbo po katerem koli viru podatkov z novo zvezno poizvedbo Amazon Athena.

Čiščenje

Če želite očistiti vire, lahko začnete z čiščenje vašega vedra S3 kjer se podatki nahajajo. Razen če vaša aplikacija prikliče Amazon Bedrock, ne bo povzročila nobenih stroškov. Zaradi najboljših praks upravljanja infrastrukture priporočamo, da izbrišete vire, ustvarjene v tej predstavitvi.

zaključek

V tej objavi smo predstavili rešitev, ki vam omogoča uporabo NLP za ustvarjanje kompleksnih poizvedb SQL z različnimi viri, ki jih omogoča Athena. Povečali smo tudi natančnost ustvarjenih poizvedb SQL prek večstopenjske ocenjevalne zanke, ki temelji na sporočilih o napakah iz nadaljnjih procesov. Poleg tega smo uporabili metapodatke v katalogu podatkov AWS Glue Data Catalog, da smo upoštevali imena tabel, zahtevana v poizvedbi prek ogrodja RAG. Rešitev smo nato preizkusili v različnih realističnih scenarijih z različnimi stopnjami kompleksnosti poizvedbe. Nazadnje smo razpravljali o tem, kako uporabiti to rešitev za različne vire podatkov, ki jih podpira Athena.

Amazon Bedrock je središče te rešitve. Amazon Bedrock vam lahko pomaga zgraditi številne generativne aplikacije AI. Če želite začeti uporabljati Amazon Bedrock, priporočamo, da sledite naslednjemu hitremu začetku GitHub repo in se seznanite z gradnjo generativnih aplikacij AI. Lahko tudi poskusite baze znanja v Amazon Bedrock za hitro izdelavo takšnih rešitev RAG.

O avtorjih

Zgradite robustno rešitev besedila v SQL, ki ustvarja kompleksne poizvedbe, se samopopravlja in poizveduje po različnih virih podatkov | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Sanjeeb Panda je inženir podatkov in ML pri Amazonu. Z ozadjem na področju AI/ML, Data Science in Big Data Sanjeeb oblikuje in razvija inovativne rešitve za podatke in ML, ki rešujejo zapletene tehnične izzive in dosegajo strateške cilje za globalne 3P prodajalce, ki upravljajo svoja podjetja na Amazonu. Sanjeeb Panda je poleg svojega dela inženirja za podatke in ML pri Amazonu navdušen gurman in glasbeni navdušenec.

Zgradite robustno rešitev besedila v SQL, ki ustvarja kompleksne poizvedbe, se samopopravlja in poizveduje po različnih virih podatkov | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Burak Gozluklu je glavni arhitekt za rešitve AI/ML s sedežem v Bostonu, MA. Strateškim strankam pomaga pri sprejemanju tehnologij AWS in posebej Generative AI rešitev za doseganje njihovih poslovnih ciljev. Burak ima doktorat iz vesoljskega inženiringa na METU, magisterij iz sistemskega inženiringa in postdoktorski študij sistemske dinamike na MIT v Cambridgeu, MA. Burak je še vedno raziskovalec na MIT. Burak se navdušuje nad jogo in meditacijo.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://aws.amazon.com/blogs/machine-learning/build-a-robust-text-to-sql-solution-generating-complex-queries-self-correcting-and-querying-diverse-data-sources/

Časovni žig: Februar 28, 2024

Časovni žig: April 25, 2022

Ponovno objavil Platon

InformedIQ avtomatizira preverjanja za samodejno posojanje podjetja Origence s pomočjo strojnega učenja

Zgradite vmesnik za razporejevalnik sestankov, integriran z Meta, z uporabo Amazon Lex in Amazon Connect

Zaženite in optimizirajte sklepanje več modelov s končnimi točkami več modelov Amazon SageMaker

Nastavite Amazon SageMaker Studio z Jupyter Lab 3 z uporabo AWS CDK

AWS Inferentia in AWS Trainium zagotavljata najnižje stroške za uvajanje modelov Llama 3 v Amazon SageMaker JumpStart | Spletne storitve Amazon

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun