Build A Robust Text-to-SQL Solution Generating Complex Queries, Self-correcting, And Querying Diverse Data Sources

Republicat de Platon

Urmaritori: 0

Structured Query Language (SQL) este un limbaj complex care necesită înțelegerea bazelor de date și a metadatelor. Astăzi, AI generativă poate permite persoanelor fără cunoștințe SQL. Această sarcină AI generativă se numește text-to-SQL, care generează interogări SQL din procesarea limbajului natural (NLP) și convertește textul în SQL corect din punct de vedere semantic. Soluția din această postare își propune să aducă operațiunile de analiză a întreprinderii la următorul nivel, scurtând calea către datele dvs. folosind limbajul natural.

Odată cu apariția modelelor de limbaj mari (LLM), generarea SQL bazată pe NLP a suferit o transformare semnificativă. Demonstrând performanțe excepționale, LLM-urile sunt acum capabile să genereze interogări SQL precise din descrierile în limbaj natural. Cu toate acestea, provocări încă rămân. În primul rând, limbajul uman este în mod inerent ambiguu și dependent de context, în timp ce SQL este precis, matematic și structurat. Acest decalaj poate duce la conversia inexactă a nevoilor utilizatorului în SQL-ul generat. În al doilea rând, ar putea fi necesar să construiți caracteristici text-to-SQL pentru fiecare bază de date, deoarece datele nu sunt adesea stocate într-o singură țintă. Este posibil să trebuiască să recreați capacitatea pentru fiecare bază de date pentru a permite utilizatorilor generarea SQL bazată pe NLP. În al treilea rând, în ciuda adoptării mai mari a soluțiilor de analiză centralizată, cum ar fi lacurile de date și depozitele, complexitatea crește cu diferite nume de tabel și alte metadate care sunt necesare pentru a crea SQL-ul pentru sursele dorite. Prin urmare, colectarea metadatelor cuprinzătoare și de înaltă calitate rămâne, de asemenea, o provocare. Pentru a afla mai multe despre cele mai bune practici text-to-SQL și modele de proiectare, consultați Generarea de valoare din datele companiei: Cele mai bune practici pentru Text2SQL și AI generativă.

Soluția noastră își propune să abordeze aceste provocări folosind Amazon Bedrock și Servicii de analiză AWS. Folosim Claude antropic v2.1 pe Amazon Bedrock ca LLM nostru. Pentru a aborda provocările, soluția noastră încorporează mai întâi metadatele surselor de date în cadrul Catalogul de date AWS Glue pentru a crește acuratețea interogării SQL generate. Fluxul de lucru include, de asemenea, o evaluare finală și o buclă de corecție, în cazul în care sunt identificate probleme SQL Amazon Atena, care este folosit în aval ca motor SQL. Athena ne permite, de asemenea, să folosim o multitudine de puncte finale și conectori acceptate pentru a acoperi un set mare de surse de date.

După ce parcurgem pașii pentru construirea soluției, prezentăm rezultatele unor scenarii de testare cu diferite niveluri de complexitate SQL. În cele din urmă, discutăm despre modul în care este simplu să încorporați diferite surse de date la interogările dvs. SQL.

Prezentare generală a soluțiilor

Există trei componente critice în arhitectura noastră: Retrieval Augmented Generation (RAG) cu metadate ale bazei de date, o buclă de autocorecție în mai mulți pași și Athena ca motor SQL.

Folosim metoda RAG pentru a prelua descrierile tabelelor și descrierile schemei (coloane) din metamagazinul AWS Glue pentru a ne asigura că cererea este legată de tabelul și seturile de date potrivite. În soluția noastră, am construit pașii individuali pentru a rula un cadru RAG cu Catalogul de date AWS Glue în scopuri demonstrative. Cu toate acestea, puteți utiliza și baze de cunoștințe în Amazon Bedrock pentru a construi rapid soluții RAG.

Componenta cu mai mulți pași permite LLM să corecteze interogarea SQL generată pentru acuratețe. Aici, SQL-ul generat este trimis pentru erori de sintaxă. Folosim mesajele de eroare Athena pentru a ne îmbogăți solicitarea pentru LLM pentru corecții mai precise și mai eficiente în SQL-ul generat.

Puteți lua în considerare mesajele de eroare care vin ocazional de la Athena ca feedback. Implicațiile de cost ale unui pas de corectare a erorilor sunt neglijabile în comparație cu valoarea livrată. Puteți chiar să includeți acești pași corectivi ca exemple de învățare consolidată supervizată pentru a vă ajusta mai fine cursurile LLM. Cu toate acestea, nu am acoperit acest flux în postarea noastră din motive de simplitate.

Rețineți că există întotdeauna riscul inerent de a avea inexactități, care vine în mod natural cu soluții AI generative. Chiar dacă mesajele de eroare Athena sunt extrem de eficiente pentru a atenua acest risc, puteți adăuga mai multe controale și vizualizări, cum ar fi feedback uman sau exemple de interogări pentru reglare fină, pentru a minimiza și mai mult astfel de riscuri.

Athena nu numai că ne permite să corectăm interogările SQL, dar simplifică și problema generală pentru noi, deoarece servește drept hub, unde spițele sunt surse multiple de date. Gestionarea accesului, sintaxa SQL și multe altele sunt toate gestionate prin Athena.

Următoarea diagramă ilustrează arhitectura soluției.

Este prezentată arhitectura soluției și fluxul procesului.

Figura 1. Arhitectura soluției și fluxul de proces.

Fluxul procesului include următorii pași:

Creați catalogul de date AWS Glue folosind un crawler AWS Glue (sau o altă metodă).
Utilizarea Modelul Titan-Text-Embeddings pe Amazon Bedrock, convertiți metadatele în înglobări și stocați-le într-un Amazon OpenSearch Serverless magazin de vectori, care servește drept bază de cunoștințe în cadrul nostru RAG.

În această etapă, procesul este gata să primească interogarea în limbaj natural. Pașii 7–9 reprezintă o buclă de corecție, dacă este cazul.

Utilizatorul introduce interogarea în limbaj natural. Puteți utiliza orice aplicație web pentru a furniza interfața de chat. Prin urmare, nu am acoperit detaliile UI în postarea noastră.
Soluția aplică un cadru RAG prin căutarea de similaritate, care adaugă contextul suplimentar din metadatele din baza de date vectorială. Acest tabel este folosit pentru a găsi tabelul, baza de date și atributele corecte.
Interogarea este îmbinată cu contextul și trimisă către Claude antropic v2.1 pe Amazon Bedrock.
Modelul primește interogarea SQL generată și se conectează la Athena pentru a valida sintaxa.
Dacă Athena oferă un mesaj de eroare care menționează că sintaxa este incorectă, modelul folosește textul de eroare din răspunsul Athena.
Noul prompt adaugă răspunsul Athenei.
Modelul creează SQL-ul corectat și continuă procesul. Această iterație poate fi efectuată de mai multe ori.
În cele din urmă, rulăm SQL folosind Athena și generăm ieșire. Aici, rezultatul este prezentat utilizatorului. De dragul simplității arhitecturale, nu am arătat acest pas.

Cerințe preliminare

Pentru această postare, ar trebui să îndepliniți următoarele cerințe preliminare:

Au un Cont AWS.
Instala il Interfața liniei de comandă AWS (CLI AWS).
Configurați SDK pentru Python (Boto3).
Creați catalogul de date AWS Glue folosind un crawler AWS Glue (sau o altă metodă).
Utilizarea Modelul Titan-Text-Embeddings pe Amazon Bedrock, convertiți metadatele în încorporare și stocați-le într-un OpenSearch Serverless magazin de vectori.

Implementează soluția

Puteți utiliza următoarele Caiet Jupyter, care include toate fragmentele de cod furnizate în această secțiune, pentru a construi soluția. Vă recomandăm să utilizați Amazon SageMaker Studio pentru a deschide acest notebook cu o instanță ml.t3.medium cu nucleul Python 3 (Data Science). Pentru instrucțiuni, consultați Antrenați un model de învățare automată. Parcurgeți următorii pași pentru a configura soluția:

Creați baza de cunoștințe în OpenSearch Service pentru cadrul RAG:

def add_documnets(self,index_name: str,file_name:str):

documents = JSONLoader(file_path=file_name, jq_schema='.', text_content=False, json_lines=False).load()
docs = OpenSearchVectorSearch.from_documents(embedding=self.embeddings, opensearch_url=self.opensearch_domain_endpoint, http_auth=self.http_auth, documents=documents, index_name=index_name, engine="faiss")
index_exists = self.check_if_index_exists(index_name,aws_region,opensearch_domain_endpoint,http_auth)
if not index_exists :
logger.info(f'index :{index_name} is not existing ')
sys.exit(-1)
else:
logger.info(f'index :{index_name} Got created')

Creați promptul (final_question) prin combinarea intrărilor utilizatorului în limbaj natural (user_query), metadatele relevante din magazinul de vectori (vector_search_match), și instrucțiunile noastre (details):

def userinput(user_query):
logger.info(f'Searching metadata from vector store')

# vector_search_match=rqst.getEmbeddding(user_query)
vector_search_match = rqst.getOpenSearchEmbedding(index_name,user_query)

# print(vector_search_match)
details = "It is important that the SQL query complies with Athena syntax. 
During join if column name are same please use alias ex llm.customer_id 
in select statement. It is also important to respect the type of columns: 
if a column is string, the value should be enclosed in quotes. 
If you are writing CTEs then include all the required columns. 
While concatenating a non string column, make sure cast the column to string. 
For date columns comparing to string , please cast the string input."
final_question = "nnHuman:"+details + vector_search_match + user_query+ "nnAssistant:"
answer = rqst.generate_sql(final_question)
return answer

Invocați Amazon Bedrock pentru LLM (Claude v2) și solicitați-i să genereze interogarea SQL. În următorul cod, face mai multe încercări pentru a ilustra pasul de autocorecție:x

try:
logger.info(f'we are in Try block to generate the sql and count is :{attempt + 1}')
generated_sql = self.llm.predict(prompt)
query_str = generated_sql.split("```")[1]
query_str = " ".join(query_str.split("n")).strip()
sql_query = query_str[3:] if query_str.startswith("sql") else query_str

# return sql_query
syntaxcheckmsg=rqstath.syntax_checker(sql_query)
if syntaxcheckmsg=='Passed':
logger.info(f'syntax checked for query passed in attempt number :{attempt + 1}')
return sql_query

Dacă se primesc probleme cu interogarea SQL generată ({sqlgenerated}) din răspunsul Athena ({syntaxcheckmsg}), noul prompt (prompt) este generat pe baza răspunsului și modelul încearcă din nou să genereze noul SQL:

else:
prompt = f"""{prompt} 
This is syntax error: {syntaxcheckmsg}.
To correct this, please generate an alternative SQL query which will correct the syntax error. The updated query should take care of all the syntax issues encountered. Follow the instructions mentioned above to remediate the error.
Update the below SQL query to resolve the issue:
{sqlgenerated}
Make sure the updated SQL query aligns with the requirements provided in the initial question."""
prompts.append(prompt)

După ce SQL este generat, clientul Athena este invocat pentru a rula și a genera rezultatul:

query_execution = self.athena_client.start_query_execution(
QueryString=query_string,
ResultConfiguration=result_config,
QueryExecutionContext=query_execution_context, )
execution_id = query_execution["QueryExecutionId"]

Testați soluția

În această secțiune, rulăm soluția noastră cu diferite scenarii de exemplu pentru a testa diferite niveluri de complexitate ale interogărilor SQL.

Pentru a testa text-to-SQL, folosim două seturi de date disponibile de la IMDB. Subseturi de date IMDb sunt disponibile pentru uz personal și necomercial. Puteți descărca seturile de date și le puteți stoca în Serviciul Amazon de stocare simplă (Amazon S3). Puteți utiliza următorul fragment Spark SQL pentru a crea tabele în AWS Glue. Pentru acest exemplu, folosim title_ratings și title:

source_title_ratings3_path = 's3://llm-athena-output/input_data/title.ratings.tsv'
target_title_s3_path='s3://llm-athena-output/output_data/imdb_stg/title_ratings'
source_titleratingdf=spark.read.csv(source_title_ratings3_path,sep="t",header=True)
source_titleratingdf.write.mode('overwrite').format('parquet').option('path', target_title_s3_path).saveAsTable('imdb_stg.title_ratings')

Stocați date în Amazon S3 și metadate în AWS Glue

În acest scenariu, setul nostru de date este stocat într-o găleată S3. Athena are un conector S3 care vă permite să utilizați Amazon S3 ca sursă de date care poate fi interogată.

Pentru prima noastră interogare, oferim intrarea „Sunt nou în acest sens. Mă puteți ajuta să văd toate tabelele și coloanele din schema imdb?”

Următoarea este interogarea generată:

WITH tables AS (
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'imdb_stg'),
columns AS (
SELECT
c.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM information_schema.columns c
WHERE c.table_schema = 'imdb_stg')
SELECT
t.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM tables t
INNER JOIN columns c
ON t.table_name = c.table_name
ORDER BY
t.table_name,
c.ordinal_position
LIMIT 10;

Următoarea captură de ecran și codul arată rezultatul nostru.

Tabel care arată atributele setului de date IMBD exemplu.

table_name column_name data_type
0 title titleid varchar
1 title ordering integer
2 title title varchar
3 title region varchar
4 title language varchar

Pentru a doua noastră interogare, întrebăm „Arată-mi toate titlurile și detaliile din regiunea SUA a cărei evaluare este mai mare de 9.5”.

Următoarea este interogarea noastră generată:

WITH us_titles AS (
SELECT t.title, t.region, tr.averageRating, tr.numVotes
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.region = 'US' AND cast(tr.averageRating as varchar) > '9.5'
)
SELECT title, region, averageRating, numVotes
FROM us_titles
LIMIT 100;

Răspunsul este următorul.

Un tabel care arată rezultatele interogării sql

title region averageRating numVotes
0 The Way You Saw Me US 9.7 8
1 The Brother Side of the Wake US 9.6 20
2 Ignis Fatuus US 9.6 11
3 Love and Hip Hop Atlanta US 9.9 11
4 ronny/lily US 9.7 14781

Pentru a treia întrebare, introducem „Great Response! Acum arată-mi toate titlurile de tip original cu evaluări mai mari de 7.5 și nu în regiunea SUA.”

Este generată următoarea interogare:

WITH titles AS (
SELECT t.titleId,
t.title,
t.types,
t.isOriginalTitle,
cast(tr.averageRating as decimal(3,1)) as averageRating,
tr.numVotes,
t.region
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.isOriginalTitle = '1'
AND cast(tr.averageRating as decimal(3,1)) > 7.5
AND t.region != 'US')
SELECT *
FROM titles
LIMIT 100;

Obținem următoarele rezultate.

Un singur rând care arată rezultatul interogării SQL.

titleId title types isOriginalTitle averageRating numVotes region
0 tt0986264 Taare Zameen Par original 1 8.3 203760 XWW

Generați SQL auto-corectat

Acest scenariu simulează o interogare SQL care are probleme de sintaxă. Aici, SQL-ul generat va fi autocorectat pe baza răspunsului de la Athena. În următorul răspuns, Atena a dat a COLUMN_NOT_FOUND eroare și a menționat că table_description nu se poate rezolva:

Status : {'State': 'FAILED', 'StateChangeReason': "COLUMN_NOT_FOUND: line 1:50: Column 'table_description' 
cannot be resolved or requester is not authorized to access requested resources",
'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 501000, tzinfo=tzlocal()),
'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 778000, tzinfo=tzlocal()),
'AthenaError': {'ErrorCategory': 2, 'ErrorType': 1006, 'Retryable': False, 'ErrorMessage': "COLUMN_NOT_FOUND: 
line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to 
access requested resources"}}
COLUMN_NOT_FOUND: line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to access requested resources
Try Count: 2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,Try Count: 2
we are in Try block to generate the sql and count is :2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,we are in Try block to generate the sql and count is :2
Executing: Explain WITH tables AS ( SELECT table_name FROM information_schema.tables WHERE table_schema = 'imdb_stg' ), columns AS ( SELECT c.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM information_schema.columns c WHERE c.table_schema = 'imdb_stg' ) SELECT t.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM tables t INNER JOIN columns c ON t.table_name = c.table_name ORDER BY t.table_name, c.ordinal_position LIMIT 10;
I am checking the syntax here
execution_id: 904857c3-b7ac-47d0-8e7e-6b9d0456099b
Status : {'State': 'SUCCEEDED', 'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 29, 537000, tzinfo=tzlocal()), 'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 30, 183000, tzinfo=tzlocal())}
syntax checked for query passed in tries number :2

Utilizarea soluției cu alte surse de date

Pentru a utiliza soluția cu alte surse de date, Athena se ocupă de treaba pentru tine. Pentru a face acest lucru, Athena folosește conectori pentru sursa de date care poate fi folosit cu interogări federate. Puteți considera un conector ca o extensie a motorului de interogări Athena. Conectori de surse de date Athena preconstruiți există pentru surse de date precum Jurnalele Amazon CloudWatch, Amazon DynamoDB, Amazon DocumentDB (cu compatibilitate cu MongoDB), și Serviciul de baze de date relaționale Amazon (Amazon RDS) și surse de date relaționale compatibile cu JDBC, cum ar fi MySQL și PostgreSQL sub licența Apache 2.0. După ce ați configurat o conexiune la orice sursă de date, puteți utiliza baza de cod anterioară pentru a extinde soluția. Pentru mai multe informații, consultați Interogați orice sursă de date cu noua interogare federată a Amazon Athena.

A curăța

Pentru a curăța resursele, puteți începe prin curăță-ți găleata S3 unde se află datele. Cu excepția cazului în care aplicația dvs. invocă Amazon Bedrock, aceasta nu va suporta niciun cost. De dragul celor mai bune practici de gestionare a infrastructurii, vă recomandăm să ștergeți resursele create în această demonstrație.

Concluzie

În această postare, am prezentat o soluție care vă permite să utilizați NLP pentru a genera interogări SQL complexe cu o varietate de resurse activate de Athena. De asemenea, am crescut acuratețea interogărilor SQL generate printr-o buclă de evaluare în mai mulți pași bazată pe mesajele de eroare din procesele din aval. În plus, am folosit metadatele din Catalogul de date AWS Glue pentru a lua în considerare numele tabelelor solicitate în interogare prin cadrul RAG. Apoi am testat soluția în diferite scenarii realiste cu diferite niveluri de complexitate a interogărilor. În cele din urmă, am discutat despre cum să aplicăm această soluție la diferite surse de date susținute de Athena.

Amazon Bedrock este în centrul acestei soluții. Amazon Bedrock vă poate ajuta să construiți multe aplicații AI generative. Pentru a începe cu Amazon Bedrock, vă recomandăm să urmați pornirea rapidă de mai jos GitHub repo și familiarizarea cu construirea de aplicații AI generative. Poti incerca si tu baze de cunoștințe în Amazon Bedrock pentru a construi astfel de soluții RAG rapid.

Despre Autori

Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Sanjeeb Panda este inginer de date și ML la Amazon. Cu experiență în AI/ML, Data Science și Big Data, Sanjeeb proiectează și dezvoltă soluții inovatoare de date și ML care rezolvă provocări tehnice complexe și ating obiective strategice pentru vânzătorii globale 3P care își gestionează afacerile pe Amazon. În afara muncii sale ca inginer de date și ML la Amazon, Sanjeeb Panda este un pasionat de gastronomie și pasionat de muzică.

Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Burak Gozluklu este arhitect principal în soluții de specialitate AI/ML, situat în Boston, MA. El îi ajută pe clienții strategici să adopte tehnologii AWS și, în special, soluții Generative AI pentru a-și atinge obiectivele de afaceri. Burak are un doctorat în Inginerie Aerospațială de la METU, un MS în Ingineria Sistemelor și un post-doctorat în dinamica sistemelor de la MIT din Cambridge, MA. Burak este încă un afiliat de cercetare în MIT. Burak este pasionat de yoga și meditație.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/machine-learning/build-a-robust-text-to-sql-solution-generating-complex-queries-self-correcting-and-querying-diverse-data-sources/

Timestamp-ul: 28 Februarie 2024

Timestamp-ul: 2 Mai, 2023

Republicat de Platon

Dezvoltarea sistemelor avansate de învățare automată la Trumid cu Deep Graph Library pentru Knowledge Embedding

Utilizați partajarea conductelor Amazon SageMaker pentru a vedea sau gestiona conductele în conturile AWS

Modelele de fond de ten Mistral 7B de la Mistral AI sunt acum disponibile în Amazon SageMaker JumpStart | Amazon Web Services

Vizualizați o analiză Amazon Comprehend cu un nor de cuvinte în Amazon QuickSight | Amazon Web Services

Aplicați mascarea vulgară în Amazon Translate

Partea 3: Cum NatWest Group a creat modele ML auditabile, reproductibile și explicabile cu Amazon SageMaker

Optimizați hiperparametrii cu Amazon SageMaker Automatic Model Tuning

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont