Bygg en robust text-till-SQL-lösning Genererar komplexa frågor, självkorrigerar och frågar efter olika datakällor

Återutgiven av Platon

anhängare: 0

Structured Query Language (SQL) är ett komplext språk som kräver förståelse för databaser och metadata. I dag, generativ AI kan aktivera människor utan SQL-kunskaper. Denna generativa AI-uppgift kallas text-to-SQL, som genererar SQL-frågor från naturlig språkbehandling (NLP) och omvandlar text till semantiskt korrekt SQL. Lösningen i det här inlägget syftar till att ta företagsanalysverksamheten till nästa nivå genom att förkorta vägen till din data med naturligt språk.

Med framväxten av stora språkmodeller (LLM) har NLP-baserad SQL-generering genomgått en betydande transformation. LLM:er demonstrerar exceptionell prestanda och kan nu generera korrekta SQL-frågor från beskrivningar av naturliga språk. Men det finns fortfarande utmaningar kvar. För det första är det mänskliga språket i sig tvetydigt och kontextberoende, medan SQL är exakt, matematiskt och strukturerat. Denna lucka kan resultera i felaktig konvertering av användarens behov till den SQL som genereras. För det andra kan du behöva bygga text-till-SQL-funktioner för varje databas eftersom data ofta inte lagras i ett enda mål. Du kanske måste återskapa kapaciteten för varje databas för att möjliggöra för användare med NLP-baserad SQL-generering. För det tredje, trots den större användningen av centraliserade analyslösningar som datasjöar och lager, ökar komplexiteten med olika tabellnamn och annan metadata som krävs för att skapa SQL för de önskade källorna. Därför är det fortfarande en utmaning att samla in omfattande och högkvalitativ metadata. För att lära dig mer om text-till-SQL bästa praxis och designmönster, se Generera värde från företagsdata: Bästa metoder för Text2SQL och generativ AI.

Vår lösning syftar till att hantera dessa utmaningar med hjälp av Amazonas berggrund och AWS Analytics-tjänster. Vi använder Antropisk Claude v2.1 på Amazon Bedrock som vår LLM. För att möta utmaningarna, införlivar vår lösning först metadata från datakällorna inom AWS limdatakatalog för att öka noggrannheten i den genererade SQL-frågan. Arbetsflödet inkluderar också en slutlig utvärdering och korrigeringsslinga, om några SQL-problem identifieras av Amazonas Athena, som används nedströms som SQL-motor. Athena låter oss också använda en mängd av stödda ändpunkter och kontakter för att täcka en stor uppsättning datakällor.

Efter att vi gått igenom stegen för att bygga lösningen presenterar vi resultaten av några testscenarier med varierande SQL-komplexitetsnivåer. Slutligen diskuterar vi hur det är enkelt att införliva olika datakällor i dina SQL-frågor.

Lösningsöversikt

Det finns tre kritiska komponenter i vår arkitektur: Retrieval Augmented Generation (RAG) med databasmetadata, en självkorrigeringsloop i flera steg och Athena som vår SQL-motor.

Vi använder RAG-metoden för att hämta tabellbeskrivningar och schemabeskrivningar (kolumner) från AWS Glue-metastore för att säkerställa att begäran är relaterad till rätt tabell och datauppsättningar. I vår lösning byggde vi de individuella stegen för att köra ett RAG-ramverk med AWS Glue Data Catalog för demonstrationsändamål. Men du kan också använda kunskapsbaser i Amazon Bedrock för att snabbt bygga RAG-lösningar.

Flerstegskomponenten tillåter LLM att korrigera den genererade SQL-frågan för noggrannhet. Här skickas den genererade SQL-koden för syntaxfel. Vi använder Athena-felmeddelanden för att berika vår uppmaning till LLM för mer exakta och effektiva korrigeringar i den genererade SQL-koden.

Du kan betrakta felmeddelanden som ibland kommer från Athena som feedback. Kostnadskonsekvenserna av ett felkorrigeringssteg är försumbara jämfört med det levererade värdet. Du kan till och med inkludera dessa korrigerande steg som övervakade exempel på förstärkt lärande för att finjustera dina LLM:er. Vi täckte dock inte detta flöde i vårt inlägg för enkelhets skull.

Observera att det alltid finns en inneboende risk för felaktigheter, vilket naturligtvis kommer med generativa AI-lösningar. Även om Athena-felmeddelanden är mycket effektiva för att minska denna risk, kan du lägga till fler kontroller och vyer, såsom mänsklig feedback eller exempelfrågor för finjustering, för att ytterligare minimera sådana risker.

Athena tillåter oss inte bara att korrigera SQL-frågorna, utan det förenklar också det övergripande problemet för oss eftersom det fungerar som navet, där ekrarna är flera datakällor. Åtkomsthantering, SQL-syntax och mer hanteras alla via Athena.

Följande diagram illustrerar lösningsarkitekturen.

Lösningsarkitekturen och processflödet visas.

Figur 1. Lösningsarkitekturen och processflödet.

Processflödet inkluderar följande steg:

Skapa AWS Glue Data Catalog med hjälp av en AWS Glue-crawler (eller en annan metod).
Använda Titan-Text-Embeddings-modell på Amazon Bedrockkonvertera metadata till inbäddningar och lagra dem i en Amazon OpenSearch Serverlös vektor butik, som fungerar som vår kunskapsbas i vårt RAG-ramverk.

I detta skede är processen redo att ta emot frågan på naturligt språk. Steg 7–9 representerar en korrigeringsslinga, om tillämpligt.

Användaren anger sin fråga på naturligt språk. Du kan använda vilken webbapplikation som helst för att tillhandahålla chattgränssnittet. Därför täckte vi inte UI-detaljerna i vårt inlägg.
Lösningen tillämpar ett RAG-ramverk via likhetssökning, som lägger till det extra sammanhanget från metadata från vektordatabasen. Den här tabellen används för att hitta rätt tabell, databas och attribut.
Frågan slås samman med sammanhanget och skickas till Antropisk Claude v2.1 på Amazon Bedrock.
Modellen får den genererade SQL-frågan och ansluter till Athena för att validera syntaxen.
Om Athena ger ett felmeddelande som nämner att syntaxen är felaktig, använder modellen feltexten från Athenas svar.
Den nya uppmaningen lägger till Athenas svar.
Modellen skapar den korrigerade SQL-koden och fortsätter processen. Denna iteration kan utföras flera gånger.
Slutligen kör vi SQL med Athena och genererar utdata. Här presenteras resultatet för användaren. För den arkitektoniska enkelhetens skull visade vi inte detta steg.

Förutsättningar

För detta inlägg bör du uppfylla följande förutsättningar:

Ha en AWS-konto.
installera d AWS-kommandoradsgränssnitt (AWS CLI).
Ställ in SDK för Python (Boto3).
Skapa AWS Glue Data Catalog med hjälp av en AWS Glue-crawler (eller en annan metod).
Använda Titan-Text-Embeddings-modell på Amazon Bedrock, konvertera metadata till inbäddningar och lagra dem i en OpenSearch Serverless vektor butik.

Implementera lösningen

Du kan använda följande Jupyter anteckningsbok, som innehåller alla kodavsnitt som tillhandahålls i det här avsnittet, för att bygga lösningen. Vi rekommenderar att du använder Amazon SageMaker Studio för att öppna den här anteckningsboken med en ml.t3.medium-instans med Python 3 (Data Science) kärnan. För instruktioner, se Utbilda en maskininlärningsmodell. Utför följande steg för att konfigurera lösningen:

Skapa kunskapsbasen i OpenSearch Service för RAG-ramverket:

def add_documnets(self,index_name: str,file_name:str):

documents = JSONLoader(file_path=file_name, jq_schema='.', text_content=False, json_lines=False).load()
docs = OpenSearchVectorSearch.from_documents(embedding=self.embeddings, opensearch_url=self.opensearch_domain_endpoint, http_auth=self.http_auth, documents=documents, index_name=index_name, engine="faiss")
index_exists = self.check_if_index_exists(index_name,aws_region,opensearch_domain_endpoint,http_auth)
if not index_exists :
logger.info(f'index :{index_name} is not existing ')
sys.exit(-1)
else:
logger.info(f'index :{index_name} Got created')

Bygg uppmaningen (final_question) genom att kombinera användarinmatningen på naturligt språk (user_query), relevant metadata från vektorarkivet (vector_search_match), och våra instruktioner (details):

def userinput(user_query):
logger.info(f'Searching metadata from vector store')

# vector_search_match=rqst.getEmbeddding(user_query)
vector_search_match = rqst.getOpenSearchEmbedding(index_name,user_query)

# print(vector_search_match)
details = "It is important that the SQL query complies with Athena syntax. 
During join if column name are same please use alias ex llm.customer_id 
in select statement. It is also important to respect the type of columns: 
if a column is string, the value should be enclosed in quotes. 
If you are writing CTEs then include all the required columns. 
While concatenating a non string column, make sure cast the column to string. 
For date columns comparing to string , please cast the string input."
final_question = "nnHuman:"+details + vector_search_match + user_query+ "nnAssistant:"
answer = rqst.generate_sql(final_question)
return answer

Anropa Amazon Bedrock för LLM (Claude v2) och uppmana den att generera SQL-frågan. I följande kod gör den flera försök för att illustrera självkorrigeringssteget:x

try:
logger.info(f'we are in Try block to generate the sql and count is :{attempt + 1}')
generated_sql = self.llm.predict(prompt)
query_str = generated_sql.split("```")[1]
query_str = " ".join(query_str.split("n")).strip()
sql_query = query_str[3:] if query_str.startswith("sql") else query_str

# return sql_query
syntaxcheckmsg=rqstath.syntax_checker(sql_query)
if syntaxcheckmsg=='Passed':
logger.info(f'syntax checked for query passed in attempt number :{attempt + 1}')
return sql_query

Om några problem tas emot med den genererade SQL-frågan ({sqlgenerated}) från Athenas svar ({syntaxcheckmsg}), den nya prompten (prompt) genereras baserat på svaret och modellen försöker igen att generera den nya SQL:en:

else:
prompt = f"""{prompt} 
This is syntax error: {syntaxcheckmsg}.
To correct this, please generate an alternative SQL query which will correct the syntax error. The updated query should take care of all the syntax issues encountered. Follow the instructions mentioned above to remediate the error.
Update the below SQL query to resolve the issue:
{sqlgenerated}
Make sure the updated SQL query aligns with the requirements provided in the initial question."""
prompts.append(prompt)

Efter att SQL har genererats anropas Athena-klienten för att köra och generera utdata:

query_execution = self.athena_client.start_query_execution(
QueryString=query_string,
ResultConfiguration=result_config,
QueryExecutionContext=query_execution_context, )
execution_id = query_execution["QueryExecutionId"]

Testa lösningen

I det här avsnittet kör vi vår lösning med olika exempelscenarier för att testa olika komplexitetsnivåer för SQL-frågor.

För att testa vår text-till-SQL använder vi två datauppsättningar tillgängliga från IMDB. Underuppsättningar av IMDb-data är tillgängliga för personligt och icke-kommersiellt bruk. Du kan ladda ner datamängder och lagra dem i Amazon enkel lagringstjänst (Amazon S3). Du kan använda följande Spark SQL-kodavsnitt för att skapa tabeller i AWS Glue. För det här exemplet använder vi title_ratings och title:

source_title_ratings3_path = 's3://llm-athena-output/input_data/title.ratings.tsv'
target_title_s3_path='s3://llm-athena-output/output_data/imdb_stg/title_ratings'
source_titleratingdf=spark.read.csv(source_title_ratings3_path,sep="t",header=True)
source_titleratingdf.write.mode('overwrite').format('parquet').option('path', target_title_s3_path).saveAsTable('imdb_stg.title_ratings')

Lagra data i Amazon S3 och metadata i AWS Glue

I det här scenariot lagras vår datauppsättning i en S3-hink. Athena har en S3-kontakt som gör att du kan använda Amazon S3 som en datakälla som kan frågas.

För vår första fråga ger vi input "Jag är ny på det här. Kan du hjälpa mig att se alla tabeller och kolumner i imdb-schema?"

Följande är den genererade frågan:

WITH tables AS (
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'imdb_stg'),
columns AS (
SELECT
c.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM information_schema.columns c
WHERE c.table_schema = 'imdb_stg')
SELECT
t.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM tables t
INNER JOIN columns c
ON t.table_name = c.table_name
ORDER BY
t.table_name,
c.ordinal_position
LIMIT 10;

Följande skärmdump och kod visar vår utdata.

Tabell som visar attributen för exemplet IMBD-datauppsättning.

table_name column_name data_type
0 title titleid varchar
1 title ordering integer
2 title title varchar
3 title region varchar
4 title language varchar

För vår andra fråga frågar vi "Visa mig alla titel och detaljer i USA-regionen vars betyg är mer än 9.5."

Följande är vår genererade fråga:

WITH us_titles AS (
SELECT t.title, t.region, tr.averageRating, tr.numVotes
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.region = 'US' AND cast(tr.averageRating as varchar) > '9.5'
)
SELECT title, region, averageRating, numVotes
FROM us_titles
LIMIT 100;

Svaret är följande.

En tabell som visar resultaten av sql-frågan

title region averageRating numVotes
0 The Way You Saw Me US 9.7 8
1 The Brother Side of the Wake US 9.6 20
2 Ignis Fatuus US 9.6 11
3 Love and Hip Hop Atlanta US 9.9 11
4 ronny/lily US 9.7 14781

För vår tredje fråga anger vi "Bra svar! Visa mig nu alla titlar av originaltyp med betyg över 7.5 och inte i USA.

Följande fråga genereras:

WITH titles AS (
SELECT t.titleId,
t.title,
t.types,
t.isOriginalTitle,
cast(tr.averageRating as decimal(3,1)) as averageRating,
tr.numVotes,
t.region
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.isOriginalTitle = '1'
AND cast(tr.averageRating as decimal(3,1)) > 7.5
AND t.region != 'US')
SELECT *
FROM titles
LIMIT 100;

Vi får följande resultat.

En enda rad som visar resultatet av SQL-frågan.

titleId title types isOriginalTitle averageRating numVotes region
0 tt0986264 Taare Zameen Par original 1 8.3 203760 XWW

Generera självkorrigerad SQL

Det här scenariot simulerar en SQL-fråga som har syntaxproblem. Här kommer den genererade SQL-koden att självkorrigeras baserat på svaret från Athena. I följande svar gav Athena en COLUMN_NOT_FOUND fel och nämnde det table_description kan inte lösas:

Status : {'State': 'FAILED', 'StateChangeReason': "COLUMN_NOT_FOUND: line 1:50: Column 'table_description' 
cannot be resolved or requester is not authorized to access requested resources",
'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 501000, tzinfo=tzlocal()),
'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 778000, tzinfo=tzlocal()),
'AthenaError': {'ErrorCategory': 2, 'ErrorType': 1006, 'Retryable': False, 'ErrorMessage': "COLUMN_NOT_FOUND: 
line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to 
access requested resources"}}
COLUMN_NOT_FOUND: line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to access requested resources
Try Count: 2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,Try Count: 2
we are in Try block to generate the sql and count is :2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,we are in Try block to generate the sql and count is :2
Executing: Explain WITH tables AS ( SELECT table_name FROM information_schema.tables WHERE table_schema = 'imdb_stg' ), columns AS ( SELECT c.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM information_schema.columns c WHERE c.table_schema = 'imdb_stg' ) SELECT t.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM tables t INNER JOIN columns c ON t.table_name = c.table_name ORDER BY t.table_name, c.ordinal_position LIMIT 10;
I am checking the syntax here
execution_id: 904857c3-b7ac-47d0-8e7e-6b9d0456099b
Status : {'State': 'SUCCEEDED', 'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 29, 537000, tzinfo=tzlocal()), 'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 30, 183000, tzinfo=tzlocal())}
syntax checked for query passed in tries number :2

Använda lösningen med andra datakällor

För att använda lösningen med andra datakällor sköter Athena jobbet åt dig. För att göra detta använder Athena datakälla-anslutningar som kan användas med federerade frågor. Du kan överväga en anslutning som en förlängning av Athena-frågemotorn. Det finns förbyggda Athena-datakälla-anslutningar för datakällor som Amazon CloudWatch-loggar, Amazon DynamoDB, Amazon DocumentDB (med MongoDB-kompatibilitet)och Amazon Relational Databas Service (Amazon RDS), och JDBC-kompatibla relationsdatakällor som MySQL och PostgreSQL under Apache 2.0-licensen. När du har skapat en anslutning till valfri datakälla kan du använda den föregående kodbasen för att utöka lösningen. För mer information, se Fråga vilken datakälla som helst med Amazon Athenas nya federerade fråga.

Städa upp

För att rensa upp resurserna kan du börja med städa upp din S3 hink var uppgifterna finns. Om inte din applikation åberopar Amazon Bedrock kommer det inte att medföra någon kostnad. För bästa praxis för infrastrukturhantering rekommenderar vi att du tar bort resurserna som skapats i den här demonstrationen.

Slutsats

I det här inlägget presenterade vi en lösning som låter dig använda NLP för att generera komplexa SQL-frågor med en mängd olika resurser aktiverade av Athena. Vi ökade också noggrannheten hos de genererade SQL-frågorna via en flerstegsutvärderingsslinga baserad på felmeddelanden från nedströmsprocesser. Dessutom använde vi metadata i AWS Glue Data Catalog för att överväga tabellnamnen som ställdes i frågan genom RAG-ramverket. Vi testade sedan lösningen i olika realistiska scenarier med olika frågekomplexitetsnivåer. Slutligen diskuterade vi hur man tillämpar denna lösning på olika datakällor som stöds av Athena.

Amazon Bedrock är i centrum för denna lösning. Amazon Bedrock kan hjälpa dig att bygga många generativa AI-applikationer. För att komma igång med Amazon Bedrock rekommenderar vi att du följer snabbstarten nedan GitHub repo och bekanta dig med att bygga generativa AI-applikationer. Du kan också prova kunskapsbaser i Amazon Bedrock för att snabbt bygga sådana RAG-lösningar.

Om författarna

Bygg en robust text-till-SQL-lösning som genererar komplexa frågor, självkorrigerar och frågar olika datakällor | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Sanjeeb Panda är data- och ML-ingenjör på Amazon. Med bakgrunden inom AI/ML, Data Science och Big Data designar och utvecklar Sanjeeb innovativa data- och ML-lösningar som löser komplexa tekniska utmaningar och uppnår strategiska mål för globala 3P-säljare som hanterar sina verksamheter på Amazon. Utöver sitt arbete som data- och ML-ingenjör på Amazon är Sanjeeb Panda en ivrig matälskare och musikentusiast.

Bygg en robust text-till-SQL-lösning som genererar komplexa frågor, självkorrigerar och frågar olika datakällor | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Burak Gozluklu är en Principal AI/ML Specialist Solutions Architect i Boston, MA. Han hjälper strategiska kunder att ta till sig AWS-teknologier och specifikt generativa AI-lösningar för att uppnå sina affärsmål. Burak har en doktorsexamen i flygteknik från METU, en MS i systemteknik och en post-doc i systemdynamik från MIT i Cambridge, MA. Burak är fortfarande en forskningsfilial i MIT. Burak brinner för yoga och meditation.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/build-a-robust-text-to-sql-solution-generating-complex-queries-self-correcting-and-querying-diverse-data-sources/

Tidsstämpel: Februari 28, 2024

Tidsstämpel: December 16, 2022

Återutgiven av Platon

Realtidsanalys av kundsentiment med AWS

Accelererar storskalig neurala nätverksträning på CPU:er med ThirdAI och AWS Graviton | Amazon webbtjänster

Distribuera stora språkmodeller på AWS Inferentia2 med hjälp av stora modellinferensbehållare

Intelligent dokumentbehandling med AWS AI-tjänster: Del 2

Amazon SageMaker Automatic Model Tuning ger nu upp till tre gånger snabbare hyperparameterinställning med Hyperband

Förbättra transkriptionsnoggrannheten för kundagentsamtal med anpassat ordförråd i Amazon Transcribe

Vi presenterar Fortuna: Ett bibliotek för kvantifiering av osäkerhet

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto